久久在线视频免费观看_亚洲乱码一区AV春药高潮_亚洲一区二区中文字幕_中文字幕美人妻亅u乚一596_亚洲精品综合一二三区在线观看_日韩欧美在线综合网另类

最新突破!科大訊飛榮獲多語言理解評測XTREME冠軍

發布時間:2022-01-03

近日,在世界權威多語言理解評測XTREME(Cross-Lingual Transfer Evaluation of Multilingual Encoders)中,哈工大訊飛聯合實驗室(HFL)團隊以總平均分84.1位列榜首,刷新世界記錄,在四個賽道中獲得三項最好成績。

這也標志著科大訊飛多語言理解與跨語言遷移能力再上新臺階。

這個難度有多高?先來看一段話:

The heat required for boiling the water and supplying the steam can be derived from various sources, most commonly from burning combustible materials with an appropriate supply of air in a closed space (called variously combustion chamber, firebox). In manchen F?llen ist die W?rmequelle ein Atomreaktor, Erdw?rme, Solarenergie oder Abw?rme von einem Verbrennungsmotor oder einem Industrieprozess. En el caso de modelos o motores de vapor de juguete, la fuente de calor puede ser un calentador eléctrico.

上述這段話包含了英語、德語、西班牙語,而這只是機器多語言理解評測的冰山一角,它要面臨的是多達40種語言的高難度理解。翻譯成中文就是:

讓水沸騰以提供蒸汽所需熱量有多種來源,最常見的是在封閉空間(別稱有燃燒室 、火箱)中供應適量空氣來燃燒可燃材料。在某些情況下,熱源是核反應堆、地熱能、太陽能 或來自內燃機或工業過程的廢氣。如果是模型或玩具蒸汽發動機,還可以將電加熱元件作為熱源。

最新突破:在40種語言下完成自然語言理解

XTREME評測由谷歌公司舉辦,旨在全面考察模型的多語言理解與跨語言遷移能力。該評測覆蓋了中文、英語、韓語、日語、阿拉伯語、越南語等40種語言,包含了句對分類、序列標注、閱讀理解、句子檢索賽道,共四大類九個任務。吸引了國內外眾多知名高校和研究機構參加。

XTREME評測包含4大類9個任務,分別為:

? 句對分類:XNLI、PAWS-X(自然語言推斷)
? 序列標注:UDPOS(詞性標注)、PANX (命名實體識別)
? 閱讀理解:XQuAD、MLQA、TyDiQA(片段抽取型閱讀理解)
? 句子檢索:BUCC、Tatoeba(跨語言文本檢索)

與以往單語言自然語言理解評測任務不同的是,XTREME中的每一個任務都覆蓋了多種語言,評測的是模型在多種語言上的理解能力平均指標,因此對系統模型的多語言理解與跨語言遷移能力要求大大提高。

其難度可想而知,榜單上的模型也代表了多語言模型的頂尖水平,因此獲得了眾多機構和高校的廣泛關注。

機器是怎么做到多語言理解的?

本次哈工大訊飛聯合實驗室提交的CoFe模型以總成績84.1分位居XTREME評測榜首,有三大法寶:
1、加入了自主研發的跨語言對比學習技術,鼓勵模型學習不同語言中的語義相似性。
2、利用知識蒸餾技術進行自監督學習和知識遷移,進一步提升了模型在各個語言上效果的穩定性。
3、創新性地融入了細粒度的語言學特征,幫助模型克服訓練不足的困難,解決低資源語言學習不充分的問題,同時使之適應不同語言的形態學特點。

也就是說,通過本土語言學習,機器可以在少量其他語言語料的情況下,通過“類比”學會這門語言,減少了收集語料、語音標注等大量工作。

這就是多語言理解與跨語言遷移能力!

發布少數民族語言預訓練模型CINO

“要讓中文語音技術由中國人做到最好。”

成立至今,科大訊飛初心未改,持續關注并積極推動中文相關信息處理技術的研究與發展。少數民族語言處理是中文信息處理中不可缺少的一環,也是中文信息處理多樣性的一種體現。這項技術的進步將極大改善我國少數民族語言學習問題。



目前由于國內少數民族語言語料稀缺、獲取難度大等原因,相關技術研究相對匱乏,而主流的多語言模型也無法很好地處理國內少數民族語言文字。為了促進中國少數民族語言信息處理的研究與發展,近期科大訊飛發布了首個面向少數民族語言的多語言預訓練模型CINO (Chinese mINOrity pre-trained language model),彌補相關資源的空白,并將相關預訓練模型和任務數據開源。希望未來能夠進一步促進業內少數民族語言相關的技術研究,推動少數民族語言相關技術的應用落地。未來支持各少數民族語言的多語言搜索引擎等文字應用工具或將成為可能。



下一篇:已經是第一篇 上一篇:北京2022年冬奧會倒計時10天!
微信公眾號
網站手機端
主站蜘蛛池模板: 性一交一乱一色一欲的最新章节 | 伊人黄色片一 | 日韩精品中出 | 好湿好紧太硬了我太爽了视频 | 亚洲午夜精品视频 | 国产天堂久久 | 欧美日韩激情视频在线观看 | 免费观看av网站 | 国产精品国产自线拍免费软件 | 欧美激情黑白配 | 精品夜夜澡人妻无码av蜜桃 | 中国少妇xxxxxxxxx28 | 日韩毛片在线免费观看 | 欧美日韩人成视频在线播放 | 毛片免费观看网址 | 中文字幕日产乱码中 | 粉色视频在线免费观看 | 中文字幕人成无码免费视频 | 国产成一区二区 | 黄在线观看网站 | 婷婷精品国产一区二区三区日韩 | 欧美18精品久久久无码午夜福利 | 少妇爆乳无码AV无码波霸 | 综合日韩天天久久一本 | 黄色一级片免费网站 | 日韩精品久久久肉伦网站 | 人人爽人人澡人人人妻、百度 | 国产精品一区二区在线观看不卡 | www.亚洲天堂| 亚洲一区二区自拍 | 亚洲精品天堂无码中文字幕 | 激情五月婷婷综合网 | 亚洲国产精品久久久久久久 | 西西人体www大胆高清 | 免费看a毛片 | 成人nv在线观看 | 亚洲美女精品区人人人人 | 大地资源影视免费观看 | 亚洲无码一级日韩 | 精品视频一区在线视频 | 一级黄色片在线 |