亚洲综合伊人,成人欧美一区二区三区视频不卡,欧美日韩在线高清,日韩国产午夜一区二区三区,大胆美女艺术,一级毛片毛片**毛片毛片,你瞅啥图片

您當(dāng)前的位置是:  首頁 > 資訊 > 國內(nèi) >
 首頁 > 資訊 > 國內(nèi) >

科大訊飛拿下SemEval 2022三項冠軍,多語種語言理解再上新臺階!

2022-04-21 09:31:34   作者:   來源:CTI論壇   評論:0  點擊:


  近日,第十六屆國際語義評測(The 16th International Workshop on Semantic Evaluation, SemEval 2022)大賽落下帷幕,科大訊飛在三項主要賽道中拿下冠軍,標(biāo)志著科大訊飛在多語種語言理解領(lǐng)域持續(xù)進(jìn)階。
  SemEval2022評測由國際計算語言學(xué)協(xié)會(Association for Computational Linguistics, ACL)旗下SIGLEX主辦,迄今已舉辦16屆,參賽者覆蓋國內(nèi)、外一流高校及知名企業(yè),包括達(dá)特茅斯學(xué)院、謝菲爾德大學(xué)、華為、阿里達(dá)摩院等,代表著最前沿國際技術(shù)和水平。
  經(jīng)過角逐,科大訊飛分別在“多語種新聞相似度評測任務(wù)”(Task8)、“多語種慣用語識別任務(wù)”子賽道(Task 2: Subtask A one-shot)、“多語種復(fù)雜命名實體識別任務(wù)”(Task11)三個子賽道中拿下冠軍。
  新聞相似度評價:目光如炬
  本次SemEval2022評測聚焦的Task8是多語種新聞相似度評價任務(wù)?拼笥嶏w與哈爾濱工業(yè)大學(xué)聯(lián)合組建的“哈工大訊飛聯(lián)合實驗室”(Joint Laboratory of HIT and iFLYTEK Research,簡稱HFL)以顯著優(yōu)勢摘得冠軍。
  簡單來說,參賽隊伍需要在每組新聞中判斷是否描述了同一個事件,并以1-4分為兩篇新聞的相似度打分,其中包含了多達(dá)10種語言,分別為阿拉伯語、德語、英語、西班牙語、法語、意大利語、波蘭語、俄語、土耳其語和中文。但新聞相似度究竟是什么?讓我們用一則示例為大家解讀。
  圖中列舉了兩篇相似度極高的新聞稿件,參賽隊伍必須將文中相似的主要元素剝離出來并逐一分析,比如地理信息、敘事技巧、實體、語氣、時間及風(fēng)格,最終得出兩篇文章的相似度與差異化。
  與普通的文章相比,該項比賽更強(qiáng)調(diào)跨語言理解能力,除了寫作風(fēng)格和敘述方式外,還需要把握文章中描述的具體事件。通俗來說,該項技術(shù)可以甄別外網(wǎng)的一些新聞報道是否存在偏差與曲解,從而有效預(yù)防虛假信息、不良信息的傳播。
  科大訊飛在這樣的賽道上拔得頭籌,充分展示了在跨語言理解能力上的強(qiáng)硬實力。
  慣用語檢測:熟能生巧
  哈工大訊飛聯(lián)合實驗室拿下的第二項任務(wù)冠軍,便是Task2 Subtask A的慣用語檢測。通俗來說,無論你是哪國人,在日常表達(dá)中都有一類短語的固定用法,并且該固定用法通常與短語的字面語義不同,我們會將這些短語稱為“慣用語”。想要理解包含慣用語的句子,首先需要判斷句子中的多字短語是否為慣用語,比如“說曹操,曹操到。”句中的曹操是否真實存在。
  該任務(wù)的形式便是給定一個目標(biāo)語句,包括其上下文和多字短語,繼而判斷該語句中的多字短語用法究竟是慣用語還是字面意思。該任務(wù)為多語言任務(wù),包含英語、葡萄牙語、加利西亞語三種語言。其中加利西亞語沒有在訓(xùn)練集中出現(xiàn)過,因此科大訊飛代表隊需要在不同語言之間進(jìn)行遷移學(xué)習(xí)。
  還是不懂?別擔(dān)心,讓我們來看一則示例。
  如例所示,Literal表示字面意思,第一句話可翻譯為:當(dāng)你從網(wǎng)中抓一條大魚時,最好撐住它的腰。Idiomatic表示慣用語,所以第二句話中再次出現(xiàn)了大魚一詞,但卻不是簡單的字面意思,而是“大人物”。
  所以該任務(wù)要求參賽隊伍區(qū)分不同句子中同一個詞的不同語義,這需要強(qiáng)大的分析及跨語言理解能力。有了該項技術(shù),在日常寫作和翻譯工作中,即可有效鑒別慣用語的表達(dá)用意,極大提高內(nèi)容準(zhǔn)確率。
  科大訊飛不負(fù)眾望,再摘桂冠。
  復(fù)雜命名實體識別:披荊斬棘
  這第三冠有多難?光聽名字就覺得復(fù)雜:多語種復(fù)雜命名實體識別任務(wù)(MutiCoNER)。科大訊飛聯(lián)合中國科學(xué)技術(shù)大學(xué)語音及語言信息處理國家工程研究中心迎難而上,在該項任務(wù)中一舉拿下三個子賽道冠軍。
  我們先拆解一下MuticoNER這個詞,Muti是multilingual(多語言)的簡稱,Co即是complex(復(fù)雜),而NER則是Named Entity Recognition,又稱作“命名實體識別”,是指識別文本中具有特定意義的實體,主要包括人名、地名、機(jī)構(gòu)名、專有名詞等。
  該任務(wù)是一個多語言賽道數(shù)據(jù)集,包含11項單獨(dú)語言命名實體評測任務(wù),以及2項多語言統(tǒng)一建模的評測任務(wù)。該榜單數(shù)據(jù)來源于Wikidata(維基數(shù)據(jù)),數(shù)據(jù)量龐大且極具應(yīng)用價值。參賽團(tuán)隊需要在單個語言以及多個語言混合的文本數(shù)據(jù)中,精準(zhǔn)預(yù)測不同語言實體的類別標(biāo)簽。該任務(wù)采用國際通用的槽位F1評價指標(biāo),我們在多語言混合、中文、孟加拉語賽道上,分別以92.9%、81.6%、84.2%的F1成績登頂。
  這項任務(wù)究竟有多難?舉個例子:NER是指從用戶文本中按照業(yè)務(wù)需求識別出實體的類別,之前任務(wù)基本上一句話中僅會出現(xiàn)一到兩個實體,本次任務(wù)需要抽出多實體增加實體抽取難度,同時需要具備多語種能力,例如【(皇馬)[organization]除了首輪負(fù)于[克星拉科](organization)以外,現(xiàn)在已是四連勝。(Rafael van der Vaart)[PER]、(Gonzalo Higuaín)[PER]和(Arjen Robben)[PER]的表現(xiàn)出色!考纫R別出多個相關(guān)實體,同時是各語種夾雜的文本。
  此前針對中文和英文需要單獨(dú)進(jìn)行模型建模,此次有關(guān)賽道的挑戰(zhàn)是僅使用一個模型來可以完成不同語種任務(wù),能夠快速識別復(fù)雜、專有詞匯,提高準(zhǔn)確率。

(多語言混合榜單)

(中文榜單)
  拒絕紙上談兵,技術(shù)應(yīng)用要落地
  當(dāng)前,人類已進(jìn)入“人、機(jī)、物”智能互聯(lián)時代,智能語音是這個時代最為關(guān)鍵的入口之一,有助于實現(xiàn)語言大互通,建設(shè)人類命運(yùn)共同體?拼笥嶏w始終保持初心、堅持源頭核心技術(shù)創(chuàng)新,在語音、語義等國際賽事中為國爭光。
  在去年11月舉辦的國際低資源多種語音識別競賽OpenASR中,科大訊飛參加了所有15個語種受限賽道和7個語種非受限賽道,并全部取得了第一名,而在SemEval2022多語種NLP領(lǐng)域中取得佳績,也標(biāo)志著科大訊飛在多語言理解與跨語言遷移能力再上新臺階,從多語種語音到多語種語言都有著頂尖技術(shù)實力。
  而在今年的北京冬奧會和冬殘奧會上,科大訊飛作為“官方自動語音轉(zhuǎn)換與翻譯獨(dú)家供應(yīng)商”,為所有觀眾展現(xiàn)了一場“無障礙溝通”的體育盛會;趶(qiáng)大的多語種語音語言技術(shù),我們可以做到語種足夠全、翻譯足夠準(zhǔn)、反應(yīng)足夠快,支持包括冬奧體育在內(nèi)的16大行業(yè)領(lǐng)域翻譯,在冬奧應(yīng)用場景下,中文與英/俄/法/西/日等重點語種的翻譯準(zhǔn)確率超過90%,平均每句語音翻譯響應(yīng)時間不超過1.5秒,一方面幫助各國觀眾、游客快速掌握賽事信息,另一方面我們特別希望幫助聽障人士運(yùn)用科技的手段聽得見奧運(yùn)文字,看得見奧運(yùn)聲音。
  值得一提的是,科大訊飛AI虛擬人“愛加(i+)”也成為了冬奧會的一名“虛擬志愿者”。在北京冬奧小屋中,愛加可以用多種語言與各國運(yùn)動員進(jìn)行面對面的交流,助力冬奧的無障礙溝通?拼笥嶏w運(yùn)用語音識別、語音合成、口唇驅(qū)動、面部驅(qū)動、肢體動作驅(qū)動等多項核心技術(shù),打造出虛擬形象自動化內(nèi)容生產(chǎn)方案,讓虛擬人不僅會說普通話,同時支持31種語言及方言,是不折不扣的“語言通”,不僅能進(jìn)行面對面的冬奧賽事、賽程實時互動交流,還能陪你玩一把冬奧知識游戲大PK,周邊交通、文化、旅游等咨詢問答也不在話下。
  除此之外,在教育、醫(yī)療、司法等場景中的各類行業(yè)人工智能應(yīng)用中,多語種語音交互系統(tǒng)都將發(fā)揮重要作用。經(jīng)過多年的技術(shù)積累,除了中英以外,當(dāng)前科大訊飛已經(jīng)具備其他69種語言的語音識別能力,其中已經(jīng)有35個語種準(zhǔn)確率已經(jīng)超過90%,并已在新加坡、俄羅斯、印度、日本等國家部署了海外站點,將持續(xù)為海內(nèi)外開發(fā)者提供語音識別、語音合成、機(jī)器翻譯、圖文識別等語音語言服務(wù)。
  如何更好地研發(fā)包括中文在內(nèi)的多語種語音及語言技術(shù)的AI能力并實現(xiàn)大規(guī)模應(yīng)用落地,如何更好地用人工智能技術(shù)服務(wù)社會、建設(shè)美好世界,是我們不斷奮斗努力的方向。
  未來,科大訊飛將不斷開展人工智能源頭技術(shù)創(chuàng)新,助力中國人工智能在全球贏得話語權(quán),實現(xiàn)更多人工智能創(chuàng)新應(yīng)用,真正解決社會剛需,蓬勃向上,生生不息。
【免責(zé)聲明】本文僅代表作者本人觀點,與CTI論壇無關(guān)。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔(dān)全部責(zé)任。

專題

CTI論壇會員企業(yè)

大埔县| 延长县| 伊宁县| 泰安市| 永平县| 马关县| 荣昌县| 甘洛县| 昌宁县| 三台县| 徐汇区| 闵行区| 隆尧县| 龙山县| 西乌| 新河县| 韶关市| 中江县| 巨鹿县| 葵青区| 德安县| 万山特区| 水富县| 呼图壁县| 武城县| 东台市| 江源县| 永丰县| 齐河县| 宝鸡市| 石景山区| 台北县| 永福县| 彰化县| 苍山县| 贵阳市| 北碚区| 鸡西市| 秦皇岛市| 延吉市| 双牌县|