機(jī)器閱讀理解(Machine Reading Comprehension)是自然語(yǔ)言處理和人工智能領(lǐng)域的重要前沿課題,旨在讓機(jī)器閱讀并理解非結(jié)構(gòu)化的文本,可以準(zhǔn)確地回答和文本內(nèi)容相關(guān)的任何問(wèn)題。
機(jī)器閱讀理解對(duì)于提升機(jī)器的智能水平、使機(jī)器具有持續(xù)知識(shí)獲取的能力、挖掘海量文本信息等具有重要價(jià)值,近年來(lái)受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。
同時(shí),機(jī)器閱讀理解也是自動(dòng)問(wèn)答系統(tǒng)的一個(gè)重要手段。相比基于結(jié)構(gòu)化知識(shí)源(比如數(shù)據(jù)庫(kù)、知識(shí)圖譜等)的自動(dòng)問(wèn)答,機(jī)器閱讀理解可以大大減少結(jié)構(gòu)化知識(shí)源的構(gòu)建成本、降低自動(dòng)問(wèn)答系統(tǒng)使用成本,有助于最大程度地釋放海量非結(jié)構(gòu)化文本蘊(yùn)含的信息。
近期,思必馳知識(shí)服務(wù)團(tuán)隊(duì)也在中文機(jī)器閱讀理解方向投入研究,并在多個(gè)中文機(jī)器閱讀理解公開(kāi)評(píng)測(cè)中取得階段性進(jìn)展:
1)在CMRC2018公開(kāi)評(píng)測(cè)[1]中暫列第一,并在需要多線索聯(lián)合推理的挑戰(zhàn)集(Challengeset)上取得明顯性能提升;
2)在“千言數(shù)據(jù)集:閱讀理解”公開(kāi)評(píng)測(cè)[2]的兩個(gè)子任務(wù)(DuReader_robust和DuReader_yesno)上均暫列第一。


針對(duì)中文機(jī)器閱讀理解的魯棒性和泛化性問(wèn)題,思必馳知識(shí)服務(wù)團(tuán)隊(duì)在以下幾個(gè)方面開(kāi)展了技術(shù)研究:
1)中文預(yù)訓(xùn)練語(yǔ)言模型的預(yù)訓(xùn)練與微調(diào);
2)中文機(jī)器閱讀理解領(lǐng)域自適應(yīng)訓(xùn)練;
3)目標(biāo)應(yīng)用領(lǐng)域?qū)虻亩嚯A段模型微調(diào)等。
相關(guān)技術(shù)實(shí)現(xiàn)在上述公開(kāi)評(píng)測(cè)中得到了應(yīng)用和驗(yàn)證。
語(yǔ)言智能常被稱(chēng)為人工智能皇冠上的一顆明珠。在未來(lái),思必馳知識(shí)服務(wù)團(tuán)隊(duì)將繼續(xù)深耕語(yǔ)言理解領(lǐng)域,打造輕量、便攜且精準(zhǔn)的機(jī)器閱讀理解系統(tǒng),推動(dòng)機(jī)器閱讀理解在真實(shí)場(chǎng)景的落地和應(yīng)用。
參考文獻(xiàn):
[1]CMRC2018公開(kāi)評(píng)測(cè),https://ymcui.github.io/cmrc2018/。
[2]千言數(shù)據(jù)集:閱讀理解公開(kāi)評(píng)測(cè),https://aistudio.baidu.com/aistudio/competition/detail/49.