語義分析指運用各種方法,學習與理解一段文本所表示的語義內(nèi)容,任何對語言的理解都可以歸為語義分析的范疇。一段文本通常由詞、句子和段落來構(gòu)成,根據(jù)理解對象的語言單位不同,語義分析又可進一步分解為詞匯級語義分析、句子級語義分析以及篇章級語義分析。一般來說,詞匯級語義分析關(guān)注的是如何獲取或區(qū)別單詞的語義,句子級語義分析則試圖分析整個句子所表達的語義,而篇章語義分析旨在研究自然語言文本的內(nèi)在結(jié)構(gòu)并理解文本單元(可以是句子從句或段落)間的語義關(guān)系。簡單地講,語義分析的目標就是通過建立有效的模型和系統(tǒng),實現(xiàn)在各個語言單位(包括詞匯、句子和篇章等)的自動語義分析,從而實現(xiàn)理解整個文本表達的真實語義。
一、語義分析技術(shù)
。ㄒ唬┗A技術(shù)
1.詞語級語義分析
詞匯層面上的語義分析主要體現(xiàn)在如何理解某個詞匯的含義,主要包含兩個方面:詞義消歧和詞義表示
。1)詞義消歧
詞匯的歧義性是自然語言的固有特征。詞義消歧根據(jù)一個多義詞在文本中出現(xiàn)的上下文環(huán)境來確定其詞義,作為各項自然語言處理的基礎步驟和必經(jīng)階段被提出來。詞義消歧包含兩個必要的步驟:(a)在詞典中描述詞語的意義;(b)在語料中進行詞義自動消歧。例如“蘋果”在詞典中描述有兩個不同的意義:一種常見的水果;美國一家科技公司。對于下面兩個句子:
她的臉紅得像蘋果。
最近幾個月蘋果營收出現(xiàn)下滑。
詞義消歧的任務是自動將第一個蘋果歸為“水果”,而將第二個蘋果歸為“公司”。從上面的例子中我們發(fā)現(xiàn),詞義消歧主要面臨如下兩個關(guān)鍵問題:(a)詞典的構(gòu)建;(b)上下文的建模。
。2)詞義表示和學習
對于詞義表示,早期的做法將某個詞義表示為,從該詞義在同義詞網(wǎng)絡中出現(xiàn)的位置到該網(wǎng)絡根節(jié)點之間的路徑信息。詞義表示的另一個思路是將其數(shù)字化。最直觀,也是到目前為止最常用的詞表示方法是one-hot表示方法,這種方法把每個詞表示為一個很長的向量。這個向量的維度是詞表大小,其中絕大多數(shù)元素為0,只有一個維度的值為1,這個維度就代表了當前的詞。不難想象,這種表示方法存在一個重要的問題:任意兩個詞之間都是孤立的。造成的結(jié)果是:光從兩個向量中看不出兩個詞是否有關(guān)系,即使這兩個詞是同義詞,例如“計算機”和“電腦”、“上海”和“上海市”。
隨著機器學習算法的發(fā)展,目前更流行的詞義表示方式是詞嵌入(Word Embedding,又稱詞向量)。其基本想法是:通過訓練將某種語言中的每一個詞映射成一個固定維數(shù)的向量,將所有這些向量放在一起形成一個詞向量空間,而每一向量則可視為該空間中的一個點,在這個空間上引入“距離”,則可以根據(jù)詞之間的距離來判斷它們之間的(詞法、語義上的)相似性。
2.句子級語義分析
句子級的語義分析試圖根據(jù)句子的句法結(jié)構(gòu)和句中詞的詞義等信息,推導出能夠反映這個句子意義的某種形式化表示。根據(jù)句子級語義分析的深淺,又可以進一步劃分為淺層語義分析和深層語義分析。
。1)淺層語義分析
語義角色標注(Semantic Role Labeling,簡稱SRL)是一種淺層的語義分析。給定一個句子,SRL的任務是找出句子中謂詞的相應語義角色成分,包括核心語義角色(如施事者、受事者等)和附屬語義角色(如地點、時間、方式、原因等)。
目前SRL的實現(xiàn)通常都是基于句法分析結(jié)果,即對于某個給定的句子,首先得到其句法分析結(jié)果,然后基于該句法分析結(jié)果,再實現(xiàn)SRL。

。2)深層語義分析
深層的語義分析(有時直接稱為語義分析,Semantic Parsing)不再以謂詞為中心,而是將整個句子轉(zhuǎn)化為某種形式化表示,例如:謂詞邏輯表達式(包括lambda演算表達式)、基于依存的組合式語義表達式(dependencybased compositional semantic representation)等。以下給出了GeoQuery數(shù)據(jù)集中的一個中英文句子對,以及對應的一階謂詞邏輯語義表達式:
中文:列出在科羅拉多州所有的河流
英文:Name all the rivers in Colorado
語義表達式:answer(river(loc_2(stateid('colorado'))))
雖然各種形式化表示方法采用的理論依據(jù)和表示方法不一樣,但其組成通常包括關(guān)系謂詞(如上例中的loc_2、river等)、實體(如colorado)等。語義分析通常需要知識庫的支持,在該知識庫中,預先定義了一序列的實體、屬性以及實體之間的關(guān)系。
3.篇章級語義分析
篇章是指由一系列連續(xù)的子句、句子或語段構(gòu)成的語言整體單位,在一個篇章中,子句、句子或語段間具有一定的層次結(jié)構(gòu)和語義關(guān)系,篇章結(jié)構(gòu)分析旨在分析出其中的層次結(jié)構(gòu)和語義關(guān)系。具體來說,給定一段文本,其任務是自動識別出該文本中的所有篇章結(jié)構(gòu),其中每個篇章結(jié)構(gòu)由連接詞,兩個相應的論元,以及篇章關(guān)系類別構(gòu)成。篇章結(jié)構(gòu)可進一步分為顯式和隱式,顯式篇章關(guān)系指連接詞存在于文本中,而隱式篇章關(guān)系指連接詞不存在于文本中,但可以根據(jù)上下文語境推導出合適的連接詞。對于顯式篇章關(guān)系類別,連接詞為判斷篇章關(guān)系類別提供了重要依據(jù),關(guān)系識別準確率較高;但對于隱式篇章關(guān)系,由于連接詞未知,關(guān)系類別判定較為困難,也是篇章分析中的一個重要研究內(nèi)容和難點。
。ǘ┥疃葘W習技術(shù)
在深度學習技術(shù)中,循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Networks,RNNs)被證明在自然語言處理中是最有效的,下面將介紹循環(huán)神經(jīng)網(wǎng)絡。
RNNs的目的是使用序列來處理數(shù)據(jù)。在傳統(tǒng)的神經(jīng)網(wǎng)絡模型中,是從輸入層到隱含層再到輸出層,層與層之間是全連接的,每層之間的節(jié)點是無連接的。但是這種普通的神經(jīng)網(wǎng)絡對于很多問題卻無能無力。例如,你要預測句子的下一個單詞是什么,一般需要用到前面的單詞,因為一個句子中前后單詞并不是獨立的。RNNs之所以稱為循環(huán)神經(jīng)網(wǎng)路,即一個序列當前的輸出與前面的輸出也有關(guān)。具體的表現(xiàn)形式為網(wǎng)絡會對前面的信息進行記憶并應用于當前輸出的計算中,即隱藏層之間的節(jié)點不再無連接而是有連接的,并且隱藏層的輸入不僅包括輸入層的輸出還包括上一時刻隱藏層的輸出。理論上,RNNs能夠?qū)θ魏伍L度的序列數(shù)據(jù)進行處理。但是在實踐中,為了降低復雜性往往假設當前的狀態(tài)只與前面的幾個狀態(tài)相關(guān)。
RNNs已經(jīng)在實踐中被證明對NLP是非常成功的。如詞向量表達、語句合法性檢查、詞性標注等。在RNNs中,目前使用最廣泛、最成功的模型便是LSTMs(Long Short-Term Memory,長短時記憶模型)模型,該模型通常比vanillaRNNs能夠更好地對長短時記憶模型依賴進行表達,該模型相對于一般的RNNs,只是在隱藏層做了手腳。
RNNs可以應用于語言模型與文本生成、文本分類、機器翻譯等自然語言處理任務中。
二、面向業(yè)務建模的語義分析
。ㄒ唬〥INFO-OEC平臺介紹
DINFO-OEC非結(jié)構(gòu)化大數(shù)據(jù)分析挖掘平臺,是中科鼎富(北京)科技發(fā)展有限公司研發(fā)的大數(shù)據(jù)產(chǎn)品,具有非結(jié)構(gòu)化文本大數(shù)據(jù)的分析、挖掘的超凡能力,是企業(yè)實施大數(shù)據(jù)戰(zhàn)略的強大利器。
大數(shù)據(jù)中80%都是非結(jié)構(gòu)化大數(shù)據(jù),非結(jié)構(gòu)化大數(shù)據(jù)因其中的業(yè)務對象、對象之間的關(guān)系等都蘊含在文本內(nèi)容中,而文本內(nèi)容來源繁多、表達方式靈活多樣、存在著大量的歧義性,因此無法使用傳統(tǒng)的BI工具等進行分析,無法直接服務于業(yè)務,實現(xiàn)業(yè)務價值。非結(jié)構(gòu)化大數(shù)據(jù)是大數(shù)據(jù)處理的難點和熱點。DINFO-OEC平臺支持三位一體的多維度業(yè)務建模能力,結(jié)合自然語言處理、深度學習等統(tǒng)計文本挖掘算法,基于平臺立體式的業(yè)務模型的智能語義感知技術(shù),提供對非結(jié)構(gòu)化大數(shù)據(jù)智能理解與自動化處理能力,實現(xiàn)文本知識的多維度的業(yè)務標簽標記功能,將無序的非結(jié)構(gòu)化信息轉(zhuǎn)換為滿足業(yè)務需求的結(jié)構(gòu)化數(shù)據(jù)。DINFO-OEC平臺支持與主流Hadoop、Spark等大數(shù)據(jù)平臺實現(xiàn)對接,利用hadoop平臺提供的分布式存儲和Map/Reduce分布式計算能力,實現(xiàn)復雜、批量的大數(shù)據(jù)分析挖掘。利用Spark、kafka等提供的實時分布式計算能力,提供海量數(shù)據(jù)的實時分析計算能力,融合主流的搜索引擎技術(shù),支持基于海量歷史數(shù)據(jù)的交互式搜索功能。DINFO-OEC平臺支持與常用的商業(yè)智能系統(tǒng)進行融合,實現(xiàn)結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的融合分析挖掘,最大化的挖掘大數(shù)據(jù)的業(yè)務價值,提供大數(shù)據(jù)分析挖掘支持下的業(yè)務創(chuàng)新。
(二)業(yè)務建模
業(yè)務建模技術(shù),采用神州泰岳獨創(chuàng)的“本體O-要素E-概念C”三位一體的專利技術(shù)(發(fā)明專利號201410155830.1)進行建模,將業(yè)務和語言分為兩個不同層次建模。業(yè)務建模以本體論為核心,對業(yè)務知識進行規(guī)劃,對業(yè)務規(guī)則進行建模配置,形成形式化的業(yè)務規(guī)則。業(yè)務建模技術(shù)支持業(yè)務與非結(jié)構(gòu)化數(shù)據(jù)的語言表達分離,區(qū)分業(yè)務層次和語言層次進行分部建模。業(yè)務層次支持業(yè)務本體構(gòu)建,支持業(yè)務要素發(fā)現(xiàn)與配置;語言層次支持語言概念的構(gòu)建與維護,支持常用詞匯庫和同義庫等建設。DINFO-OEC業(yè)務建模價值在于客戶只需關(guān)注自身業(yè)務的描述,文本表示的多樣性和歧義性等由系統(tǒng)來負責解決。
。ㄈ┢脚_特點
1.超凡的面向業(yè)務的非結(jié)構(gòu)化數(shù)據(jù)建模能力
DINFO-OEC業(yè)務建模,能把紛繁復雜的業(yè)務規(guī)則和靈活多樣的語言表達習慣進行統(tǒng)一建模,從本體、要素和概念三個維度構(gòu)建分析挖掘模型,有效地將“業(yè)務”描述與自然語言的表達進行分離,使得業(yè)務人員可以專注于自己擅長的業(yè)務需求及業(yè)務規(guī)則的建模,而無需考慮自然語言的歧義性、表達的多樣性和復雜性等。
2.強大的非結(jié)構(gòu)化分析挖掘能力
產(chǎn)品支持智慧語義感知算法,提供強大的自然語言理解相關(guān)分析算法,包括內(nèi)容分類、聚類、主題分析、語義分析、實體識別、啟發(fā)式搜索引擎、推薦引擎、摘要引擎等。
產(chǎn)品支持多種分析挖掘算法,包括C計算(提供概念的抽取、概念表達式挖掘、概念表達式匹配算法),S計算(提供常用的統(tǒng)計挖掘算法,包括但是不限于KNN、SVM、決策樹等算法)和R計算(提供概念關(guān)聯(lián)發(fā)現(xiàn)算法)。
3.豐富的多語種分析挖掘支持能力
系統(tǒng)內(nèi)置了多語種分析挖掘算法。利用一套算法流程,實現(xiàn)多語種支持,語種擴展性好。新增加語種,不用修改算法。
多語種復用的能力。平臺支持多語種業(yè)務規(guī)則保持一致的能力。業(yè)務規(guī)則(對應系統(tǒng)的本體樹)的維護,只需維護中文簡體版,無須維護其他語種的本體樹,大大減少本體樹維護工作推出的工作量。
4.卓越的大數(shù)據(jù)計算與存儲平臺集成能力
支持主流的Hadoop平臺,支持Map/Reduce批量計算以及Spark實時計算,支持HDFS、Hbase、kafka等存取。支持的Hadoop平臺包括Apache Hadoop、IBM BigInsights、華為Fusion Insights、EMC PivotalHD。支持SOA集群架構(gòu),支持與Oracle、Mysql、DB2等主力數(shù)據(jù)庫產(chǎn)品集成。
三、語義分析應用
。ㄒ唬┙鹑谛袠I(yè)應用
人工智能的飛速發(fā)展,使得機器能夠在很大程度上模擬人的功能,實現(xiàn)批量人性化和個性化地服務客戶,這將給身處服務價值鏈高端的金融行業(yè)帶來深刻影響,人工智能將成為決定銀行溝通客戶、發(fā)現(xiàn)客戶金融需求的重要因素。它將對金融產(chǎn)品、服務渠道、服務方式、風險管理、授信融資、投資決策等帶來新一輪的在中臺支持授信、各類金融交易和金融分析中的決策,在后臺用于風險防控和監(jiān)督,它將大幅改變金融現(xiàn)有格局,金融服務(銀行、保險、理財、借貸、投資等方面)將更加地個性化與智能化。證券研報大數(shù)據(jù)云服務,是鼎富科技針對證券業(yè)、基金業(yè)研究人員、分析師推出的一款大數(shù)據(jù)云服務產(chǎn)品。系統(tǒng)提供SaaS服務,提供公告、研報的全網(wǎng)采集,以及事件結(jié)構(gòu)化分析,提供研報一站式智能搜索,以及基于時間軸、基于信息錨點的大數(shù)據(jù)分析挖掘。系統(tǒng)能幫助分析師從大數(shù)據(jù)視角進行深度研究分析,提高工作效率。
。ǘ┱袠I(yè)應用
輿情分析為政府、公安、社會等提供可自定義熱點問題的輿情分析系統(tǒng),信息出現(xiàn)的源頭到產(chǎn)生的影響全程跟進分析,形成輿情影響波及范圍、公眾反響、不良輿論等內(nèi)容的分析報告。
輿情分析能夠大幅度縮短組織對互聯(lián)網(wǎng)、論壇等電子信息渠道的公眾輿論趨勢的響應時間,通過關(guān)聯(lián)分析能夠幫助組織預測未來可能出現(xiàn)的狀況并提前實施相關(guān)措施。
智慧傳播云服務,是鼎富科技與騰訊網(wǎng)合作推出的互聯(lián)網(wǎng)信息監(jiān)測預警平臺,面向政府機構(gòu)、企事業(yè)單位提供互聯(lián)網(wǎng)信息監(jiān)測、預警服務。輿情云項目的研發(fā)目的是為企業(yè)、政府、組織開發(fā)一款基于云服務的互聯(lián)網(wǎng)輿情監(jiān)測系統(tǒng)。該系統(tǒng)數(shù)據(jù)采集模塊具有可配置、自動去重、垃圾過濾核心功能。系統(tǒng)分析挖掘功能采用智慧語義識別技術(shù),保證了語義分析的準確性。系統(tǒng)可以按照客戶需求進行輿情監(jiān)測定制、統(tǒng)計報表定制和預警定制。
(三)客服行業(yè)應用
客服作為勞動密集型行業(yè),對于一些大公司來說,成本依然很高。智能機器人客服的出現(xiàn)可以在很大程度上解決簡單、重復性工作,幫助企業(yè)節(jié)省人工和坐席成本,提升運營效率。
小富機器人4.0是神州泰岳旗下一款智能客服機器人,它將開啟全媒體時代的智能客服中心。小富機器人4.0有以下幾個亮點:
亮點一:首創(chuàng)業(yè)務場景機器人
讓機器人服從業(yè)務,而非業(yè)務屈從于機器人?头、營銷、外呼等業(yè)務,場景不同,業(yè)務邏輯也不同。小富4.0預設多種場景模式的業(yè)務框架,對應的知識類型和交互方式也有區(qū)分設計,可提供更專業(yè)、更具針對性的智能化服務。
亮點二:整體性業(yè)務建模更具延展性
基于對業(yè)務的整體理解,而非Q&A的堆積。基于對具體場景的深刻業(yè)務理解,進行整體建模,具有完整的業(yè)務邏輯,機器人的思維延展性和可復用性大大增強,應答效率更高。
亮點三:差異化的知識類型表達體系
智能引導多輪會話,而非預設問題的反復跳轉(zhuǎn)。小富4.0的業(yè)務知識體系化,并具有記憶能力,可基于業(yè)務邏輯自創(chuàng)造問答邏輯,智能地開展多輪引導式問答,讓交互更自然、更具親和力。
亮點四:智能碎片化知識加工
直接告知答案,而非僅告知答案所在的范圍。小富4.0提供豐富的知識加工模式,可智能化地將結(jié)構(gòu)化和非結(jié)構(gòu)化的知識,碎片化為結(jié)構(gòu)化的文檔。應答客戶提問時,可直接回饋用戶的問題而非給出一個答案所在區(qū)間。
此外,與小富機器人4.0同時展示的還有泰岳統(tǒng)一業(yè)務知識庫系統(tǒng),可提供知識自動加工和強大的知識圖譜關(guān)聯(lián)能力;泰岳客服大數(shù)據(jù)分析挖掘解決方案,可支持多層級業(yè)務類別自動分類和語義處理,為客戶提供更智能、更高效的人工智能新體驗。
四、語義分析及大數(shù)據(jù)發(fā)展趨勢
人工智能技術(shù)及大數(shù)據(jù)已經(jīng)成為新經(jīng)濟發(fā)展的動力,美國、歐洲、日本、中國等多個國家和地區(qū)均將大數(shù)據(jù)及人工智能作為國家戰(zhàn)略。中國國民經(jīng)濟和社會發(fā)展第十三個五年規(guī)劃綱要指出,實施國家大數(shù)據(jù)戰(zhàn)略,把大數(shù)據(jù)作為基礎性戰(zhàn)略資源,全面實施促進大數(shù)據(jù)發(fā)展行動,加快推動數(shù)據(jù)資源共享開放和開發(fā)應用,助力業(yè)轉(zhuǎn)型升級和社會治理創(chuàng)新。同時,2016年,國家發(fā)改委、科技部、工信部、中央網(wǎng)信辦聯(lián)合發(fā)布了《“互聯(lián)網(wǎng)+”人工智能三年行動實施方案》,首次單獨為人工智能發(fā)展提出具體的策略方案,提出了人工智能發(fā)展的九大工程。2016美國白宮發(fā)布了《為人工智能的未來做好準備》(Preparing for the Future of Artificial Intelligence)和《國家人工智能研究與發(fā)展戰(zhàn)略計劃》(National Artificial Intelligence Research and Development Strategic Plan)兩份重要報告。探討了人工智能的發(fā)展現(xiàn)狀、應用領(lǐng)域以及潛在的公共政策問題,提出了美國優(yōu)先發(fā)展的人工智能七大戰(zhàn)略方向及兩方面建議,對我國人工能產(chǎn)業(yè)發(fā)展具有重要的借鑒意義。