
這兩次研究轉錄的是Switchboard語料庫中的錄音。Switchboard語料庫包含了2400段電話對話,自上世紀90年代以來一直被研究人員作為測試語音識別系統的樣本。
新研究由微軟人工智能及研究事業(yè)部的一組研究人員實施,目標是在出錯率上達到一組速錄員的同等水平,后者可以反復收聽錄音樣本,了解對話語境,與其他速錄員合作。
整體來說,通過改進微軟語音識別系統中基于神經網絡的聽覺和語言模型,實施最新研究的研究人員能夠在去年基礎上把出錯率降低大約12%。顯然,他們還可以讓語音識別器了解整體對話,適應錄音樣本的語境,預測對話中很可能出現的下一個詞匯或短語。這正是人類在與其他人對話時的做法。
微軟的語音識別系統已被用于語音助手“小娜”、實時翻譯字幕功能Presentation Translator以及微軟認知服務中。