亚洲综合伊人,成人欧美一区二区三区视频不卡,欧美日韩在线高清,日韩国产午夜一区二区三区,大胆美女艺术,一级毛片毛片**毛片毛片,你瞅啥图片

您當前的位置是:  首頁 > 新聞 > 文章精選 >
 首頁 > 新聞 > 文章精選 >

語音識別的前世今生,那些你不知道的事

2018-03-08 09:53:54   作者:   來源:計算機世界報   評論:0  點擊:


  從臺式機到移動設(shè)備再到更多應(yīng)用,語音識別已經(jīng)不再是滿足小眾需求的新鮮事物——而且還衍生出了一類新型的小工具。
語音識別的前世今生,那些你不知道的事
  過去三十年里,語音識別是這樣的:您能夠和自己的計算機交談,通常使用頭戴式麥克風(fēng),使用微軟Windows中未公開的語音識別應(yīng)用軟件,或者Nuance通信公司“龍自然語言”版的應(yīng)用軟件。如果您發(fā)音很清晰,那么屏幕上就會顯示出單詞,然后執(zhí)行命令。
  今天,改進很大的語音識別技術(shù)得到了廣泛應(yīng)用,在過去兩年中,它催生了一類新的消費系列產(chǎn)品:語音控制的個人助理。VoiceLabs公司為語音應(yīng)用軟件開發(fā)人員提供分析技術(shù),該公司創(chuàng)始人之一AdamMarchick表示:“這是經(jīng)過了30年的沉淀而一夜成名。它終于變得足夠精確,足以能進行對話了。”
  和大多數(shù)技術(shù)一樣,語音識別的發(fā)展也是逐步的。2017年8月,微軟宣布,根據(jù)行業(yè)標準測試,其會話語音識別系統(tǒng)的單詞識別準確度已經(jīng)超過了專業(yè)人類轉(zhuǎn)錄員的識別準確度。在此類測試中,專業(yè)人員的平均錯誤率為5.9%,而微軟系統(tǒng)達到了5.1%。
  微軟技術(shù)研究員,也是該公司語音和語言部負責人黃學(xué)東說:“這就像夢想成真。1993年我們在微軟開始語音識別時,錯誤率大約是80%。1982年,我在讀研究生的時候開始研究語音識別技術(shù),那時,我們面對的是孤立的單詞,根本不敢想象軟件能夠像人那樣識別出對話。”
  Nuance首席技術(shù)官Vlad Sejnoha說:“今天,如果您在一間安靜的辦公室里,清晰的用普通口音說話,那么語音識別準確率能接近100%。”
  這樣的準確度意味著人們能更好的與自己的電話進行交談,更輕松高效的與客戶服務(wù)呼叫中心的機器人聊天,在家里和辦公室里使用語音命令。
  逐漸累積的進步
  Sejnoha說,該技術(shù)能夠達到目前的水平,也是一步步走過來的。Sejnoha說:“15到20年來,我們使用的主要技術(shù)是基于統(tǒng)計學(xué)的,特別是隱藏Markov模型。我們有各種各樣的模型來預(yù)測這個片段是某個特定音素產(chǎn)生的可能性,或者某個單詞應(yīng)該合理的出現(xiàn)在某種上下文環(huán)境中。我們開發(fā)了各種變體,并且能夠穩(wěn)步進展。
  他補充說:“近年來,傳統(tǒng)的統(tǒng)計方法已經(jīng)被深度學(xué)習(xí)(神經(jīng)網(wǎng)絡(luò))模型所取代,這些模型非常靈活,而且比以前更能推動系統(tǒng)的發(fā)展。結(jié)果在過去10年中,錯誤率平均每年下降20%。”他說,語音識別現(xiàn)在能夠為更多的人提供服務(wù),用在各種各樣的環(huán)境中。Sejnoha舉了一個語音識別仍然不能很好工作的例子,他說:“在雞尾酒會上還是要喊。”
  Sejnoha預(yù)計每年20%的改善率仍然會繼續(xù)下去,不僅越來越適應(yīng)嘈雜的環(huán)境,而且還能適應(yīng)很多特殊的情況。他指出:“理解多種語言越來越重要,在歐洲借助GPS地圖,還必須做一些工作,比如理解德國司機所說的法語地名。普通話有很多外來詞,其發(fā)音因人而異。”
  關(guān)鍵點
  隨著每年20%改善率的累積,大廠商開始使用深度學(xué)習(xí)來制作自己的語音識別引擎。后來,他們越來越信任該技術(shù),認為它足以支持新一類消費產(chǎn)品——個人助理,先是作為應(yīng)用軟件(例如,蘋果的Siri和微軟的Cortana),后來作為獨立的設(shè)備(例如,基于Alexa服務(wù)的亞馬遜的Echo,基于谷歌助理服務(wù)的谷歌Home,等)。
  這類系統(tǒng)的語音識別是在云中進行的。這些設(shè)備在收到“OK Google”類似的命令提醒后,開始收聽,傳送出語音數(shù)據(jù)。
  Marchick解釋說:“設(shè)備非常薄,就像Unix終端一樣。計算機在云中,它們會待命,聽它們的名字,就是這樣。”
  語音和視覺技術(shù)公司Sensory首席執(zhí)行官ToddMozer補充說:“長期以來,語音識別的重點一直放在計算機上,但在過去的5到10年間,重點轉(zhuǎn)向了消費類技術(shù)。第一個關(guān)鍵事件是SteveJobs發(fā)布了Siri,表明了對語音識別的支持。蘋果無論做什么都會是消費類電子產(chǎn)品的典范。第二個關(guān)鍵事件是亞馬遜發(fā)布基于Alexa的產(chǎn)品,例如Echo。”
  Marchick說:“當我們在一年前開始這項業(yè)務(wù)時,市場上只有亞馬遜的Echo,以及幾萬臺設(shè)備。很快Echo將面對7個競爭對手,預(yù)計今年年底會有三千三百萬臺設(shè)備投入使用。語音交互會大幅度攀升。此前,有三百人為這些設(shè)備制作語音應(yīng)用程序。而一年后的現(xiàn)在,有一萬六千人。”
  Marchick說,Echo的競爭對手包括谷歌Home,再加上未發(fā)布的蘋果HomePod;運行微軟Cortana的未發(fā)布的Harman/KardonInvoke;還有三星Galaxy智能手機的三星Bixby;其中至少有兩個是中文系統(tǒng)。
  擴展應(yīng)用
  但事實證明,這些供應(yīng)商通常會提供軟件開發(fā)工具包,使其語音識別引擎能夠被用來開發(fā)使用自然語言作為接口的應(yīng)用程序。對話技術(shù)公司顧問Deborah Dahl說:“自然語言和語音識別令人興奮之處在于這些工具包的開發(fā)。他們對其進行設(shè)置,以便普通開發(fā)人員都能夠使用在線工具創(chuàng)建口語系統(tǒng)。這真的降低了難度,所以不需要成為自然語言專家便能夠開發(fā)客戶服務(wù)應(yīng)用程序。”
  SherifMityas是達拉斯TGI星期五連鎖餐廳的首席信息官,說他的公司能夠在5個月內(nèi)啟動一個基于語音的接口應(yīng)用程序,該應(yīng)用程序是采用亞馬遜Alexa工具包Lex開發(fā)的。他補充道,對于手機用戶和亞馬遜Echo用戶,它用起來也是一樣的,唯一的區(qū)別是手機用戶通常四處走動,需要確定方向。
  Marchick說:“應(yīng)用程序開發(fā)過程就像創(chuàng)建一個網(wǎng)頁。您有很多服務(wù)可以使用,您編寫代碼,然后發(fā)布代碼,最后進行測試。”
  Dahl指出,“如果您花幾天的時間去適應(yīng)GUI,那么這個過程會非常簡單。最難的是,它們不會幫助您設(shè)計應(yīng)用程序——如果您對結(jié)果沒有一個清晰的概念,那么當您看到?jīng)]有覆蓋所有應(yīng)該覆蓋的用例時,您不得不回頭去做大量的返工工作。”以一個比薩訂購應(yīng)用程序為例,“您必須想清楚所有需要由用戶提供的東西:澆料、厚度、尺寸和醬汁,等等。您可以在幾星期內(nèi)自己完成,但是必須和訂購系統(tǒng)的后端保持一致。”
  Mityas說,TGI星期五餐廳應(yīng)用軟件的主要難點是怎樣簡化菜單選項。他說,菜單上有15個配菜,如果讓Alexa去列出這些菜會很麻煩,但開發(fā)人員發(fā)現(xiàn)他們可以列出最受歡迎的三個配菜,然后讓用戶去選擇更多的配菜。
  Dahl說:“在現(xiàn)實生活中,您不會去預(yù)測用戶會說什么。用戶總是出人意料,所以會有一段時間的調(diào)整。”比薩訂購應(yīng)用軟件的用戶“會問起面包棒。他們會要求您不要像上次那樣沒做熟。系統(tǒng)必須采集到這些,否則就會徹底失敗。”
  為預(yù)測用戶會說些什么,對話人工智能系統(tǒng)(例如,企業(yè)虛擬客服)提供商NextIT最先研究了企業(yè)與公眾互動最有可能使用的詞匯。
  NextIT總裁Tracy Malingo表示:“作為經(jīng)驗,當我們?yōu)榱诵驴蛻舳佑|一個新商業(yè)領(lǐng)域時,我們希望有1萬到2萬次經(jīng)過策劃的對話,我們可以從中獲取數(shù)據(jù)。這些可以是電話、聊天記錄、推特饋送——我們將處理任何涉及企業(yè)和消費者之間來回交互的文本對話。”
  Mityas指出,使用語音交互比基于文本的交互效果更好,因為用戶可以暢所欲言,建立起人工智能可以使用的情景。他補充說,文本交互往往只是孤立的問題。
  最后,Malingo說,訓(xùn)練虛擬客服的時間和培訓(xùn)人類客服的時間大致相同。她指出:“而虛擬客服一旦完成訓(xùn)練,它就永遠不會休息,每天工作24小時,回答成千上萬的問題。”
  Malingo解釋說,虛擬客服的成本取決于應(yīng)用程序和行業(yè)的復(fù)雜性。但是其成本比率通常是固定的,她說:“如果一個現(xiàn)場電話的成本是一美元,那么與現(xiàn)場客服進行網(wǎng)絡(luò)文本聊天的成本是50美分,因為客服每次可以同時進行多個聊天。而虛擬客服的成本將是5美分。”
  Mityas可以為私有企業(yè)TGI星期五餐廳提供免費的數(shù)據(jù),但他說,使用語音識別技術(shù)已經(jīng)使在線用戶的參與度提高了兩倍,在不到一年的時間里,外賣的銷量也翻了一倍。
  升級點
  Malingo說,虛擬客服的使用并不意味著所有的人類客服都會被取代。實際情況是,“升級點”(在這一點,致電者必須被轉(zhuǎn)給現(xiàn)場客服)被抬高了。
  員工福利管理公司Alight解決方案公司技術(shù)總監(jiān)Ibrahim Khoury對此表示同意,升級點是關(guān)鍵。Khoury說,通過引入自然語言客服來處理每年的招聘活動,公司能夠把轉(zhuǎn)給人類客服的對話減少94%。
  采用了虛擬客服后,Khoury補充說:“我們正在努力解決大批量的低價值問題,讓客戶快速提問,快速得到答案。Khoury說:”這為人類客服處理少量的高價值問題打開了大門,比如‘我失去了我的配偶’該怎么辦?“
  但調(diào)整不會結(jié)束。如果系統(tǒng)能回答85%到90%的問題,您會很高興。它在開始時可能會停留在60%左右。但總有10%的問題系統(tǒng)永遠無法理解。
  Malingo指出,與機器人交互的時間通常要少一些,因為閑聊少了。她補充說:“然而,這是令人愉快的,人們幾乎每次都要感謝機器人。”
  至于實際的可靠性,Marchick說:“當您可以限制應(yīng)用程序時,例如,只談?wù)撆_,那么語音識別的質(zhì)量是驚人的。但是當您進行一般的對話時,您還沒有把該技術(shù)完全理想化,因此,即使出現(xiàn)怪異的對話,您也不會誤解它。如果您想在開會和記筆記的時候打開它,那真的很難,因為會議可能是關(guān)于任何主題的,而要想總結(jié)對話也真的很難。如果您在酒店房間里使用它來處理您想要的有限的操作——音樂、客房服務(wù),或者電影,環(huán)境受到一定限制,它會工作得很好。”Dahl指出,識別引擎通常會為每個單詞返回一個介于0和1之間的置信度值,程序員可以決定什么時候要求用戶要求重說一遍。然而,怎樣確定好的置信度是一種藝術(shù),如果置信度模糊不清,會導(dǎo)致用戶被接二連三的要求重說一遍,引起用戶的反感。
  她說:“如果問用戶,您說的是‘美國’還是‘USA’,這就會讓用戶反感。”并且,Dahl警告說,“如果設(shè)計考慮的太多,那就會沒完沒了,這包括:地區(qū)口音、兒童、惡意用戶、隱私等等考慮因素。”
  然而,識別引擎的選擇并不是重要的考慮因素。當被問及哪家供應(yīng)商的產(chǎn)品更適合哪項工作時,Malingo說,“我們看不出他們之間的差異。”
  另一個關(guān)鍵點
  當普遍認為語音識別已經(jīng)足夠好的時候,2017年4月12日發(fā)生的一件事改變了人們的看法,當時,漢堡王(BurgerKing)播放了一則電視廣告,想要欺騙任何正在收聽廣告的谷歌Home設(shè)備。
  在廣告中,主持人說,“您正在收看的是一個15秒鐘的漢堡王廣告,遺憾的是我們沒有足夠的時間來解釋W(xué)hopper三明治有什么樣的新鮮食材。但我有個主意。那么,谷歌,Whopper漢堡是什么?“
  所有聽到這個問題的谷歌Home設(shè)備,其回答都是背誦維基百科上Whopper漢堡頁面的內(nèi)容。一位不愿透露姓名的谷歌女發(fā)言人說,谷歌在當天阻止了這種回答。她說:“我們的主要目標是,谷歌Home在您需要的時候提供幫助,而不是在您不想要的時候幫助您。”
  同時,語音識別顧問BillMeisel指出,如果您想要使用語音識別工具在計算機上撰寫文本,那么,Windows語音識別和Dragon Naturally Speaking仍然是不錯的選擇。他補充說:“這是律師和醫(yī)生的專業(yè)領(lǐng)域——但如果您想在手機上口述筆記,Cortana會讓您得償所愿。”
  至于最終會怎樣,黃指出,“PC讓計算普及開來,而移動計算讓PC普及開來。下一轉(zhuǎn)變將是環(huán)境計算,那時,您不會被束縛在設(shè)備上。語音識別將是這種轉(zhuǎn)變的核心所在。”
  Mityas對此表示同意。他說:“10年后,沒有人會再使用應(yīng)用軟件。他們與設(shè)備交談,使用鍵盤的日子很快就會過去。”
【免責聲明】本文僅代表作者本人觀點,與CTI論壇無關(guān)。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

專題

沽源县| 方城县| 江源县| 黄山市| 长春市| 元朗区| 固镇县| 和政县| 潮安县| 金塔县| 潞城市| 合肥市| 鄢陵县| 丹阳市| 宝清县| 克东县| 尼勒克县| 昭通市| 达日县| 涿鹿县| 岱山县| 攀枝花市| 扎赉特旗| 清新县| 禄丰县| 马龙县| 屏山县| 台东县| 丰都县| 化隆| 孟津县| 临海市| 吴川市| 鹰潭市| 大同市| 白水县| 建阳市| 博兴县| 衡山县| 酉阳| 筠连县|