亚洲综合伊人,成人欧美一区二区三区视频不卡,欧美日韩在线高清,日韩国产午夜一区二区三区,大胆美女艺术,一级毛片毛片**毛片毛片,你瞅啥图片

您當(dāng)前的位置是:  首頁(yè) > 資訊 > 文章精選 >
 首頁(yè) > 資訊 > 文章精選 >

標(biāo)貝科技:“聲音復(fù)刻”的黑科技,有它逃不開(kāi)的靈魂拷問(wèn)

2020-05-07 09:12:45   作者:黃臻曜   來(lái)源:36kr   評(píng)論:0  點(diǎn)擊:


標(biāo)貝科技聯(lián)合創(chuàng)始人兼CTO
  語(yǔ)音交互以假亂真,已是顯性訴求
  疫情期間,整個(gè)智能語(yǔ)音行業(yè)的表現(xiàn)算是比較好的,語(yǔ)音解決了很多非接觸(手動(dòng))人機(jī)交互的應(yīng)用場(chǎng)景。比如聲控電梯、心理診斷問(wèn)答資訊、疫情防護(hù)宣傳制作、商業(yè)街區(qū)寫(xiě)字樓語(yǔ)音動(dòng)態(tài)播報(bào)等。
  像新出現(xiàn)的場(chǎng)景“非接觸的語(yǔ)音控制電梯”,和我們之前一直在使用的智能家居里的芯片組或者算法基本一致,將它們和電梯的控制按鈕集成后就能應(yīng)用,難度不大。所以在疫情的催化下,只是需求量變多了,原來(lái)不用這些產(chǎn)品或者技術(shù)的公司開(kāi)始考慮用到這些技術(shù),以及增加了少量新的場(chǎng)景,但在應(yīng)用難度上并沒(méi)有太大的挑戰(zhàn)。
  但此次疫情讓人們看到了智能語(yǔ)音的市場(chǎng)空間、應(yīng)用場(chǎng)景和巨大的市場(chǎng)價(jià)值,推進(jìn)了語(yǔ)音技術(shù)與應(yīng)用場(chǎng)景結(jié)合:
  1、市場(chǎng)教育:以前習(xí)慣用手動(dòng)操作,基于疫情期間,自身防護(hù)健康等角度出發(fā),發(fā)現(xiàn)語(yǔ)音也是一個(gè)很簡(jiǎn)單的交互體驗(yàn)。
  2、廣泛應(yīng)用:疫情期間創(chuàng)造了很多強(qiáng)語(yǔ)音技術(shù)結(jié)合的場(chǎng)景。例如每天有大量疫情動(dòng)態(tài)及防控等信息的通訊需求,通過(guò)語(yǔ)音合成技術(shù),可以快速、規(guī);膶⑽谋巨D(zhuǎn)為語(yǔ)音收取資訊,這部分的用戶(hù)數(shù)據(jù)增長(zhǎng)能達(dá)到10倍、甚至幾十倍,我們也看到聲控電梯、外部監(jiān)測(cè)體感語(yǔ)音報(bào)警場(chǎng)景大量出現(xiàn)。
  3、技術(shù)發(fā)展呈現(xiàn)多樣融合的趨勢(shì)。智能語(yǔ)音解決“聽(tīng)、說(shuō)、懂”的問(wèn)題,但應(yīng)對(duì)疫情防護(hù),不可能是單純的語(yǔ)音層面產(chǎn)品形態(tài),而是配合圖像視覺(jué)、人臉識(shí)別、紅外體感等技術(shù),來(lái)打造針對(duì)疫情一線(xiàn)的綜合防護(hù)與檢測(cè)產(chǎn)品。比如大屏體溫檢測(cè)、醫(yī)療機(jī)器人送藥問(wèn)診查詢(xún)等應(yīng)用。
  這次疫情,對(duì)于很多公司來(lái)說(shuō)也是一次考驗(yàn)。有成熟的技術(shù)和解決方案的公司,就能夠快速落地,取得一些優(yōu)勢(shì)。
  以語(yǔ)音交互領(lǐng)域?yàn)槔,目前語(yǔ)音合成技術(shù)和語(yǔ)音識(shí)別技術(shù),相對(duì)來(lái)說(shuō)具有較高的成熟度,而語(yǔ)義理解相對(duì)來(lái)說(shuō)還比較薄弱。我認(rèn)為,接下來(lái)行業(yè)對(duì)語(yǔ)音的探索不單會(huì)停留在“可用”上,還會(huì)考慮給用戶(hù)帶來(lái)更好的體驗(yàn)。聲音在交互的時(shí)候,如何能給人帶來(lái)更自然、貼心、溫度,并達(dá)到以假亂真的體驗(yàn),這已經(jīng)從一個(gè)潛在的訴求變成一個(gè)顯性的訴求。
  “聲音復(fù)刻”是痛點(diǎn)還是癢點(diǎn)?
  在疫情期間,我們看到出現(xiàn)了幾種情況:1、很多家長(zhǎng)和孩子,因?yàn)橐咔闊o(wú)法上班、上學(xué),也無(wú)法外出,居家的時(shí)間大幅增長(zhǎng),陪伴輔導(dǎo)孩子的任務(wù)驟增;2、有些家長(zhǎng)由于支持抗疫或者受疫情影響無(wú)法返家,造成春節(jié)假期也無(wú)法團(tuán)聚,相互思念;3、有些疫情嚴(yán)重地區(qū),出現(xiàn)感染新冠肺炎的患者死亡的現(xiàn)象,為自己或者自己的親人留下更多的記憶,也變成了一種生死離別下的重要訴求。
  我們觀察到上述的情況后升級(jí)了我們之前的產(chǎn)品“標(biāo)貝留聲機(jī)”,它能夠復(fù)刻父母聲音,給孩子講故事,這在家長(zhǎng)圈里引起了廣泛注意,聲音復(fù)刻的數(shù)量增長(zhǎng)了500%以上,1-4月份留聲機(jī)的用戶(hù)使用數(shù)據(jù)增長(zhǎng)了200%。我們之前就有“聲音銀行”的概念,用戶(hù)可以把聲音存儲(chǔ)在我們的云端系統(tǒng)上,就像在銀行存錢(qián)一樣。需要的時(shí)候,就可以應(yīng)用這個(gè)聲音,生成自己想要的內(nèi)容。
貝克錄音棚
  在智能語(yǔ)音領(lǐng)域,留聲機(jī)產(chǎn)品是一個(gè)新的技術(shù)應(yīng)用,核心技術(shù)是如何利用少量的數(shù)據(jù),實(shí)現(xiàn)一個(gè)高相似度的聲音模型。大家可能之前看到過(guò)科學(xué)家霍金,在失去說(shuō)話(huà)能力之后,可以依靠語(yǔ)音合成技術(shù)說(shuō)話(huà),覺(jué)得不可思議。隨著技術(shù)的進(jìn)步,這一技術(shù)的應(yīng)用成本在大幅下降,每個(gè)人都可以擁有自己的聲音。用戶(hù)只需要錄制5分鐘語(yǔ)音內(nèi)容,等待2小時(shí)左右即可獲得用自己的聲音想說(shuō)就說(shuō)的功能,這在之前其實(shí)是很難想象的。我們也在不斷對(duì)技術(shù)進(jìn)行升級(jí),充分利用基于Attention的機(jī)制,以及遷移學(xué)習(xí)技術(shù),去提升了聲音復(fù)刻的效果,改善用戶(hù)體驗(yàn),讓聲音的還原度更高,聽(tīng)起來(lái)更像。但因?yàn)閿?shù)據(jù)量比較小,如何保證穩(wěn)定輸出是訓(xùn)練這種模型時(shí)要面對(duì)的挑戰(zhàn)。
  我認(rèn)為,聲音復(fù)刻的需求是存在的,但可能只有很少的人知道現(xiàn)在已經(jīng)有這樣的技術(shù)能夠滿(mǎn)足此類(lèi)需求,目前技術(shù)的宣傳還遠(yuǎn)遠(yuǎn)不夠。當(dāng)然,也因?yàn)檫@個(gè)技術(shù)出現(xiàn)的時(shí)間比較短,語(yǔ)音不僅僅是信息載體,還承載了一個(gè)人的很多個(gè)人特點(diǎn),包括音色、語(yǔ)氣、語(yǔ)調(diào)、風(fēng)格等,在技術(shù)上仍需要持續(xù)探索。對(duì)一個(gè)新的使用場(chǎng)景,也還需要全行業(yè)一起努力去推動(dòng)它的落地,打造出有一個(gè)標(biāo)桿性的產(chǎn)品,為用戶(hù)所認(rèn)識(shí)和接受,這還需要一定時(shí)間,這是一個(gè)以點(diǎn)帶面的過(guò)程。只有技術(shù)服務(wù)提供的時(shí)間周期比較長(zhǎng),才能展現(xiàn)出它的實(shí)際價(jià)值,現(xiàn)在這個(gè)使用場(chǎng)景還處在一個(gè)打磨的階段。
  僅僅有聲音還不夠,聲音結(jié)合圖像,會(huì)有更為廣闊的空間。近幾年,短視頻的蓬勃發(fā)展,也說(shuō)明了聲音+圖像的巨大市場(chǎng)。因此,“虛擬人”這樣的產(chǎn)品應(yīng)運(yùn)而生,它可以覆蓋虛擬主播、虛擬員工、虛擬偶像等各類(lèi)不同的場(chǎng)景,應(yīng)用于新聞媒體、智能客服、智能銀行、智能城市、泛娛樂(lè)應(yīng)用等系統(tǒng)當(dāng)中。
  判斷“留聲機(jī)”、“虛擬人”這樣的使用場(chǎng)景是否是剛需,可以從價(jià)值創(chuàng)造、及時(shí)性、便利性等不同的方面來(lái)分析。
  比如,虛擬人如果可以代替部分人工,那會(huì)為公司節(jié)約人力成本,創(chuàng)造價(jià)值。只要是投入成本低于所節(jié)約的成本,企業(yè)就會(huì)樂(lè)于投入。比如智能客服為什么能快速發(fā)展,實(shí)際上是這些領(lǐng)域的客戶(hù)嘗到了甜頭,在使用此類(lèi)技術(shù)后,企業(yè)可以降低30%或50%的客服人力成本,大大提升整個(gè)財(cái)務(wù)狀況,那么他就會(huì)繼續(xù)擴(kuò)大在這方面的投入。
  又比如,傳統(tǒng)的新聞播報(bào)有時(shí)效性,而錄音難以實(shí)時(shí)滿(mǎn)足,而且成本較高,采用留聲機(jī)或者虛擬人技術(shù),就可以隨時(shí)低成本地生產(chǎn)內(nèi)容,既滿(mǎn)足了實(shí)時(shí)性的要求,又降低了成本。
  再比如,短視頻的編輯,變得越來(lái)越簡(jiǎn)單,但給視頻配上匹配的聲音,往往需要找配音演員,而且對(duì)聲音的控制,也涉及到很多專(zhuān)業(yè)的知識(shí)。不過(guò)我們的技術(shù)現(xiàn)在還很難做到給影視作品配音,等到合成效果達(dá)到這個(gè)水平,我覺(jué)得會(huì)有徹底的變化。
虛擬數(shù)字人
  逃不開(kāi)的靈魂拷問(wèn)
  目前來(lái)看,“留聲機(jī)”、“虛擬數(shù)字人”市場(chǎng)認(rèn)知度、成熟度在不斷提升,有些音頻內(nèi)容或者視頻內(nèi)容,已經(jīng)融入了這些新技術(shù)產(chǎn)生的音頻或者視頻。但我覺(jué)得目前存在以下幾點(diǎn)挑戰(zhàn),或者說(shuō)思考的空間,值得全行業(yè)一起去尋找答案:
  1、語(yǔ)音合成是科學(xué)與藝術(shù)的結(jié)合,比如聲音復(fù)刻,一方面需要技術(shù)創(chuàng)新應(yīng)用,怎么讓聲音效果更逼近人聲效果,合成速度快、效果好的問(wèn)題。另一方面,需要做創(chuàng)新性玩法,打磨出更穩(wěn)定、更個(gè)性、更差異化的語(yǔ)音應(yīng)用體驗(yàn)。后續(xù)需要考慮如何提高情感表達(dá)方面的技術(shù),這繞不開(kāi)“語(yǔ)義理解”這個(gè)環(huán)節(jié)的提升。
  2、技術(shù)提供商提供的是核心的技術(shù),每個(gè)具體應(yīng)用的領(lǐng)域,都有其特殊性,需要深入了解行業(yè),了解用戶(hù),這需要結(jié)合產(chǎn)品形態(tài)去做各個(gè)行業(yè)的探索,針對(duì)不同產(chǎn)品提供更好的解決方案,這不是一個(gè)復(fù)制粘貼的過(guò)程,比如在兒童教育場(chǎng)景,如何利用語(yǔ)音技術(shù),針對(duì)不同年齡段開(kāi)發(fā)功能,如何做到“千人千面,如何能夠持續(xù)良性發(fā)展,如何反哺技術(shù)研發(fā),都需要深入考慮。
  3、商業(yè)化問(wèn)題需要持續(xù)關(guān)注。如果產(chǎn)品直接ToC,那就要去驗(yàn)證用戶(hù)愿不愿意付費(fèi)的問(wèn)題。我覺(jué)得實(shí)際上對(duì)留聲機(jī)來(lái)說(shuō),它最終會(huì)是一個(gè)ToC的產(chǎn)品。產(chǎn)品涉及到訓(xùn)練模型,提供線(xiàn)上服務(wù),如果用戶(hù)沒(méi)有付費(fèi)意愿,那商業(yè)化的問(wèn)題就比較棘手。如果產(chǎn)品ToB,比如我們會(huì)和玩具廠(chǎng)商、家居、汽車(chē)等有一些合作,如果此類(lèi)合作伙伴不能有很好的商業(yè)模式,那么他們購(gòu)買(mǎi)我們技術(shù)服務(wù)的動(dòng)力也會(huì)很弱。那么對(duì)技術(shù)提供商來(lái)說(shuō),接下來(lái)一方面要考慮降低技術(shù)成本,讓它更容易用很小的成本去嘗試去推廣,去驗(yàn)證它的商業(yè)模式;另一方面,也要幫助合作伙伴收集用戶(hù)數(shù)據(jù)去做測(cè)試,不斷迭代技術(shù)和產(chǎn)品,讓它在市場(chǎng)端有更好的需求。
  4、技術(shù)的應(yīng)用,有時(shí)會(huì)面臨技術(shù)有罪與無(wú)罪的爭(zhēng)論。我相信大家都很關(guān)心安全風(fēng)險(xiǎn)以及監(jiān)管的問(wèn)題,這是一個(gè)風(fēng)險(xiǎn)點(diǎn),但是它可能不會(huì)阻礙整個(gè)技術(shù)的發(fā)展。只是我們?cè)趹?yīng)用技術(shù)的時(shí)候要權(quán)衡,是否需要讓聲音保留一些技術(shù)的特征。另外,也需要盡可能提高數(shù)據(jù)的安全性,比如我們開(kāi)發(fā)了一套完善的賬戶(hù)管理體系,將復(fù)刻的聲音或者定制的虛擬人進(jìn)行授權(quán),使之保留在一個(gè)特定的范圍之內(nèi),以盡力保持這個(gè)技術(shù)的合法利用。隨著這類(lèi)場(chǎng)景不斷普及,我認(rèn)為也會(huì)陸續(xù)有相關(guān)的指導(dǎo)政策出臺(tái),以最大化降低相關(guān)問(wèn)題出現(xiàn)的風(fēng)險(xiǎn)。如果要詐騙,其實(shí)一個(gè)真人去打電話(huà),和讓一個(gè)虛擬數(shù)字人去打電話(huà),我覺(jué)得本質(zhì)上沒(méi)有區(qū)別,就像菜刀有人拿去切菜有人拿去砍人。所以如果做了該做的防范,遵守了相關(guān)的法律法規(guī),在這個(gè)基礎(chǔ)上保持一個(gè)相對(duì)開(kāi)放的心態(tài),可能會(huì)利大于弊。我們希望這個(gè)技術(shù)能夠達(dá)到真人的效果,但當(dāng)它快達(dá)到100%的時(shí)候又會(huì)有恐慌,這個(gè)問(wèn)題非常復(fù)雜,其實(shí)很難有完全正確的答案。
  5、理論上,低端、重復(fù)性的工作都可以用機(jī)器來(lái)代替,但是我們發(fā)現(xiàn)日常生活中還是有很多此類(lèi)崗位存在。技術(shù)完全替代人,基本上可以認(rèn)為是不可能的。但技術(shù)的發(fā)展在不斷改變技術(shù)替代人的比例,隨著人口老齡化,我們的勞動(dòng)力越來(lái)越少,那么在各個(gè)行業(yè)它替代人的占比都會(huì)提升,這最終可能會(huì)變成一個(gè)社會(huì)問(wèn)題。
  目前來(lái)看,行業(yè)競(jìng)爭(zhēng)關(guān)鍵也是考驗(yàn)語(yǔ)音技術(shù)與配套場(chǎng)景產(chǎn)品結(jié)合,未來(lái)一定會(huì)有大批玩家進(jìn)入,不乏BAT這樣的玩家?梢钥隙ǖ氖牵S著大批玩家的涌入,這個(gè)市場(chǎng)會(huì)愈發(fā)成熟,用戶(hù)對(duì)新技術(shù)的接受程度會(huì)大大提升。當(dāng)一個(gè)虛擬人或者智能體說(shuō)話(huà)時(shí)能達(dá)到和真人一樣的效果,我相信整個(gè)行業(yè)會(huì)迎來(lái)一個(gè)爆發(fā)。
【免責(zé)聲明】本文僅代表作者本人觀點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對(duì)文中陳述、觀點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考,并請(qǐng)自行承擔(dān)全部責(zé)任。

評(píng)論排行

專(zhuān)題

CTI論壇會(huì)員企業(yè)

兴文县| 丰原市| 弋阳县| 石渠县| 沁源县| 海伦市| 措美县| 阿勒泰市| 稷山县| 定陶县| 阿拉善左旗| 古浪县| 牟定县| 泗水县| 宣威市| 新竹县| 洛川县| 平阴县| 元氏县| 乃东县| 铁岭市| 莱芜市| 连云港市| 加查县| 康马县| 六盘水市| 寻甸| 南江县| 渝中区| 饶河县| 富蕴县| 延庆县| 彭泽县| 定陶县| 定南县| 新邵县| 凤冈县| 安丘市| 湟中县| 连江县| 潼南县|