。ㄗg為《基于FLAT的多音字消歧系統(tǒng)》,以下簡稱“論文”)受到國際學者專業(yè)認可,成功收錄其中。據(jù)了解,這也是繼2019和2020兩屆大會入選后,標貝語音論文第三次被大會成功收錄,彰顯不俗的語音科研實力。
一年一度的INTERSPEECH是全球最具影響力的語音行業(yè)大會,而語音論文彰顯大會國際化、專業(yè)化、前沿化的特點,吸引全球數(shù)以千計的科研機構、高校及廠商關注,踴躍參與論文撰寫和投遞,共同見證行業(yè)蓬勃發(fā)展。
本次標貝科技投遞的“論文”,研究重點為在多音字消歧的系統(tǒng)中引入了FLAT的模型結(jié)構。經(jīng)過研究表明,在建模過程中,句子中多音字字符可以有效與所有的匹配詞匯進行交互,緩解了TTS系統(tǒng)在合成語音時,因分詞錯誤導致的多音字發(fā)音錯誤的問題。此外,該模型還引入了中文發(fā)音詞典的信息,賦予帶多音字字符的詞匯中目標多音字的正確發(fā)音,由此降低了多音字消歧系統(tǒng)的建模難度以及提升了多音字消歧系統(tǒng)的預測準確率。該模型還引入了中文預訓練語言模型,通過使用了動態(tài)詞向量,加強了句子中字符的表征能力,進一步提升了模型性能。
取得以上成績,與標貝專業(yè)、先進的研發(fā)技術整體綜合實力密不可分。標貝科技自成立以來,把AI技術創(chuàng)新應用放在首位,以“語音連接場景、數(shù)據(jù)服務技術”為理念,在技術、數(shù)據(jù)及應用三端不斷創(chuàng)新,確保在語音和數(shù)據(jù)領域的領先地位。
在語音合成方面,標貝科技語音技術路徑經(jīng)歷重要的三個階段,無論是在場景落地還是技術演化方面,均有巨大突破。
1.0階段注意力機制深度學習首次商用
為了提高語音合成的自然流暢度,標貝科技的語音合成技術在聲學、韻律上采用了基于Attention機制的深度神經(jīng)網(wǎng)絡技術模型,充分利用文本數(shù)據(jù),構建前端模塊、選擇合適的聲碼器,降低運算量,實現(xiàn)合成語音的發(fā)音自然、清晰、韻律感流暢,讓機器與人的互動顯得更親近。
2.0階段音色擴展個性化合成
為了滿足不同場景的需求,標貝科技在音色和場景豐富度上持續(xù)發(fā)力;诤A空Z音數(shù)據(jù)的優(yōu)勢,對音色庫進行充分擴充,推出支持不同年齡、性別、以及語種的多類型音色的TTS2.0解決方案,并支持用戶個性化需求定制,滿足了多場景及多業(yè)務的需求。
語音技術方面,標貝打造了支持聲音復刻、情感合成等個性化、差異化的語音技術服務。聲音復刻與情感合成是基于語音技術本身的創(chuàng)新型應用。通過復刻聲音,為聲音注入豐富的情感,深度挖掘合成語音的個性化、定制化價值,更好的匹配有聲閱讀、AI教育等應用場景。
3.0階段深度學習框架升級,更有表現(xiàn)力更自然的聲音
2021年開年,標貝推出了全新升級的TTS3.0技術采用全新的Transformer機制和GAN聲碼器,升級了全新的模型結(jié)構的基礎上,依舊保持了對tts2.0舊模型的全部兼容,最大程度地保證無縫升級。同時,新系統(tǒng)使用了高維度的聲學信息,可以承載更多的聲音細節(jié),顯著提升了現(xiàn)有發(fā)音效果。無論是自然講話、情緒講話、還是角色模仿,都大大提升了多場景下角色和情感表達判斷的精確性,同時保障了輸出音質(zhì)的穩(wěn)定、清晰、順暢,聲碼器采用GAN結(jié)構,不但高效且真實的還原了波形,同時為合成聲音注入了真實質(zhì)感。
在場景方面,標貝科技基于技術優(yōu)勢的基礎上,打造能夠覆蓋多場景應用的語音交互方案,包括語音合成、語音識別、聲音復刻、情感合成以及聲音轉(zhuǎn)換在內(nèi)的語音技術產(chǎn)品,以有溫度的聲音,提升用戶交互體驗。
值得一提的是,數(shù)據(jù)為AI應用落地提供堅實基礎。而標貝科技致力于為企業(yè)提供專業(yè)、高質(zhì)量的語音數(shù)據(jù)服務。
在采標能力上,標貝科技基于深度學習以及高精度預處理技術,擁有多語言多類型數(shù)據(jù)采集制作能力、語音合成技術建模和測試需要的深度標注加工和分析處理等數(shù)據(jù)服務。
其中,數(shù)據(jù)采集方面,標貝科技可根據(jù)客戶定制化需求,對各類規(guī)定文本、指定圖片,各種環(huán)境下的語音、視頻進行采集;采集過程中可實現(xiàn)對其內(nèi)容的篩選、文本化等相關任務。
而數(shù)據(jù)標注方面,在語音方面,支持ASR語音轉(zhuǎn)寫、音素標注、語音清洗、聲紋識別標注、語音切割、情緒判定等;在自然語言處理方面,支持OCR轉(zhuǎn)寫、文本信息抽取、文本富集、詞性標注、槽位提取等;在計算機視覺方面,支持圖片清洗分類、關鍵點標注、3D點云標注、圖像語義分割、目標跟蹤等。
隨著技術不斷進步,將會有越來越多的語音技術產(chǎn)品出現(xiàn)在人們生活和工作之中。未來,標貝科技將加大研發(fā)投入力度,與學術界和工業(yè)界保持緊密合作,攜手共同推動語音產(chǎn)業(yè)的發(fā)展。