首頁(yè)>>>技術(shù)>>>語(yǔ)音應(yīng)用>>>語(yǔ)音識(shí)別(ASR)  語(yǔ)音識(shí)別產(chǎn)品


語(yǔ)音辨識(shí)基礎(chǔ)知識(shí)

近 年 來(lái) , 由 于 電 腦 在 軟 件 上 的 長(zhǎng) 足 進(jìn) 步 , 類(lèi) 似 電 視 影 集 霹 靂 游 俠 中 李 麥 克 與 霹 靂 車(chē) 伙 計(jì) 之 間 能 夠 使 用 人 類(lèi) 語(yǔ) 言 和 電 腦 溝 通 的 情 節(jié) 已 不 再 是 夢(mèng) 想 , 語(yǔ) 音 辨 識(shí) 科 技 這 一 兩 年 來(lái) 已 慢 慢 從 實(shí) 驗(yàn) 室 里 的 研 究 走 入 到 我 們 的 生 活 之 中 。 聲 碩 科 技 通 過(guò) 臺(tái) 灣 大 學(xué) 李 琳 山 教 授 在 中 文 語(yǔ) 音 辨 識(shí) 方 面 研 究 成 果 , 專(zhuān) 注 于 語(yǔ) 音 辨 識(shí) 技 術(shù) 的 商 品 化 , 目 前 是 華 人 地 區(qū) 唯 一 掌 握 中 文 語(yǔ) 音 辨 識(shí) 核 心 并 推 出 產(chǎn) 品 的 公 司 。

什 么 是 語(yǔ) 音 辨 識(shí)

語(yǔ) 音 辯 識(shí) 最 基 本 的 定 義 , 就 是 “ 電 腦 能 聽(tīng) 懂 人 類(lèi) 說(shuō) 話(huà) 的 語(yǔ) 句 或 命 令 , 而 做 出 相 對(duì) 應(yīng) 的 工 作 ” 。 也 就 是 說(shuō) , 如 果 電 腦 配 置 有 “ 語(yǔ) 音 辨 識(shí) ” 的 程 序 組 , 那 么 當(dāng) 你 的 聲 音 通 過(guò) 一 個(gè) 轉(zhuǎn) 換 裝 置 輸 入 電 腦 內(nèi) 部 、 并 以 數(shù) 位 方 式 儲(chǔ) 存 后 , 語(yǔ) 音 辨 識(shí) 程 序 便 開(kāi) 始 以 你 輸 入 的 聲 音 樣 本 與 事 先 儲(chǔ) 存 好 的 聲 音 樣 本 進(jìn) 行 對(duì) 比 工 作 。 聲 音 對(duì) 比 工 作 完 成 之 后 , 電 腦 就 會(huì) 輸 入 一 個(gè) 它 認(rèn) 為 最 “ 象 ” 的 聲 音 樣 本 序 號(hào) , 就 可 以 知 道 你 剛 才 念 的 聲 音 是 什 么 意 義 , 進(jìn) 而 執(zhí) 行 此 命 令 。 說(shuō) 起 來(lái) 簡(jiǎn) 單 , 但 要 真 正 建 立 辨 識(shí) 率 高 的 語(yǔ) 音 辨 識(shí) 程 序 組 , 卻 是 非 常 困 難 而 專(zhuān) 業(yè) 的 , 世 界 各 地 的 學(xué) 者 們 也 還 在 努 力 研 究 最 好 的 方 式 。 例 如 , “ 聲 音 樣 本 ” 要 如 何 建 立 呢 ? 簡(jiǎn) 單 來(lái) 說(shuō) , 如 果 要 辨 識(shí) 10 個(gè) 字 , 那 就 是 先 把 這 10 個(gè) 字 的 聲 音 念 入 電 腦 中 , 存 成 10 個(gè) 參 考 樣 本 , 辨 識(shí) 時(shí) , 只 要 把 本 次 所 念 的 聲 音 ( 測(cè) 試 樣 本 ) 與 事 先 存 好 的 10 個(gè) 參 考 樣 本 一 一 對(duì) 比 , 找 出 與 測(cè) 試 樣 本 最 象 的 樣 本 , 即 可 把 測(cè) 試 樣 本 辨 識(shí) 出 來(lái) ; 問(wèn) 題 是 , 每 個(gè) 使 用 者 念 入 電 腦 的 語(yǔ) 音 長(zhǎng) 度 、 音 調(diào) 、 頻 率 都 不 一 樣 ; 甚 至 同 一 個(gè) 人 , 盡 管 每 次 都 念 相 同 的 聲 音 , 但 波 形 卻 也 不 盡 相 同 , 如 果 在 一 個(gè) 有 雜 音 的 環(huán) 境 中 , 那 情 況 就 更 糟 了 。 因 此 , 專(zhuān) 家 學(xué) 者 們 研 究 出 許 多 破 解 這 個(gè) 問(wèn) 題 的 方 法 , 如 傅 立 葉 轉(zhuǎn) 換 、 倒 頻 譜 參 數(shù) 等 , 使 目 前 的 語(yǔ) 音 辨 識(shí) 系 統(tǒng) 已 達(dá) 到 一 個(gè) 可 接 受 的 程 度 , 并 且 辨 識(shí) 度 愈 來(lái) 愈 高 。

語(yǔ) 音 辨 識(shí) 技 術(shù) 的 應(yīng) 用 層 面

  1. 電 腦 軟 件 是 目 前 最 被 視 廣 為 應(yīng) 用 的 方 向 。 例 如 : 語(yǔ) 音 命 令 、 語(yǔ) 音 輸 入 , 對(duì) 話(huà) 系 統(tǒng) 、 查 詢(xún) 系 統(tǒng) 、 教 學(xué) 軟 件 、 游 戲 軟 件 等 。

  2. 消 費(fèi) 性 電 子 產(chǎn) 品


  3. -- 例 如 : 電 子 記 事 本 、 聲 控 玩 具 、 語(yǔ) 音 拔 號(hào) 功 能 的 手 機(jī) 等 。

  4. 工 業(yè) 產(chǎn) 品


  5. -- 例 如 : 車(chē) 用 移 動(dòng) 電 話(huà) 、 車(chē) 用 導(dǎo) 航 系 統(tǒng) 等 。

  6. 電 話(huà) 系 統(tǒng) -- 例 如 : 語(yǔ) 音 辨 識(shí) 總 機(jī) 服 務(wù) 、 語(yǔ) 音 拔 號(hào) 、 語(yǔ) 音 訂 票 訂 位 等 。

SpeechDirect SDK
聲 碩 科 技 在 1999 年 初 開(kāi) 發(fā) 了 "SpeechDirect SDK" 語(yǔ) 音 辨 識(shí) 應(yīng) 用 軟 件 開(kāi) 發(fā) 工 具 , 利 用 這 套 開(kāi) 發(fā) 工 具 , 電 腦 軟 件 開(kāi) 發(fā) 廠 商 可 以 開(kāi) 發(fā) 出 各 式 各 樣 的 語(yǔ) 音 相 關(guān) 應(yīng) 用 軟 件 。 “ SpeechDirect SDK ” 語(yǔ) 音 辨 識(shí) 應(yīng) 用 軟 件 開(kāi) 發(fā) 工 具 可 以 提 供 電 腦 軟 件 廠 商 一 個(gè) 簡(jiǎn) 單 易 用 的 語(yǔ) 音 辨 識(shí) 程 序 界 面 , 開(kāi) 發(fā) 關(guān) 于 語(yǔ) 音 控 制 、 自 然 語(yǔ) 音 資 料 庫(kù) 搜 尋 、 及 中 文 連 續(xù) 語(yǔ) 音 輸 入 等 等 的 應(yīng) 用 。 其 內(nèi) 含 的 中 文 語(yǔ) 音 辨 識(shí) 引 擎 可 以 支 援 單 詞 辨 識(shí) ( ISR,Isolated Speech Recognition ) 、 關(guān) 健 詞 辨 識(shí) ( KWS,Keyword-Spotting ) 、 甚 至 連 續(xù) 語(yǔ) 音 辨 識(shí) ( CSR,Continuous speech recognition ) 。 此 外 還 支 援 電 腦 合 成 語(yǔ) 音 的 功 能 ( TTS , Text-To-Speech ) 可 將 文 字 轉(zhuǎn) 為 語(yǔ) 音 , 使 電 腦 不 僅 能 夠 聽(tīng) 得 懂 人 說(shuō) 的 話(huà) 而 已 , 更 可 以 用 人 的 語(yǔ) 言 與 人 類(lèi) 溝 通 。 聲 碩 科 技 的 語(yǔ) 音 辨 識(shí) 引 擎 在 語(yǔ) 音 控 制 方 面 ( 包 括 單 詞 辨 識(shí) 及 關(guān) 鍵 詞 辨 識(shí) ) , 不 需 要 口 音 訓(xùn) 練 即 可 使 用 , 可 避 免 因 口 音 訓(xùn) 練 而 帶 給 使 用 者 的 不 便 。

“SpeechDirect” 語(yǔ) 音 引 擎 主 要 包 含 下 列 功 能 :

在 語(yǔ) 音 辨 識(shí) 率 方 面 , 使 用 語(yǔ) 音 命 令 功 能 的 辨 識(shí) 率 大 概 在 90%--95% 之 間 , 下 表 顯 示 語(yǔ) 音 命 令 的 個(gè) 數(shù) 與 辨 識(shí) 率 之 間 的 關(guān) 系 。

語(yǔ) 音 命 令 個(gè) 數(shù)
辨 識(shí) 率
50
95.1%
100
93.8%
200
93%
300
92.3%
500
90.1%

“SpeechDirect” 語(yǔ) 音 辨 識(shí) 引 擎 的 特 色 有 :


 

下 圖 為 語(yǔ) 音 識(shí) 別 引 擎 的 系 統(tǒng) 結(jié) 構(gòu) :



聲 碩 科 技 的 “ SpeechDirect ” 語(yǔ) 音 辨 識(shí) 應(yīng) 用 軟 件 發(fā) 展 工 具 ( SDK ) 為 一 個(gè) 包 含 最 先 進(jìn) 中 文 語(yǔ) 音 辨 識(shí) 引 擎 的 應(yīng) 用 軟 件 發(fā) 展 工 具 , 其 目 的 是 幫 助 在 微 軟 視 窗 作 業(yè) 系 統(tǒng) 發(fā) 展 應(yīng) 用 軟 件 的 廠 商 , 能 快 速 而 簡(jiǎn) 易 地 將 語(yǔ) 音 辨 識(shí) 功 能 加 進(jìn) 他 們 的 軟 件 中 。 “ SpeechDirect SDK ” 提 供 一 個(gè) 簡(jiǎn) 單 易 用 的 語(yǔ) 音 應(yīng) 用 程 序 界 面 ( speech API, Application Programming Interface ) 給 使 用 者 作 語(yǔ) 音 辨 識(shí) 上 的 應(yīng) 用 , 同 時(shí) 又 不 失 使 用 上 的 彈 性 和 擴(kuò) 充 性 , “ SpeechDirect SDK ” 的 內(nèi) 容 除 了 聲 碩 科 技 的 中 文 語(yǔ) 音 辨 識(shí) 引 擎 外 , 還 包 括 使 用 說(shuō) 明 文 件 、 范 例 程 序 、 相 關(guān) 工 具 及 語(yǔ) 音 資 料 庫(kù) 、 教 育 訓(xùn) 練 和 技 術(shù) 咨 詢(xún) 支 援 等 等 。

下 列 為 建 議 的 系 統(tǒng) 需 求 :

聲 碩 科 技 將 持 續(xù) 提 升 語(yǔ) 音 辨 識(shí) 的 正 確 率 , 并 朝 電 話(huà) 語(yǔ) 音 辨 識(shí) 及 語(yǔ) 音 集 成 的 方 向 發(fā) 展 , 此 外 , 也 會(huì) 開(kāi) 發(fā) 支 援 微 軟 語(yǔ) 音 程 序 界 面 ( SAPI ) 的 語(yǔ) 音 辨 識(shí) 引 擎 , 使 語(yǔ) 音 程 序 界 面 標(biāo) 準(zhǔn) 化 。

 



相關(guān)鏈接:
主要語(yǔ)音引擎及開(kāi)發(fā)工具 2002-01-30
聲揚(yáng)語(yǔ)音識(shí)別系列開(kāi)發(fā)工具 2002-01-30
ASR:“說(shuō)得出做得到” 2002-01-30
IBM ViaVoice語(yǔ)音軟件開(kāi)發(fā)工具 2002-01-30
語(yǔ)音識(shí)別的應(yīng)用前景 2002-01-30

分類(lèi)信息:     技術(shù)_語(yǔ)音識(shí)別_文摘
兴和县| 黑河市| 宁阳县| 谷城县| 萍乡市| 柯坪县| 连云港市| 沁阳市| 巴东县| 雅江县| 铜陵市| 兴城市| 遂昌县| 靖远县| 文山县| 彭山县| 三原县| 榆社县| 泰来县| 灵寿县| 张家界市| 疏勒县| 呼伦贝尔市| 兴仁县| 达拉特旗| 容城县| 温州市| 杨浦区| 长垣县| 台安县| 淮滨县| 广安市| 铜鼓县| 临洮县| 博客| 桃园市| 雷山县| 辉县市| 淄博市| 公主岭市| 台东县|