語 音 識 別 技
術(shù) 并 不 是 一 夜 之 間 冒 出 來 的 神 話, 早 在 三 四 十 年 前, 在 美 國 的 一 些 大 學 和 研 究 單
位, 就 已 經(jīng) 有 人 開 始 從 事 這 一 方 向 的 研 究, 并 有 一 些 相 關(guān) 論 文 發(fā) 表; 七 十 年 代 前 后,
研 究 的 脈 絡 日 漸 清 晰, 于 是 貝 爾 實 驗 室 和 國 際 商 用 機 器 公 司 (IBM) 等 都 先 后 建 立
了 專 門 的 研 究 機 構(gòu)。 今 天 這 兩 家 公 司 在 這 一 領(lǐng) 域 都 已 取 得 了 顯 著 的 成 果, 并 且 在
商 業(yè) 上 應 用 成 功, 但 貝 爾 實 驗 室 主 要 是 偏 重 于 電 信 方 面 應 用 的 語 音 識 別 系 統(tǒng), 如
電 話 查 詢 等; 而 IBM 則 偏 重 于 商 務 應 用, 因 而 在 連 續(xù) 語 音 識 別 上 取 得 了 不 小 的 成
功。
不 談 商 業(yè) 方 面
的 應 用, 事 實 上, 很 多 家 公 司 都 提 供 語 音 識 別 的 引 擎 (Engine), 并 且 都 表 示 能 支
持 微 軟 的SAPI。 看 一 看 SAPI4.0 SUITE 就 不 難 發(fā) 現(xiàn), 微 軟 在 這 方 面 的 研 究 并 不 遜
于 任 何 一 家 公 司, 只 是 很 奇 怪 它 居 然 沒 有 將 成 果 商 業(yè) 化。 微 軟 同 時 提 供 了 一 系 列
引 擎, 如 Speech Recognition ( 語 音 識 別)、Command & Control ( 發(fā) 布 指 令
并 控 制)、Phone Query ( 電 話 語 音 識 別)、Text to speech( 文 本 語 音 轉(zhuǎn) 換) 等。
今 天, 許 多 用
戶 已 經(jīng) 能 享 受 到 語 音 技 術(shù) 的 優(yōu) 勢 了, 可 以 對 計 算 機 發(fā) 送 命 令, 或 者 要 求 計 算 機 記
錄 下 用 戶 所 說 的 話, 以 及 將 文 本 轉(zhuǎn) 換 成 聲 音 朗 讀 出 來。 盡 管 如 此, 距 離 真 正 的 人 機
自 由 交 流 的 前 景 似 乎 還 遠。 目 前, 計 算 機 還 需 要 對 用 戶 作 大 量 訓 練 才 能 識 別 用 戶
的 語 音。 并 且, 識 別 率 也 并 不 總 是 盡 如 人 意。 換 言 之, 語 音 識 別 技 術(shù) 還 有 一 段 路 需
要 走, 要 做 到 真 正 成 功 的 商 業(yè) 化, 它 還 必 須 在 很 多 方 面 取 得 突 破 性 進 展, 這 實 際 就
是 其 技 術(shù) 的 未 來 走 向。
1、 就 算 法
模 型 方 面 而 言, 需 要 有 進 一 步 的 突 破。 目 前 能 看 出 它 的 一 些 明 顯 不 足, 尤 其 在
中 文 語 音 識 別 方 面, 語 言 模 型 還 有 待 完 善, 因 為 語 言 模 型 和 聲 學 模 型 正 是 聽 寫 識
別 的 基 礎(chǔ), 這 方 面 沒 有 突 破, 語 音 識 別 的 進 展 就 只 能 是 一 句 空 話。 目 前 使 用 的 語 言
模 型 只 是 一 種 概 率 模 型, 還 沒 有 用 到 以 語 言 學 為 基 礎(chǔ) 的 文 法 模 型, 而 要 使 計 算 機
確 實 理 解 人 類 的 語 言, 就 必 須 在 這 一 點 上 取 得 進 展, 這 是 一 個 相 當 艱 苦 的 工 作。 此
外, 隨 著 硬 件 資 源 的 不 斷 發(fā) 展, 一 些 核 心 算 法 如 特 征 提 取、 搜 索 算 法 或 者 自 適 應 算
法 將 有 可 能 進 一 步 改 進。 可 以 相 信, 半 導 體 和 軟 件 技 術(shù) 的 共 同 進 步 將 為 語 音 識 別
技 術(shù) 的 基 礎(chǔ) 性 工 作 帶 來 福 音。
2、 就 自 適
應 方 面 而 言, 語 音 識 別 技 術(shù) 也 有 待 進 一 步 改 進。 目 前, 象 IBM 的 ViaVoice 和
Asiaworks 的 SPK 都 需 要 用 戶 在 使 用 前 進 行 幾 百 句 話 的 訓 練, 以 讓 計 算 機 適 應 你
的 聲 音 特 征。 這 必 然 限 制 了 語 音 識 別 技 術(shù) 的 進 一 步 應 用, 大 量 的 訓 練 不 僅 讓 用 戶
感 到 厭 煩, 而 且 加 大 了 系 統(tǒng) 的 負 擔。 并 且, 不 能 指 望 將 來 的 消 費 電 子 應 用 產(chǎn) 品 也 針
對 單 個 消 費 者 進 行 訓 練。 因 此, 必 須 在 自 適 應 方 面 有 進 一 步 的 提 高, 做 到 不 受 特 定
人、 口 音 或 者 方 言 的 影 響, 這 實 際 上 也 意 味 著 對 語 言 模 型 的 進 一 步 改 進。 現(xiàn) 實 世 界
的 用 戶 類 型 是 多 種 多 樣 的, 就 聲 音 特 征 來 講 有 男 音、 女 音 和 童 音 的 區(qū) 別, 此 外, 許
多 人 的 發(fā) 音 離 標 準 發(fā) 音 差 距 甚 遠, 這 就 涉 及 到 對 口 音 或 方 言 的 處 理。 如 果 語 音 識
別 能 做 到 自 動 適 應 大 多 數(shù) 人 的 聲 線 特 征, 那 可 能 比 提 高 一 二 個 百 分 點 識 別 率 更 重
要。 事 實 上,ViaVoice 的 應 用 前 景 也 因 為 這 一 點 打 了 折 扣, 只 有 普 通 話 說 得 很 好 的
用 戶 才 可 以 在 其 中 文 版 連 續(xù) 語 音 識 別 方 面 取 得 相 對 滿 意 的 成 績。
3、 就 強 健
性 方 面 而 言, 語 音 識 別 技 術(shù) 需 要 能 排 除 各 種 環(huán) 境 因 素 的 影 響。 目 前, 對 語 音 識
別 效 果 影 響 最 大 的 就 是 環(huán) 境 雜 音 或 嗓 音, 在 公 共 場 合, 你 幾 乎 不 可 能 指 望 計 算 機
能 聽 懂 你 的 話, 來 自 四 面 八 方 的 聲 音 讓 它 茫 然 而 不 知 所 措。 很 顯 然 這 極 大 地 限 制
了 語 音 技 術(shù) 的 應 用 范 圍, 目 前, 要 在 嘈 雜 環(huán) 境 中 使 用 語 音 識 別 技 術(shù) 必 須 有 特 殊 的
抗 嗓 (Noise Cancellation) 麥 克 風 才 能 進 行, 這 對 多 數(shù) 用 戶 來 說 是 不 現(xiàn) 實 的。 在
公 共 場 合 中, 個 人 能 有 意 識 地 摒 棄 環(huán) 境 嗓 音 并 從 中 獲 取 自 己 所 需 要 的 特 定 聲 音,
如 何 讓 語 音 識 別 技 術(shù) 也 能 達 成 這 一 點 呢 ? 這 的 確 是 一 個 艱 巨 的 任 務。
此 外, 帶 寬 問
題 也 可 能 影 響 語 音 的 有 效 傳 送, 在 速 率 低 于 1000 比 特/ 秒 的 極 低 比 特 率 下, 語 音
編 碼 的 研 究 將 大 大 有 別 于 正 常 情 況, 比 如 要 在 某 些 帶 寬 特 別 窄 的 信 道 上 傳 輸 語 音,
以 及 水 聲 通 信、 地 下 通 信、 戰(zhàn) 略 及 保 密 話 音 通 信 等, 要 在 這 些 情 況 下 實 現(xiàn) 有 效 的 語
音 識 別, 就 必 須 處 理 聲 音 信 號 的 特 殊 特 征, 如 因 為 帶 寬 而 延 遲 或 減 損 等。 語 音 識 別
技 術(shù) 要 進 一 步 應 用, 就 必 須 在 強 健 性 方 面 有 大 的 突 破。
4、 多 語 言
混 合 識 別 以 及 無 限 詞 匯 識 別 方 面: 簡 單 地 說, 目 前 使 用 的 聲 學 模 型 和 語 音 模
型 太 過 于 局 限, 以 至 用 戶 只 能 使 用 特 定 語 音 進 行 特 定 詞 匯 的 識 別。 如 果 突 然 從 中
文 轉(zhuǎn) 為 英 文, 或 者 法 文、 俄 文, 計 算 機 就 會 不 知 如 何 反 應, 而 給 出 一 堆 不 知 所 云 的
句 子; 或 者 用 戶 偶 爾 使 用 了 某 個 專 門 領(lǐng) 域 的 專 業(yè) 術(shù) 語, 如" 信 噪 比" 等, 可 能 也 會 得
到 奇 怪 的 反 應。 這 一 方 面 是 由 于 模 型 的 局 限, 另 一 方 面 也 受 限 于 硬 件 資 源。 隨 著 兩
方 面 的 技 術(shù) 的 進 步, 將 來 的 語 音 和 聲 學 模 型 可 能 會 做 到 將 多 種 語 言 混 合 納 入, 用
戶 因 此 就 可 以 不 必 在 語 種 之 間 來 回 切 換。 此 外, 對 于 聲 學 模 型 的 進 一 步 改 進, 以 及
以 語 義 學 為 基 礎(chǔ) 的 語 言 模 型 的 改 進, 也 能 幫 助 用 戶 盡 可 能 少 或 不 受 詞 匯 的 影 響,
從 而 可 實 行 無 限 詞 匯 識 別。
5、 多 語 種
交 流 系 統(tǒng) 的 應 用: 最 終, 語 音 識 別 是 要 進 一 步 拓 展 我 們 的 交 流 空 間, 讓 我 們 能
更 加 自 由 地 面 對 這 個 世 界。 可 以 想 見, 如 果 語 音 識 別 技 術(shù) 在 上 述 幾 個 方 面 確 實 取
得 了 突 破 性 進 展, 那 么 多 語 種 交 流 系 統(tǒng) 的 出 現(xiàn) 就 是 順 理 成 章 的 事 情, 這 將 是 語 音
識 技 術(shù)、 機 器 翻 譯 技 術(shù) 以 及 語 音 合 成 技 術(shù) 的 完 美 結(jié) 合, 而 如 果 硬 件 技 術(shù) 的 發(fā) 展 能
將 這 些 算 法 進 而 固 化 到 更 為 細 小 的 芯 片, 比 如 手 持 移 動 設(shè) 備 上, 那 么 個 人 就 可 以
帶 著 這 種 設(shè) 備 周 游 世 界 而 無 需 擔 心 任 何 交 流 的 困 難, 你 說 出 你 想 表 達 的 意 思, 手
持 設(shè) 備 同 時 識 別 并 將 它 翻 譯 成 對 方 的 語 言, 然 后 合 成 并 發(fā) 送 出 去; 同 時 接 聽 對 方
的 語 言, 識 別 并 翻 譯 成 已 方 的 語 言, 合 成 后 朗 讀 給 你 聽, 所 有 這 一 切 幾 乎 都 是 同 時
進 行 的, 只 是 機 器 充 當 著 主 角。
任 何 技 術(shù) 的 進
步 都 是 為 了 更 進 一 步 拓 展 我 們 人 類 的 生 存 和 交 流 空 間, 以 使 我 們 獲 得 更 大 的 自 由,
就 服 務 于 人 類 而 言, 這 一 點 顯 然 也 是 語 音 識 別 技 術(shù) 的 發(fā) 展 方 向, 而 為 了 達 成 這 一
點, 它 還 需 要 在 上 述 幾 個 方 面 取 得 突 破 性 進 展, 要 實 現(xiàn) 這 一 點,Intel 架 構(gòu) 平 臺 的
性 能 進 步 也 是 一 個 關(guān) 鍵 的 因 素, 最 終, 多 語 種 自 由 交 流 系 統(tǒng) 將 帶 給 我 們 全 新 的 生
活 空 間。
主要語音引擎及開發(fā)工具 2002-01-30 |
聲揚語音識別系列開發(fā)工具 2002-01-30 |
ASR:“說得出做得到” 2002-01-30 |
IBM ViaVoice語音軟件開發(fā)工具 2002-01-30 |
語音識別的應用前景 2002-01-30 |