音声<下>(音響学講座 7)
岩野 公司, 河原 達也, 篠田 浩一, 伊藤 彰則, 増村 亮, 駒谷 和範, 小川 哲司 著
内容
目次
1. 音声認識 1.1 音声認識の概要 1.1.1 音声認識研究の歴史 1.1.2 音声認識の仕様の分類 1.1.3 音声認識の応用の展開 1.2 音声認識の原理 1.2.1 音声認識の定式化 1.2.2 統計的言語モデルによる尤度計算 1.2.3 統計的音響モデルによる尤度計算 1.3 音声認識のための特徴量 1.3.1 メルフィルタバンクとMFCC 1.3.2 スプライシングとデルタパラメータ 1.3.3 特徴量の統計的変換 1.3.4 特徴量の正規化 1.4 音声認識システムの構成 1.4.1 音声認識システムの動作方式による分類 1.4.2 言語モデルの種類による分類 1.4.3 大語彙連続音声認識エンジン 1.4.4 重み付き有限状態トランスデューサ(WFST) 1.4.5 End-to-End音声認識 1.5 音声認識結果の扱い 1.5.1 音声認識結果の評価尺度 1.5.2 音声認識結果の複数候補の表現 1.5.3 音声認識結果の信頼度尺度 1.5.4 複数の音声認識システムの結果の統合 引用・参考文献 2. 音響モデルとその高度化 2.1 音響モデル 2.1.1 マルコフ過程 2.1.2 隠れマルコフモデル(HMM) 2.1.3 音声認識のためのHMM 2.1.4 HMMによる音声認識 2.1.5 HMMの学習 2.1.6 連続密度HMM 2.1.7 サブワード単位 2.2 頑健性の向上 2.2.1 状態共有 2.2.2 適応化 2.3 識別学習の利用 2.4 ニューラルネットワーク・深層学習の利用 2.4.1 ニューラルネットワーク 2.4.2 深層ニューラルネットワーク(DNN) 2.4.3 畳み込みニューラルネットワーク 2.4.4 再帰型ニューラルネットワーク 2.4.5 長・短期記憶 2.4.6 コネクショニスト時系列識別法 2.4.7 注意機構 引用・参考文献 3. 言語モデルとその高度化 3.1 言語モデル 3.1.1 統計的言語モデル 3.1.2 ネットワーク文法 3.2 N-gramモデル 3.2.1 N-gramモデルとは 3.2.2 確率の平滑化 3.2.3 階層ピットマン・ヨー言語モデル 3.2.4 N-gramモデルの適応 3.3 統計的言語モデルの評価 3.3.1 パープレキシティ 3.3.2 補正パープレキシティ 3.4 頑健性の向上 3.4.1 クラスN-gram 3.4.2 トピックモデル 3.4.3 最大エントロピー言語モデル 3.5 識別的言語モデル 3.6 ニューラルネットワーク・深層学習の利用 3.6.1 全結合型ニューラルネットワーク言語モデル 3.6.2 再帰型ニューラルネットワーク言語モデル 3.6.3 音声認識での利用 3.6.4 計算量の削減 引用・参考文献 4. 話者認識 4.1 話者認識の概要 4.2 話者認識技術の進展と位置づけ 4.3 話者性の表現 4.3.1 生成モデルによる方法 4.3.2 識別モデルによる方法 4.3.3 因子分析モデルによる方法 4.3.4 話者内変動補正 4.3.5 深層話者埋め込み 4.4 話者照合システムの評価 4.5 話者ダイアライゼーション 4.5.1 話者セグメンテーション 4.5.2 話者クラスタリング 4.5.3 リセグメンテーション 4.5.4 話者の表現 4.5.5 クラスタリング技術 4.5.6 性能評価 4.5.7 音声コーパス・ツール 引用・参考文献 5. 音声対話システム 5.1 対話システムのバリエーション 5.1.1 モダリティ 5.1.2 参加人数 5.1.3 タスクとドメイン 5.1.4 発話の単位 5.2 対話の主導権 5.2.1 ユーザ主導,システム主導,混合主導 5.2.2 2階層の主導権 5.2.3 タスク指向型対話の抽象タスクと主導権 5.3 対話管理のモデル 5.3.1 音声対話システムのモジュール構成 5.3.2 オートマトンに基づく対話管理 5.3.3 フレームに基づく対話管理 5.3.4 アジェンダに基づく対話管理 5.4 対話戦略の学習 5.4.1 対話状態推定 5.4.2 発話選択 5.5 音声対話システムの評価 5.5.1 評価の難しさ 5.5.2 評価指標の分類 5.5.3 PARADISE 5.5.4 チューリングテスト 5.5.5 被験者実験での注意点 引用・参考文献 索引