【MeL】音源分離・音声認識 (メディアテクノロジーシリーズ 9)(DL不可)
武田 龍, 高島 遼一 著
※表示価格は「学術機関向け・同時1アクセス」の価格となります。ご注文を承った際には、実際のご契約内容により算出した価格でご請求いたします。
内容
目次
第1章 序論:音源分離・音声認識へのいざない 1.1 音源分離・音声認識とは 1.2 本書でカバーする状況 1.3 本書の構成 第2章 音声信号処理の基本 2.1 データ表現と音源分離・音声認識の入出力 2.1.1 音響信号データとは 2.1.2 テキストデータとは 2.1.3 音源分離や音声認識とは 2.2 機械学習技術を用いたアプローチ 2.2.1 機械学習とは 2.2.2 学習・推論フェーズとポイント 2.2.3 音源分離や音声認識にどう適用するか 2.2.4 データへの適応:モデルのチューニングや学習・推論の同時実行 2.3 音声信号の伝達モデルと基本的な分析・特徴量 2.3.1 時間波形と時間周波数成分の可視化 2.3.2 信号源からマイクへの伝達過程と特徴量 2.3.3 音声信号の生成過程と特徴量 2.4 ディープニューラルネットワークとは 2.4.1 ネットワークの構造 2.4.2 ネットワークの学習 2.5 データの準備・生成 2.5.1 実収録 2.5.2 伝達系の再現 2.5.3 音源データ 第3章 音源分離:音を聞き分ける 3.1 音の聞き分け処理の概要 3.1.1 応用する際の事前検討 3.1.2 おもなタスク設定 3.1.3 音源分離で用いられるおもな評価尺度 3.2 基本的な枠組みと技術 3.2.1 基本的な処理領域やフロー 3.2.2 基本的な分離方式 3.2.3 ディープニューラルネットワークに基づく音源分離 3.3 参照信号を用いる音源分離:適応フィルタ 3.3.1 基本的な観測モデル 3.3.2 最小二乗法 3.3.3 LMS,NLMSおよびRLS 3.3.4 ディープニューラルネットワークを併用した手法 3.4 モノラル信号に対する音源分離・ 3.4.1 非負値行列分解 3.4.2 DeMask 3.4.3 ConvTasNet 3.4.4 SepFormer 3.5 マルチチャネル信号に対する音源分離 3.5.1 ビームフォーマ 3.5.2 ブラインド音源分離:ICA,IVA,ILRMA,fastMNMF 3.5.3 ディープニューラルネットワークを併用した手法 3.6 音源分離技術の実装例 3.6.1 エコーキャンセラ:システム音声の除去 3.6.2 音声強調:音声・非音声雑音から音声の抽出 3.6.3 音源分離:すべての信号を抽出 3.6.4 音楽音響信号分析 3.6.5 事前学習やfine-tuning 3.7 その他のトピック 3.7.1 Recursive Souce Seapration 3.7.2 Mixture Invariant Training 3.7.3 Location-based Training 3.7.4 Target Sound Extraction 3.8 本章のまとめ 第4章 音声認識:発話内容を認識する 4.1 音声認識の基礎知識 4.2 DNNとHMMによる音声認識 4.2.1 音響モデルの確率計算とアライメントについて 4.2.2 隠れマルコフモデル 4.2.3 DNN-HMMハイブリッドモデル 4.2.4 辞書および言語モデルを用いた連続音声認識 4.3 End-to-End音声認識 4.3.1 End-to-End音声認識における認識単位の定義 4.3.2 Connectionist temporal classification 4.3.3 RNNトランスデューサ 4.3.4 Attentionエンコーダ・デコーダモデル 4.3.5 Transformer 4.3.6 Conformer 4.4 End-to-End音声認識ツールESPNet 4.4.1 ツールの導入と使用方法 4.4.2 CTCとエンコーダ・デコーダ型モデルとの マルチタスク学習 4.4.3 評価結果の見方と評価指標 4.5 事前学習済みモデル 4.5.1 自己教師あり学習 4.5.2 Whisper 4.6 本章のまとめ 第5章 音源分離と音声認識にまたがる技術 5.1 データ拡張 5.1.1 波形の伸縮 5.1.2 雑音重畳とインパルス応答の畳み込み 5.1.3 SpecAugment 5.2 ダイアリゼーション 5.2.1 モジュールベース構成 5.2.2 End-to-End構成 5.2.3 音源分離とダイアリゼーションの統合 5.2.4 音声認識とダイアリゼーションの統合 5.3 音声認識と音源分離の統合 5.3.1 モデルミスマッチ問題 5.3.2 全体最適化によるアプローチ 引用・参考文献 索引