商品詳細(参照) | Knowledge Worker

丸善のおすすめ度

音源分離・音声認識(メディアテクノロジーシリーズ　9)

武田龍, 高島遼一　著

大淵康成　編

在庫状況有り	お届け予定日 3～4日
価格 \4,180（税込）

発行年月	2024年11月
出版社／提供元	コロナ社
言語	日本語
媒体	冊子
ページ数／巻数	10p,221p
大きさ	21cm
ジャンル	和書／理工学／情報学／情報理論
ISBN	9784339013795
商品コード	1039302346
NDC分類	007.1
基本件名	音声処理
本の性格	実務向け
新刊案内掲載月	2024年11月4週
商品URL	https://kw.maruzen.co.jp/ims/itemDetail.html?itmCd=1039302346

内容

【読者対象】
本書は、マイクから取り込んだ音を聞き分け、理解するシステムに興味のある幅広い読者を対象としています。音声そのものを扱う研究に従事する人だけでなく、様々なITシステムの中で音声を活用したいと思っている方にも役立つ内容となっています。

【書籍の特徴】
本書では、様々な音が混ざり合った状態から目的の音声だけを取り出す音源分離技術と、そうして得られた音声の内容を理解する音声認識技術とを扱っています。この二つは異なる技術ですが、音響信号からの特徴抽出や、大量のデータのモデル化の方法など、共通して学ぶべき内容も多く、一冊の書籍にまとめることで、さらに理解しやすくなると考えました。もちろん片方だけでも十分に役立ちますので、必要なところだけを読んでもらっても構いません。また、アルゴリズムを自分で実装するのは大変だという人でも、既存のツールなどを使いこなすための基礎知識が得られるような内容になっています。

【各章について】
1章では、本書で扱う技術の位置づけと、本書の構成を説明しています。
2章では、音声の信号処理や機械学習の基礎的な部分を概説しています。本書で扱う分野の入門的知識として過不足の無い内容になっているはずです。
3章は、音源分離に関する章です。音声認識や音声通話など様々な目的で用いることも考慮に入れ、使用目的や雑音環境、マイク配置などに応じた最適な手法を説明します。
4章は、音声認識に関する章です。基本となる確率モデルの考え方に加えて、近年の主流となっている深層学習を用いたシステムの活用方法についても解説します。
5章では、音源分離と音声認識の両者にまたがる技術を紹介します。どちらか片方の章の続きとして読んでも、あるいは両者のまとめとして読んでも構いません。

【著者からのメッセージ】
近年のAIブームに乗って、音源分離や音声認識の様々なツールやアプリケーションが公開されています。周辺分野の研究者や開発者が、これらを自分のシステムに取り込む機会も多くなっていることでしょう。しかし、扱う音声データの種類や、アプリケーションの形態などにより、AIツールの最適な使い方は変わってきます。様々な目的を持った研究者・開発者の方々が、本書を通じて得られた知識をもとに、最先端の音声処理機能を活用していただければ幸いです。

第1章序論：音源分離・音声認識へのいざない 1.1　音源分離・音声認識とは 1.2　本書でカバーする状況 1.3　本書の構成第2章音声信号処理の基本 2.1　データ表現と音源分離・音声認識の入出力　2.1.1　音響信号データとは　2.1.2　テキストデータとは　2.1.3　音源分離や音声認識とは 2.2　機械学習技術を用いたアプローチ　2.2.1　機械学習とは　2.2.2　学習・推論フェーズとポイント　2.2.3　音源分離や音声認識にどう適用するか　2.2.4　データへの適応：モデルのチューニングや学習・推論の同時実行 2.3　音声信号の伝達モデルと基本的な分析・特徴量　2.3.1　時間波形と時間周波数成分の可視化　2.3.2　信号源からマイクへの伝達過程と特徴量　2.3.3　音声信号の生成過程と特徴量 2.4　ディープニューラルネットワークとは　2.4.1　ネットワークの構造　2.4.2　ネットワークの学習 2.5　データの準備・生成　2.5.1　実収録　2.5.2　伝達系の再現　2.5.3　音源データ第3章音源分離：音を聞き分ける 3.1　音の聞き分け処理の概要　3.1.1　応用する際の事前検討　3.1.2　おもなタスク設定　3.1.3　音源分離で用いられるおもな評価尺度 3.2　基本的な枠組みと技術　3.2.1　基本的な処理領域やフロー　3.2.2　基本的な分離方式　3.2.3　ディープニューラルネットワークに基づく音源分離 3.3　参照信号を用いる音源分離：適応フィルタ　3.3.1　基本的な観測モデル　3.3.2　最小二乗法　3.3.3　LMS,NLMSおよびRLS 　3.3.4　ディープニューラルネットワークを併用した手法 3.4　モノラル信号に対する音源分離・　3.4.1　非負値行列分解　3.4.2　DeMask 　3.4.3　ConvTasNet 　3.4.4　SepFormer 3.5　マルチチャネル信号に対する音源分離　3.5.1　ビームフォーマ　3.5.2　ブラインド音源分離：ICA,IVA,ILRMA,fastMNMF 　3.5.3　ディープニューラルネットワークを併用した手法 3.6　音源分離技術の実装例　3.6.1　エコーキャンセラ：システム音声の除去　3.6.2　音声強調：音声・非音声雑音から音声の抽出　3.6.3　音源分離：すべての信号を抽出　3.6.4　音楽音響信号分析　3.6.5　事前学習やfine-tuning 3.7　その他のトピック　3.7.1　Recursive Souce Seapration 　3.7.2　Mixture Invariant Training 　3.7.3　Location-based Training 　3.7.4　Target Sound Extraction 3.8　本章のまとめ第4章音声認識：発話内容を認識する 4.1　音声認識の基礎知識 4.2　DNNとHMMによる音声認識　4.2.1　音響モデルの確率計算とアライメントについて　4.2.2　隠れマルコフモデル　4.2.3　DNN-HMMハイブリッドモデル　4.2.4　辞書および言語モデルを用いた連続音声認識 4.3　End-to-End音声認識　4.3.1　End-to-End音声認識における認識単位の定義　4.3.2　Connectionist temporal classification 　4.3.3　RNNトランスデューサ　4.3.4　Attentionエンコーダ・デコーダモデル　4.3.5　Transformer 　4.3.6　Conformer 4.4　End-to-End音声認識ツールESPNet 　4.4.1　ツールの導入と使用方法　4.4.2　CTCとエンコーダ・デコーダ型モデルとのマルチタスク学習　4.4.3　評価結果の見方と評価指標 4.5　事前学習済みモデル　4.5.1　自己教師あり学習　4.5.2　Whisper 4.6　本章のまとめ第5章音源分離と音声認識にまたがる技術 5.1　データ拡張　5.1.1　波形の伸縮　5.1.2　雑音重畳とインパルス応答の畳み込み　5.1.3　SpecAugment 5.2　ダイアリゼーション　5.2.1　モジュールベース構成　5.2.2　End-to-End構成　5.2.3　音源分離とダイアリゼーションの統合　5.2.4　音声認識とダイアリゼーションの統合 5.3　音声認識と音源分離の統合　5.3.1　モデルミスマッチ問題　5.3.2　全体最適化によるアプローチ引用・参考文献索引