商品詳細(参照) | Knowledge Worker

丸善のおすすめ度

大規模言語モデル入門<2> 生成型LLMの実装と評価

山田育矢, 鈴木正敏, 西川荘介, 藤井一喜, 山田康輔, 李凌寒　著

在庫状況有り	お届け予定日 3～4日
価格 \3,300（税込）

発行年月	2024年09月
出版社／提供元	技術評論社
言語	日本語
媒体	冊子
ページ数／巻数	9p,220p
大きさ	23cm
ジャンル	和書／理工学／情報学／人工知能
ISBN	9784297143930
商品コード	1038937906
NDC分類	007.13
基本件名	生成AI
本の性格	実務向け
新刊案内掲載月	2024年10月2週
商品URL	https://kw.maruzen.co.jp/ims/itemDetail.html?itmCd=1038937906

著者紹介

山田育矢（著者）：株式会社Studio Ousia チーフサイエンティスト・名古屋大学客員教授・理化学研究所革新知能統合研究センター客員研究員 2007年にStudio Ousiaを創業し、自然言語処理の技術開発に従事。2016年3月に慶應義塾大学大学院政策・メディア研究科博士後期課程を修了し、博士（学術）を取得。大規模言語モデルLUKEの開発者。全体の監修と12章の一部の執筆を担当。
鈴木正敏（著者）：株式会社Studio Ousia ソフトウェアエンジニア・東北大学データ駆動科学・AI教育研究センター学術研究員 2021年3月に東北大学大学院情報科学研究科博士後期課程を修了し、博士（情報科学）を取得。博士課程では質問応答の研究に従事。日本語質問応答のコンペティション「AI王」の実行委員。東北大学が公開している日本語BERTの開発者。第13章の執筆を担当。
西川荘介（著者）：LINEヤフー株式会社自然言語処理エンジニア 2022年3月に東京大学大学院情報理工学研究科修士課程を修了。現在は情報検索分野での言語処理に取り組む。第12章の執筆を担当。
藤井一喜（著者）：東京工業大学情報工学系修士１年・Turing株式会社嘱託研究員学士、修士課程では大規模モデルの分散並列学習に従事。llm-jp、Swallow Projectにて日本語大規模言語モデルの事前学習を担当。第14章の執筆を担当。
山田康輔（著者）：株式会社サイバーエージェント AI Lab リサーチサイエンティスト・名古屋大学大学院情報学研究科協力研究員 2024年3月名古屋大学情報学研究科博士後期課程を修了し、博士（情報学）を取得。2024年4月より現職。博士後期課程では自然言語処理、特にフレーム意味論に関する研究に従事。第10章の執筆を担当。
李凌寒（著者）：SB Intuitions株式会社リサーチエンジニア 2023年3月に東京大学大学院情報理工学系研究科博士後期課程を修了し、博士（情報理工学）を取得。博士課程では言語モデルの解析や多言語応用の研究に従事。現在は日本語大規模言語モデルの開発に取り組む。第11章の執筆を担当。

内容

「大規模言語モデル入門」の続編です。「大規模言語モデル入門」は理論と実装のバランスをとって構成しましたが、本書では実装部分で扱い切れなかった話題を取り上げ、特に大規模言語モデルの評価と生成LLMに関連する解説を充実させます。「大規模言語モデル入門」の9章に続き、10章から始まります。

10章では、後続する章で行う言語モデルの評価方法について解説します。自動評価と人手評価の2つの側面から、ベンチマーク、評価指標、具体的な評価ツールやデータセットなどを取り上げます。11から13章では、主に大規模言語モデルの性能を上げるためのトピックとして、指示チューニング、人間のフィードバックからの学習、RAGに焦点を当て、それぞれの実装方法、利用するデータセット、評価の方法について解説します。14章では大規模言語モデルの学習における並列・分散処理について詳しく解説します。大規模なデータを限られた計算資源で学習させるノウハウは多くのエンジニアにとって有益な情報となるでしょう。

大規模言語モデルの性能を高めるための各トピックの実装とともに、それぞれの評価について理解できる一冊です。

第10章性能評価 10.1 モデルの性能評価とは ■10.1.1 モデルの性能評価方法 ■10.1.2 LLMの性能を評価する上で重要なポイント ■10.1.3 LLMのベンチマークとリーダーボード 10.2 評価指標を用いた自動評価 ■10.2.1 llm-jp-evalとは ■10.2.2 llm-jp-evalで扱うタスク ■10.2.3 llm-jp-evalで使用される評価指標 ■10.2.4 多肢選択式質問応答タスクによる自動評価 10.3 LLM を用いた自動評価 ■10.3.1 Japanese Vicuna QA Benchmark ■10.3.2 Japanese Vicuna QA Benchmarkによる自動評価第11章指示チューニング 11.1 指示チューニングとは 11.2 指示チューニングの実装 ■11.2.1 環境の準備 ■11.2.2 データセットの準備 ■11.2.3 チャットテンプレート ■11.2.4 トークンIDへの変換 ■11.2.5 モデルの読み込み ■11.2.6 訓練の実行 ■11.2.7 モデルの保存 11.3 指示チューニングしたモデルの評価 ■11.3.1 モデルの動作確認 ■11.3.2 指示追従性能の評価 ■11.3.3 評価結果の分析 ■11.3.4 安全性の評価第12章選好チューニング 12.1 選好チューニングとは ■12.1.1 RLHF ■12.1.2 DPO ■12.1.3 DPOの導出 12.2 選好チューニングの実装 ■12.2.1 準備 ■12.2.2 データセット ■12.2.3 モデルの用意 ■12.2.4 学習設定 ■12.2.5 訓練の実行 ■12.2.6 モデルの保存 12.3 選好チューニングの評価 ■12.3.1 モデルの動作確認 ■12.3.2 指示追従性能の評価 ■12.3.3 安全性の評価第13章 RAG 13.1 RAGとは ■13.1.1 RAGの必要性 ■13.1.2 RAGの基本的なシステム構成 ■13.1.3 RAGが解決を目指すLLMの五つの課題 13.2 基本的なRAGのシステムの実装 ■13.2.1 LangChainとは ■13.2.2 LangChainでLLMと文埋め込みモデルを使う ■13.2.3 LangChainでRAGを実装する 13.3 RAG向けにLLMを指示チューニングする ■13.3.1 AI王データセットを用いた指示チューニング ■13.3.2 指示チューニングしたモデルをLangChainで使う 13.4 RAGの性能評価 ■13.4.1 RAGの性能評価の三つの観点 ■13.4.2 RAGの性能評価を自動で行う手法 ■13.4.3 RAGの構成要素としてのLLMの能力の評価第14章分散並列学習 14.1 分散並列学習とは ■14.1.1 分散並列学習のメリット ■14.1.2 分散並列学習を理解するための基礎知識 14.2 さまざまな分散並列学習手法 ■14.2.1 データ並列 ■14.2.2 DeepSpeed ZeRO ■14.2.3 パイプライン並列 ■14.2.4 テンソル並列 ■14.2.5 3次元並列化 14.3 LLMの分散並列学習 ■14.3.1 Megatron-LMの環境構築 ■14.3.2 学習データの用意 ■14.3.3 Llama2の分散並列学習