丸善のおすすめ度
大規模言語モデル入門
山田 育矢,
鈴木 正敏,
山田 康輔,
李 凌寒
著
発行年月 |
2023年10月 |
---|
|
|
言語 |
日本語 |
---|
媒体 |
冊子 |
---|
|
|
ページ数/巻数 |
12p,321p |
---|
大きさ |
23cm |
---|
|
ジャンル |
和書/理工学/情報学/人工知能 |
---|
|
|
ISBN |
9784297136338 |
---|
|
商品コード |
1036344972 |
---|
NDC分類 |
007.13 |
---|
|
|
本の性格 |
実務向け |
---|
|
新刊案内掲載月 |
2023年09月1週 |
---|
|
商品URL
| https://kw.maruzen.co.jp/ims/itemDetail.html?itmCd=1036344972 |
---|
著者紹介
山田 育矢(著者):株式会社Studio Ousia代表取締役チーフサイエンティスト・理化学研究所革新知能統合研究センター客員研究員 2007年にStudio Ousiaを創業し、自然言語処理の技術開発に従事。 2016年3月に慶應義塾大学大学院政策・メディア研究科博士後期課程を修了し、博士(学術)を取得。 大規模言語モデルLUKEの開発者。 監修と1章から4章の執筆を担当。
鈴木 正敏(著者):株式会社Studio Ousiaソフトウェアエンジニア・東北大学データ駆動科学・AI教育研究センター学術研究員 2021年3月に東北大学大学院情報科学研究科博士後期課程を修了し、博士(情報科学)を取得。 博士課程では質問応答の研究に従事。 日本語質問応答のコンペティション「AI王」の実行委員。 東北大学が公開している日本語BERTの開発者。 8章と9章の約半分の執筆を担当。
山田 康輔(著者):株式会社Studio Ousiaリサーチエンジニア・名古屋大学大学院情報学研究科博士後期課程3年 2021年3月名古屋大学大学院情報学研究科博士前期課程修了。 2022年4月より日本学術振興会特別研究員 (DC2)。 自然言語処理、特にフレーム意味論に関する研究に従事。 6章と7章の執筆を担当。
李 凌寒(著者):LINE株式会社(2023年10月よりLINEヤフー株式会社)自然言語処理エンジニア 2023年3月に東京大学大学院情報理工学系研究科博士後期課程を修了し、博士(情報理工)を取得。 博士課程では言語モデルの解析や多言語応用の研究に従事。 大規模言語モデルmLUKEの開発者。 5章と9章の約半分の執筆を担当。
内容
ChatGPTに代表される大規模言語モデルが自然言語処理の幅広いタスクで高い性能を獲得し、大きな話題となっています。大規模言語モデルは、大規模なテキストデータで訓練された大規模なパラメータで構成されるニューラルネットワークです。2020年以降、自然言語処理や機械学習の知見をもとに、パラメータ数とテキストデータの拡大により、性能が飛躍的に向上しました。
Hugging Face社の"transformers"というPythonライブラリを利用することで、プログラミングの経験があれば、モデルの操作やデータからの学習がかんたんにできます。モデルを訓練するための日本語もしくは日本語を含む多言語のデータセットも充実してきており、すぐに業務に使える実用的なモデルを作ることが可能な時代がやってきました。
本書は、大規模言語モデルの理論と実装の両方を解説した入門書です。大規模言語モデルの技術や自然言語処理の課題について理解し、実際の問題に対処できるようになることを目指しています。以下のような構成によって、理論とプログラミングの双方の側面から、大規模言語モデルに関する情報を提供します。
第1章 はじめに
第2章 Transformer
第3章 大規模言語モデルの基礎
第4章 大規模言語モデルの進展
第5章 大規模言語モデルのファインチューニング
第6章 固有表現認識
第7章 要約生成
第8章 文埋め込み
第9章 質問応答システム