商品詳細 | Knowledge Worker

丸善のおすすめ度

Vision Transformer入門～新しいコンピュータビジョンの世界～(CVL)

山本晋太郎, 徳永匡臣, 箕浦大晃, キュウゲツ（QIU YUE）, 品川政太朗　著

片岡裕雄　監修

在庫状況有り	お届け予定日 3～4日	数量冊
価格 \3,520（税込）

この商品について問合せる

発行年月	2022年09月
出版社／提供元	技術評論社
言語	日本語
媒体	冊子
ページ数／巻数	8p,263p
大きさ	23cm
ジャンル	和書／理工学／情報学／情報理論
ISBN	9784297130589
商品コード	1034874551
NDC分類	007.1
基本件名	画像処理
本の性格	実務向け
新刊案内掲載月	2022年10月4週
商品URL	https://kw.maruzen.co.jp/ims/itemDetail.html?itmCd=1034874551

著者紹介

山本晋太郎（著者）：山本晋太郎（やまもとしんたろう）
2022年3月に早稲田大学先進理工学研究科物理学及応用物理学専攻にて博士後期課程を修了し、博士（工学）を取得。学生時代は主にコンピュータビジョンと自然言語処理の分野の研究に従事。博士論文のテーマは、効率的な研究コミュニケーションのための科学論文解析。現在は企業の研究開発部門に勤める会社員。本書の第1章の執筆を担当。
徳永匡臣（著者）：徳永匡臣(とくながまさおみ)
株式会社野村総合研究所AIソリューション推進部AI tech lab.所属
2019年3月、東北大学工学部を卒業。2021年3月、東京工業大学大学院情報理工学院情報工学系知能情報コースにて修士課程を修了。現在は、コンピュータビジョンおよび自然言語の業務に従事。趣味として、インターネット上で論文の解説記事を執筆。本書の第2章の執筆を担当。
箕浦大晃（著者）：箕浦大晃(みのうらひろあき)
中部大学大学院工学研究科情報工学専攻博士後期課程3年
2020年中部大学大学院博士前期課程情報工学専攻修了。2020年中部大学大学院博士後期課程情報工学専攻在学中。コンピュータビジョン、パターン認識の研究に従事。本書の第3章、第6章の執筆を担当。
キュウゲツ（QIU YUE）（著者）：QIU YUE（キュウゲツ）
国立研究開発法人産業技術総合研究所人工知能研究センター研究員
2021年3月筑波大学大学院システム情報工学研究科博士後期課程修了（工学）、2021年10月により産業技術総合研究所人工知能研究センター研究員。言語と画像のマルチモーダルタスク・画像認識・3次元認識・動画像認識に従事。本書の第4章、第5章の執筆を担当。
品川政太朗（著者）：品川政太朗（しながわせいたろう）
奈良先端科学技術大学院大学先端科学技術研究科情報科学領域助教
2013年東北大学工学部を卒業、2015年同大学大学院情報科学研究科で修士（情報科学）、2020年9月に奈良先端科学技術大学院大学で博士（工学）を取得し、同年11月より同大学助教。コンピュータビジョンと自然言語処理双方の領域を中心として幅広く興味を持ち、自然言語による対話的な画像編集をはじめとした視覚と言語の融合研究と対話システム研究に従事。本書の第7章、第8章の執筆を担当。
片岡裕雄（監修）：片岡裕雄（かたおかひろかつ）
国立研究開発法人産業技術総合研究所人工知能研究センター主任研究員
2014年慶應義塾大学大学院理工学研究科後期博士課程修了、博士（工学）。2020年10月より国立研究開発法人産業技術総合研究所主任研究員。画像認識、動画解析、人物行動解析に従事。2011/2020年VIEW小田原賞、2019年度産総研論文賞、ACCV 2020 BEST PAPER HONORABLE MENTION AWARD受賞。

内容

自然言語処理分野におけるブレイクスルーとなったTransformerをコンピュータビジョンに応用したモデルがVision Transformer（ViT）です。さまざまなコンピュータビジョンのタスクにおいて、ディープラーニングではスタンダードとなっているRNN、CNN、および既存手法を用いた処理精度を上回ることが確認されています。

本書は注目のViTの入門書です。Transformerの成り立ちからはじめ、その理論と実装を解説していきます。今後のViTの活用が期待される応用タスク、ViTから派生したモデルを紹介したあと、TransoformerとViTを分析し、その謎を解明していきます。今後も普及が期待されるViTを盛りだくさんでお届けします。

目次
1章 TransformerからVision Transformerへの進化
2章 Vision Transformerの基礎と実装
3章実験と可視化によるVision Transformerの探求
4章コンピュータビジョンへの応用
5章 Vision and Languageへの応用
6章 Vision Transformerの派生手法
7章 Transformerの謎を読み解く
8章 Vision Transformerの謎を読み解く

第1章 TransformerからVision Transformerへの進化 ■1-1 自然言語処理におけるTransformerの登場 ■1-2 Vision and languageへの拡張 ■1-3 コンピュータビジョンにおけるTransformer 第2章 Vision Transformerの基礎と実装 ■2-1 準備 ■2-2 ViTの全体像 ■2-3 Input Layer ■2-4 Self-Attention ■2-5 Encoder ■2-6 ViTの実装第3章実験と可視化によるVision Transformerの探求 ■3-1 実験の概要 ■3-2 使用するデータセット ■3-3 実験条件 ■3-4 既存手法との比較 ■3-5 データ拡張における比較 ■3-6 位置埋め込みの可視化 ■3-7 ViTにおける判断根拠の可視化 ■3-8 ViTが捉えているモノ第4章コンピュータビジョンタスクへの応用 ■4-1 コンピュータビジョンのサブタスク ■4-2 画像認識への応用 ■4-3 物体検出、セマンティックセグメンテーションへの応用 ■4-4 ビデオ認識への応用 ■4-5 オブジェクトトラッキングへの応用 ■4-6 3Dビジョンへの応用 ■4-7 その他のコンピュータビジョンサブタスクへの応用 ■4-8 Transformer応用のまとめと展望第5章 Vision and Languageタスクへの応用 ■5-1 Vision and Languageのサブタスク ■5-2 VQAへの応用 ■5-3 Image Captioningへの応用 ■5-4 Embodied AIへの応用 ■5-5 その他のVision and Languageサブタスクへの応用 ■5-6 Vision and Languageのまとめと展望第6章 Vision Transformerの派生手法 ■6-1 ViT派生手法の分類 ■6-2 Swin Transformer ■6-3 DeiT ■6-4 CvT ■6-5 SegFormer ■6-6 TimeSformer ■6-7 MAE 第7章 Transformerの謎を読み解く ■7-1 Transformerの謎に人々は驚き困惑した ■7-2 Positional embeddingの謎 ■7-3 Multi-head Attentionの謎 ■7-4 Layer Normalizationの謎第8章 Vision Transformerの謎を読み解く ■8-1 ViT vs CNN vs MLPの三国時代の到来 ■8-2 ViTはCNNと同じく局所特徴を学習する ■8-3 ViTはより形状に反応する? ■8-4 ViTは早期から大域的な領域も見ている ■8-5 ViTはCNNやMLPよりもノイズや敵対的攻撃に頑健？ ■8-6 3つのモデルの特性と使い分けの勘どころ ■8-7 ViTの新常識

カート

カートに商品は入っていません。

前のページに戻る