内容
CNNとViTによる画像認識を本格的に学ぶために!
本書は、深層学習(ディープラーニング)に基づく2つの技術、畳込みニューラルネットワーク(CNN)とVision Transformer(ViT)を通して、画像認識の基礎を実践例とともに解説するものです。
画像認識技術は、顔認証や異常検知など、現代社会に欠かせない技術として広く応用されており、研究開発も盛んに行われています。本書では、確かな理解のもとに画像認識技術の研究開発が可能となるよう、前半において理論的な基盤(深層学習の基本事項、畳込みニューラルネットワーク(CNN)、Vision Transformer(ViT))を、紙数を割いてわかりやすく解説していきます。また後半では、代表的な画像認識技術である物体検出と領域分割、学習データの大規模化に欠かせない自己教師あり学習を実例とともに解説し、最終章では今後ますます重要になると見込まれるVision and Languageを詳細に扱います。
全体を通して、擬似コードなどでアルゴリズムを把握できるようにしたほか、Python(PyTorch)のサンプルコードも用意し、読者自身が手を動かして画像認識を実践することができるようにしました。