ホーム > 商品詳細

―Pythonでゼロからはじめる― AI・機械学習のためのデータ前処理[入門編](エンジニア入門シリーズ)

北 研二, 西村 良太, 松本 和幸  著

在庫状況 お取り寄せ  お届け予定日 1週間  数量 冊 
価格 \2,530(税込)         

発行年月 2021年06月
出版社/提供元
言語 日本語
媒体 冊子
ページ数/巻数 154p
ジャンル 和書
ISBN 9784904774984
商品コード 1033388452
商品URL
参照
https://kw.maruzen.co.jp/ims/itemDetail.html?itmCd=1033388452

著者紹介

北 研二(著者):1981 年、早稲田大学理工学部数学科卒業。現在、徳島大学大学院社会産業理工学研究部・教授。マルチメディア情報検索に関する研究に従事。博士( 工学)
西村 良太(著者):2010 年、豊橋技術科学大学大学院博士後期課程電子・情報工学専攻修了。現在、徳島大学大学院社会産業理工学研究部・講師。音声対話システムに関する研究に従事。博士(工学)
松本 和幸(著者):2008 年、徳島大学大学院工学研究科博士後期課程修了。現在、徳島大学大学院社会産業理工学研究部・准教授。感情計算、自然言語処理に関する研究に従事。博士(工学)

内容

2010年ごろを境に、ビッグデータという言葉が、わたしたちの身の回りに急速に浸透し始めた。同時に、ビッグデータから機械学習に基づき知的なAI システムを構築することが昨今のブームとさえなってきている。本書は、これらの機械学習システムを構築するうえで避けては通れない、データの前処理の部分を中心に解説している。AI などの機械学習システムを第一に想定しているが、本書で説明する各種の技術は、ビッグデータから有用な知識を獲得するデータマイニングやデータ分析などにも有効に用いることができる。
さて、ビッグデータという言葉は耳に心地よく、なんとなく宝の山のように感じるかもしれないが、実はビッグデータは玉石混交であり、宝とゴミが入り混じっている。さらには、データの規模が大きくなればなるほどゴミも増え、その中から宝を取り出すのがますます困難になってくる。コンピュータサイエンスの分野では、“Garbage In, Garbage Out” (略してGIGO) という警句がある。文字通り、「ゴミからはゴミしか得られない」 「ゴミを入れればゴミが出てくる」 ことを意味しているが、この警句はまさに機械学習の一面を言い当てている。よい機械学習システムを構築するためには、データからゴミを排除し、データを学習しやすい形に加工するという作業が重要となってくるが、これこそがまさしく前処理の真髄である。
最近は、TensorFlow やKeras をはじめとする数多くの機械学習用のフレームワークやライブラリが無償で利用可能であり、これらのフレームワークやライブラリを利用することで、一見、プログラミングの敷居は低くなってきているようにみえる。公開されている機械学習用のデータセットを利用して、誰もが簡単にAI システムを作ることができる。しかし、独自のデータセットを用いて、独自のシステムを構築する場合には、大きな問題が立ちはだかっている。よくいわれていることであるが、現実のデータは汚い。データをそのまま使えば、それこそ
“Garbage In, Garbage Out” の事態に陥る。現実のデータから、有用なAI システムを構築できるかどうかは前処理の成否にかかっているとさえいえる。また、一説によると、実際のAI や機械学習システム構築の現場では、エンジニアが作業に携わる時間の6 割~ 8 割はデータの収集と前処理に費やされているともいわれている。
本書では、従来の機械学習の書籍では十分に扱われていなかった前処理技術に焦点をあて、技術の単なる解説だけではなく、実際に動くプログラムを通して、読者が理解できるような実践的な書を目指した。本書には姉妹編として 『実践編』 も出版が計画されているが、『実践編』ではより高度な前処理技術と、テキスト・画像・音響・音楽等のメディアデータに対する前処理技術について解説した。本書『 入門編』 とあわせてご活用いただきたい。

目次

カート

カートに商品は入っていません。