商品詳細 | Knowledge Worker

―Pythonでゼロからはじめる― AI・機械学習のためのデータ前処理［入門編］(エンジニア入門シリーズ)

在庫状況お取り寄せ	お届け予定日 1週間	数量冊
価格 \2,530（税込）

この商品について問合せる

発行年月	2021年06月
出版社／提供元	科学情報出版
言語	日本語
媒体	冊子
ページ数／巻数	154p
ジャンル	和書
ISBN	9784904774984
商品コード	1033388452
商品URL	https://kw.maruzen.co.jp/ims/itemDetail.html?itmCd=1033388452

著者紹介

北研二（著者）：1981 年、早稲田大学理工学部数学科卒業。現在、徳島大学大学院社会産業理工学研究部・教授。マルチメディア情報検索に関する研究に従事。博士（工学）
西村良太（著者）：2010 年、豊橋技術科学大学大学院博士後期課程電子・情報工学専攻修了。現在、徳島大学大学院社会産業理工学研究部・講師。音声対話システムに関する研究に従事。博士（工学）
松本和幸（著者）：2008 年、徳島大学大学院工学研究科博士後期課程修了。現在、徳島大学大学院社会産業理工学研究部・准教授。感情計算、自然言語処理に関する研究に従事。博士（工学）

内容

2010年ごろを境に、ビッグデータという言葉が、わたしたちの身の回りに急速に浸透し始めた。同時に、ビッグデータから機械学習に基づき知的なAI システムを構築することが昨今のブームとさえなってきている。本書は、これらの機械学習システムを構築するうえで避けては通れない、データの前処理の部分を中心に解説している。AI などの機械学習システムを第一に想定しているが、本書で説明する各種の技術は、ビッグデータから有用な知識を獲得するデータマイニングやデータ分析などにも有効に用いることができる。
さて、ビッグデータという言葉は耳に心地よく、なんとなく宝の山のように感じるかもしれないが、実はビッグデータは玉石混交であり、宝とゴミが入り混じっている。さらには、データの規模が大きくなればなるほどゴミも増え、その中から宝を取り出すのがますます困難になってくる。コンピュータサイエンスの分野では、“Garbage In, Garbage Out” （略してGIGO）という警句がある。文字通り、「ゴミからはゴミしか得られない」「ゴミを入れればゴミが出てくる」ことを意味しているが、この警句はまさに機械学習の一面を言い当てている。よい機械学習システムを構築するためには、データからゴミを排除し、データを学習しやすい形に加工するという作業が重要となってくるが、これこそがまさしく前処理の真髄である。
最近は、TensorFlow やKeras をはじめとする数多くの機械学習用のフレームワークやライブラリが無償で利用可能であり、これらのフレームワークやライブラリを利用することで、一見、プログラミングの敷居は低くなってきているようにみえる。公開されている機械学習用のデータセットを利用して、誰もが簡単にAI システムを作ることができる。しかし、独自のデータセットを用いて、独自のシステムを構築する場合には、大きな問題が立ちはだかっている。よくいわれていることであるが、現実のデータは汚い。データをそのまま使えば、それこそ
“Garbage In, Garbage Out” の事態に陥る。現実のデータから、有用なAI システムを構築できるかどうかは前処理の成否にかかっているとさえいえる。また、一説によると、実際のAI や機械学習システム構築の現場では、エンジニアが作業に携わる時間の6 割～ 8 割はデータの収集と前処理に費やされているともいわれている。
本書では、従来の機械学習の書籍では十分に扱われていなかった前処理技術に焦点をあて、技術の単なる解説だけではなく、実際に動くプログラムを通して、読者が理解できるような実践的な書を目指した。本書には姉妹編として『実践編』も出版が計画されているが、『実践編』ではより高度な前処理技術と、テキスト・画像・音響・音楽等のメディアデータに対する前処理技術について解説した。本書『入門編』とあわせてご活用いただきたい。

１章　AI・機械学習における前処理１．１　機械学習システムの構築１．１．１　機械学習の例１．１．２　機械学習システム構築の流れ１．２　データの前処理１．２．１　データの形式１．２．２　データクリーニング１．２．３　データ統合１．２．４　スケーリング１．２．５　特徴選択１．２．６　次元削減１．２．７　データ拡張２章　Google Colabによる実行環境２．１　Google Colabとは２．１．１　Googleアカウントの取得２．１．２　Google Colabへのアクセス方法２．２　Google Colabの使い方２．２．１　画面構成と各部の名称２．２．２　初期設定２．２．３　セルの操作２．２．４　マークダウン２．２．５　コマンド実行２．２．６　仮想環境のスペック２．２．７　フォーム２．２．８　各種ライブラリの活用２．２．９　代表的な行動のショートカットキー２．２．10　コマンドパレット２．３　ストレージ・データベースとの接続２．３．１　ローカルファイルシステム２．３．２　Google Drive ２．３．３　外部（Web上）のデータ２．３．４　Kaggle ２．４　GPUとTPUの利用２．４．１　GPUとTPU ２．４．２　GPUの利用２．４．３　TPUの利用２．５　Google Colabのその他の設定２．５．１　各種ライブラリのバージョン変更２．５．２　新規ライブラリの追加２．６　Pythonによるデータ処理２．６．１　NumPy ２．６．２　pandas ２．６．３　scikit-learn ２．６．４　matplotlib ２．６．５　TensorFlow ２．６．６　Keras ３章　基本的な前処理技術３．１　標準化と正規化３．２　ビニング３．３　外れ値３．３．１　外れ値の検出と除去３．３．２　四分位範囲を用いた外れ値に頑健な標準化３．４　欠損値３．４．１　欠損値の扱い３．４．２　欠損値補完手法の比較３．４．３　意味を持つ欠損値の扱い４章　特徴選択と次元削減４．１　特徴選択４．１．１　フィルタ法４．１．２　ラッパー法４．１．３　正則化手法による特徴選択４．２　次元削減４．２．１　線形次元削減手法４．２．２　非線形次元削減手法４．２．３　そのほかの次元削減手法

カート

カートに商品は入っていません。

前のページに戻る