商品詳細 | Knowledge Worker

丸善のおすすめ度

Pythonで学ぶ強化学習～入門から実践まで～改訂第2版(機械学習スタートアップシリーズ)

在庫状況有り	お届け予定日 3～4日	数量冊
価格 \3,080（税込）

この商品について問合せる

発行年月	2019年09月
出版社／提供元	講談社
言語	日本語
媒体	冊子
ページ数／巻数	4p,297p
大きさ	21cm
ジャンル	和書／理工学／情報学／人工知能
ISBN	9784065172513
商品コード	1030652924
NDC分類	007.13
基本件名	機械学習
本の性格	実務向け
新刊案内掲載月	2019年11月1週
商品URL	https://kw.maruzen.co.jp/ims/itemDetail.html?itmCd=1030652924

著者紹介

久保隆宏（著者）：TIS株式会社戦略技術センター所属。Twitter：@icoxfog417。
現在は、「人のための要約」を目指し、少ない学習データによる要約の作成・図表化に取り組む。また、論文のまとめを共有するarXivTimesの運営、『直感 Deep Learning』オライリージャパン(2018)の翻訳など、技術の普及を積極的に行っている。

内容

「Ｐｙｔｈｏｎで強化学習が実装できる！」と好評を得た入門書の改訂版。読者からの要望・指摘を反映させた。主に、ＰｏｌｉｃｙＧｒａｄｉｅｎｔとＡ２Ｃの記述・実装を見直した。

・Pythonプログラミングとともに、ゼロからていねいに解説。
・コードが公開されているから、すぐ実践できる。
・実用でのネックとなる強化学習の弱点と、その克服方法まで紹介。

【おもな内容】

Day1　強化学習の位置づけを知る
　強化学習とさまざまなキーワードの関係
　強化学習のメリット・デメリット
　強化学習における問題設定：Markov Decision Process　

Day2　強化学習の解法(1): 環境から計画を立てる
　価値の定義と算出: Bellman Equation
　動的計画法による状態評価の学習: Value Iteration
　動的計画法による戦略の学習: Policy Iteration
　モデルベースとモデルフリーとの違い

Day3　強化学習の解法(2): 経験から計画を立てる
　経験の蓄積と活用のバランス: Epsilon-Greedy法
　計画の修正を実績から行うか、予測で行うか: Monte Carlo vs Temporal Difference
　経験を価値評価、戦略どちらの更新に利用するか：Valueベース vs Policyベース

Day4　強化学習に対するニューラルネットワークの適用
　強化学習にニューラルネットワークを適用する
　価値評価を、パラメーターを持った関数で実装する：Value Function Approximation
　価値評価に深層学習を適用する：Deep Q-Network
　戦略を、パラメーターを持った関数で実装する：Policy Gradient
　戦略に深層学習を適用する：Advantage Actor Critic (A2C)
　価値評価か、戦略か

Day5　強化学習の弱点
　サンプル効率が悪い
　局所最適な行動に陥る、過学習をすることが多い
　再現性が低い
　弱点を前提とした対応策

Day6　強化学習の弱点を克服するための手法
　サンプル効率の悪さへの対応: モデルベースとの併用/表現学習
　再現性の低さへの対応: 進化戦略
　局所最適な行動/過学習への対応: 模倣学習/逆強化学習

Day7　強化学習の活用領域
　行動の最適化
　学習の最適化

Day1　強化学習の位置づけを知る　強化学習とさまざまなキーワードの関係　強化学習のメリット・デメリット　強化学習における問題設定：Markov Decision Process　 Day2　強化学習の解法(1): 環境から計画を立てる　価値の定義と算出: Bellman Equation 　動的計画法による状態評価の学習: Value Iteration 　動的計画法による戦略の学習: Policy Iteration 　モデルベースとモデルフリーとの違い Day3　強化学習の解法(2): 経験から計画を立てる　経験の蓄積と活用のバランス: Epsilon-Greedy法　計画の修正を実績から行うか、予測で行うか: Monte Carlo vs Temporal Difference 　経験を価値評価、戦略どちらの更新に利用するか：Valueベース vs Policyベース Day4　強化学習に対するニューラルネットワークの適用　強化学習にニューラルネットワークを適用する　価値評価を、パラメーターを持った関数で実装する：Value Function Approximation 　価値評価に深層学習を適用する：Deep Q-Network 　戦略を、パラメーターを持った関数で実装する：Policy Gradient 　戦略に深層学習を適用する：Advantage Actor Critic (A2C) 　価値評価か、戦略か Day5　強化学習の弱点　サンプル効率が悪い　局所最適な行動に陥る、過学習をすることが多い　再現性が低い　弱点を前提とした対応策 Day6　強化学習の弱点を克服するための手法　サンプル効率の悪さへの対応: モデルベースとの併用/表現学習　再現性の低さへの対応: 進化戦略　局所最適な行動/過学習への対応: 模倣学習/逆強化学習 Day7　強化学習の活用領域　行動の最適化　学習の最適化

カート

カートに商品は入っていません。

前のページに戻る