商品詳細 | Knowledge Worker

丸善のおすすめ度

マルコフ決定過程～理論とアルゴリズム～(シリーズ情報科学における確率モデル 4)

在庫状況有り	お届け予定日 3～4日	数量冊
価格 \3,190（税込）

この商品について問合せる

発行年月	2019年03月
出版社／提供元	コロナ社
言語	日本語
媒体	冊子
ページ数／巻数	8p,190p
大きさ	21cm
ジャンル	和書／理工学／数学／確率論・数理統計学
ISBN	9784339028348
商品コード	1029623284
NDC分類	417.1
基本件名	マルコフ過程
本の性格	テキスト
新刊案内掲載月	2019年04月3週
商品URL	https://kw.maruzen.co.jp/ims/itemDetail.html?itmCd=1029623284

著者紹介

中出　康一（著者）：京都大学大学院工学研究科修士課程修了(数理工学専攻)。名古屋工業大学教授。

内容

本書では，現在の状況を表す状態を観測しながら，ある利益（費用）規範の下で最適な決定を行う確率過程であるマルコフ決定過程の基本理論や実際に問題を定式化して解き，最適決定政策を求める際必要となる計算手法に焦点をあて解説した。

★主要目次★
1.　マルコフ決定過程の概要
1.1　ORと確率モデル
1.2　動的計画法
1.3　マルコフ決定過程
1.4　定式化の例
1.5　マルコフ決定過程の拡張と発展
2.　マルコフ連鎖と再生過程
2.1　離散型確率変数
2.2　連続型確率変数
2.3　離散時間マルコフ連鎖
2.4　周期
2.5　マルコフ連鎖の定常確率と極限確率
2.6　有限マルコフ連鎖
2.7　再生過程
2.8　再生報酬過程
2.9　マルコフ報酬過程
2.10　セミマルコフ過程
2.11　連続時間マルコフ連鎖
3.　有限期間総期待利得マルコフ決定過程
3.1　有限期間総期待利得問題
3.2　最適性方程式
3.3　値反復法
3.4　数値例
4.　総割引期待利得マルコフ決定過程
4.1　無限期間総割引期待利得
4.2　最適性方程式と理論的性質
4.3　計算アルゴリズム
5.　平均利得マルコフ決定過程
5.1　平均利得
5.2　平均利得に関する関係式
5.3　相対値と平均利得
5.4　総割引期待利得と平均利得の関係
5.5　マルコフ決定過程の分類
5.6　計算アルゴリズム（単一連鎖の場合）
5.7　計算アルゴリズム（多重連鎖の場合）
6.　セミマルコフ決定過程
6.1　セミマルコフ決定過程とは
6.2　総割引期待利得
6.3　平均利得
6.4　連続時間マルコフ決定過程（推移間隔が指数分布に従う場合）
7.　部分観測可能マルコフ決定過程
7.1　部分観測可能マルコフ決定過程とは
7.2　信念
7.3　定式化
7.4　値関数の線形性
7.5　ベクトル集合の生成
8.　マルコフ決定過程の展開
8.1　近似最適化アルゴリズム
8.2　強化学習とマルコフ決定過程
8.3　決定直後の状態を用いた近似アルゴリズム
8.4　最適政策の性質

1.　マルコフ決定過程の概要 1.1　ORと確率モデル 1.2　動的計画法 1.3　マルコフ決定過程 1.4　定式化の例 1.5　マルコフ決定過程の拡張と発展 2.　マルコフ連鎖と再生過程 2.1　離散型確率変数　2.1.1　確率，期待値，分散　2.1.2　条件付き確率　2.1.3　独立　2.1.4　離散型確率変数の例 2.2　連続型確率変数　2.2.1　分布関数　2.2.2　期待値，分散，独立，条件付き確率　2.2.3　指数分布の性質 2.3　離散時間マルコフ連鎖　2.3.1　推移確率　2.3.2　状態の分類 2.4　周期 2.5　マルコフ連鎖の定常確率と極限確率 2.6　有限マルコフ連鎖 2.7　再生過程 2.8　再生報酬過程 2.9　マルコフ報酬過程 2.10　セミマルコフ過程 2.11　連続時間マルコフ連鎖　2.11.1　極限確率と定常確率　2.11.2　一様化 3.　有限期間総期待利得マルコフ決定過程 3.1　有限期間総期待利得問題 3.2　最適性方程式 3.3　値反復法 3.4　数値例 4.　総割引期待利得マルコフ決定過程 4.1　無限期間総割引期待利得 4.2　最適性方程式と理論的性質 4.3　計算アルゴリズム　4.3.1　値反復法　4.3.2　政策反復法　4.3.3　修正政策反復法　4.3.4　線形計画法 5.　平均利得マルコフ決定過程 5.1　平均利得　5.1.1　平均利得の上極限，下極限　5.1.2　可算無限状態のとき　5.1.3　定常マルコフ政策　5.1.4　平均利得と定常マルコフ政策 5.2　平均利得に関する関係式 5.3　相対値と平均利得 5.4　総割引期待利得と平均利得の関係 5.5　マルコフ決定過程の分類 5.6　計算アルゴリズム（単一連鎖の場合）　5.6.1　値反復法　5.6.2　政策反復法　5.6.3　修正政策反復法　5.6.4　線形計画法 5.7　計算アルゴリズム（多重連鎖の場合）　5.7.1　値反復法　5.7.2　政策反復法　5.7.3　線形計画法 6.　セミマルコフ決定過程 6.1　セミマルコフ決定過程とは 6.2　総割引期待利得 6.3　平均利得 6.4　連続時間マルコフ決定過程（推移間隔が指数分布に従う場合）　6.4.1　一様化：割引期待利得規範の場合　6.4.2　一様化：平均費用規範の場合　6.4.3　例 7.　部分観測可能マルコフ決定過程 7.1　部分観測可能マルコフ決定過程とは 7.2　信念 7.3　定式化 7.4　値関数の線形性 7.5　ベクトル集合の生成 8.　マルコフ決定過程の展開 8.1　近似最適化アルゴリズム 8.2　強化学習とマルコフ決定過程　8.2.1　状態価値と行動価値　8.2.2　TDアルゴリズム　8.2.3　Sarsa,Q学習　8.2.4　TD(λ),Sarsa(λ)アルゴリズム 8.3　決定直後の状態を用いた近似アルゴリズム 8.4　最適政策の性質　8.4.1　客の到着許可問題　8.4.2　最適政策の持つ性質の証明引用・参考文献索引

カート

カートに商品は入っていません。

前のページに戻る