

詳解 強化学習の発展と応用ロボット制御・ゲーム開発のための実践的理論

著: 小林 泰介 (国立情報学研究所/総合研究大学院大学)
定価: 3,960円(本体3,600円+税)
判型: A5
ページ数: 212 ページ
ISBN: 978-4-910558-27-1
発売日: 2024/3/19
管理No: 125


第1章 強化学習とは

  1. 1-1 強化学習の目的
  2. 1-2 解決すべき課題
    1. 1-2-1 間接的な教示
    2. 1-2-2 データの収集
    3. 1-2-3 収益の予測
  3. 参考文献

第2章 強化学習の基本的な問題設定

  1. 2-1 マルコフ決定過程
  2. 2-2 方策関数
    1. 2-2-1 離散行動空間における方策関数
    2. 2-2-2 連続行動空間における方策関数
  3. 2-3 収益・価値関数
    1. 2-3-1 収益の定義
    2. 2-3-2 価値関数の導入
    3. 2-3-3 方策オン型と方策オフ型
  4. 2-4 関数近似
    1. 2-4-1 線形関数近似
    2. 2-4-2 非線形関数近似
  5. 参考文献

第3章 基本的な学習アルゴリズム

  1. 3-1 価値関数の学習
    1. 3-1-1 モンテカルロ法
    2. 3-1-2 TD法
    3. 3-1-3 アドバンテージ関数
  2. 3-2 価値関数の一般化
    1. 3-2-1 nステップTD法
    2. 3-2-2 TD(λ)法
    3. 3-2-3 適正度履歴
  3. 3-3 方策関数の学習
    1. 3-3-1 行動価値関数を用いたモデル
    2. 3-3-2 方策勾配法
    3. 3-3-3 Actor-Critic法
  4. 3-4 学習を支援する技術
    1. 3-4-1 深層学習
    2. 3-4-2 経験再生
    3. 3-4-3 ターゲットネットワーク
    4. 3-4-4 アンサンブル学習
  5. 参考文献

第4章 方策勾配法の発展

  1. 4-1 重要なテクニック
    1. 4-1-1 確率分布間の乖離度
    2. 4-1-2 重点サンプリング
    3. 4-1-3 再パラメータ化トリック
  2. 4-2 方策更新の制限
    1. 4-2-1 Trust Region Policy Optimization: TRPO
    2. 4-2-2 Proximal Policy Optimization: PPO
    3. 4-2-3 Locally Lipschitz Continuous Constraint: L2C2
  3. 4-3 直接的な方策勾配の計算
    1. 4-3-1 Deterministic Policy Gradient: DPG
    2. 4-3-2 Twin Delayed DDPG: TD3
  4. 4-4 方策エントロピーの最大化
    1. 4-4-1 Soft Q-learning: SQL
    2. 4-4-2 Soft Actor-Critic: SAC
    3. 4-4-3 SACの改良例
  5. 参考文献

第5章 モデルベース強化学習

  1. 5-1 世界モデルの学習
    1. 5-1-1 状態遷移確率・報酬関数の学習
    2. 5-1-2 表現学習
    3. 5-1-3 世界モデルの学習アルゴリズム例:PlaNet
  2. 5-2 世界モデルの活用
    1. 5-2-1 収益の推定
    2. 5-2-2 仮想的な経験の生成
    3. 5-2-3 プランニング
    4. 5-2-4 プランニングの改良例
  3. 5-3 残差強化学習
  4. 参考文献

第6章 報酬設計の課題と対策

  1. 6-1 疎な報酬
    1. 6-1-1 Hindsight Experience Replay: HER
    2. 6-1-2 内発的動機付け
  2. 6-2 多目的性
    1. 6-2-1 セーフ強化学習
    2. 6-2-2 多目的強化学習
    3. 6-2-3 階層強化学習
  3. 6-3 エキスパートの模倣
    1. 6-3-1 模倣による方策の初期化
    2. 6-3-2 逆強化学習
  4. 6-4 学習難易度の調整
    1. 6-4-1 カリキュラム学習
    2. 6-4-2 自己競争
  5. 参考文献

第7章 今後の展望

  1. 7-1 マルチエージェント強化学習
  2. 7-2 確率推論としての強化学習
  3. 7-3 生物の意思決定モデル
  4. 参考文献


