封面
版权信息
版权
内容提要
前言
资源与支持
资源获取
提交勘误
与我们联系
关于异步社区和异步图书
第1章 绪论
1.1 为什么要学习强化学习?
1.2 强化学习的应用
1.3 强化学习方向概述
1.3.1 多智能体强化学习
1.3.2 模仿学习和逆强化学习
1.3.3 探索策略
1.3.4 实时环境
1.3.5 多任务强化学习
1.4 学习本书之前的一些准备
第2章 马尔可夫决策过程
2.1 马尔可夫决策过程
2.2 马尔可夫性质
2.3 回报
2.4 状态转移矩阵
2.5 本章小结
2.6 练习题
第3章 动态规划
3.1 动态规划的编程思想
3.2 状态价值函数和动作价值函数
3.3 贝尔曼方程
3.4 策略迭代算法
3.5 价值迭代算法
3.6 本章小结
3.7 练习题
第4章 免模型预测
4.1 有模型与免模型
4.2 预测与控制
4.3 蒙特卡罗方法
4.4 时序差分方法
4.5 时序差分方法和蒙特卡罗方法的差异
4.6 n步时序差分方法
4.7 本章小结
4.8 练习题
第5章 免模型控制
5.1 Q-learning 算法
5.1.1 Q表格
5.1.2 探索策略
5.2 Sarsa 算法
5.3 同策略算法与异策略算法
5.4 实战:Q-learning算法
5.4.1 定义训练
5.4.2 定义算法
5.4.3 定义环境
5.4.4 设置参数
5.4.5 开始训练
5.4.6 结果分析
5.4.7 消融实验
5.5 实战:Sarsa算法
5.6 本章小结
5.7 练习题
第6章 深度学习基础
6.1 强化学习与深度学习的关系
6.2 线性回归模型
6.3 梯度下降
6.4 逻辑回归模型
6.5 全连接网络
6.6 高级的神经网络模型
6.7 本章小结
6.8 练习题
第7章 DQN算法
7.1 深度神经网络
7.2 经验回放
7.3 目标网络
7.4 实战:DQN算法
7.4.1 伪代码
7.4.2 定义模型
7.4.3 经验回放
7.4.4 定义智能体
7.4.5 定义环境
7.4.6 设置参数
7.5 本章小结
7.6 练习题
第8章 DQN算法进阶
8.1 Double DQN算法
8.2 Dueling DQN算法
8.3 Noisy DQN算法
8.4 PER DQN算法
8.5 实战:Double DQN算法
8.6 实战:Dueling DQN算法
8.7 实战:Noisy DQN算法
8.8 实战:PER DQN算法
8.8.1 伪代码
8.8.2 SumTree结构
8.8.3 PER
8.9 本章小结
8.10 练习题
第9章 策略梯度
9.1 基于价值的算法的缺点
9.2 策略梯度算法
9.3 REINFORCE算法
9.4 策略梯度推导进阶
9.4.1 平稳分布
9.4.2 基于平稳分布的策略梯度推导
9.5 策略函数的设计
9.5.1 离散动作空间的策略函数
9.5.2 连续动作空间的策略函数
9.6 本章小结
9.7 练习题
第10章 Actor-Critic算法
10.1 策略梯度算法的优缺点
10.2 Q Actor-Critic算法
10.3 A2C与A3C算法
10.4 广义优势估计
10.5 实战:A2C算法
10.5.1 定义模型
10.5.2 采样动作
10.5.3 策略更新
10.6 本章小结
10.7 练习题
第11章 DDPG与TD3算法
11.1 DPG算法
11.2 DDPG算法
11.3 DDPG算法的优缺点
11.4 TD3算法
11.4.1 双Q网络
11.4.2 延迟更新
11.4.3 噪声正则化
11.5 实战:DDPG算法
11.5.1 DDPG伪代码
11.5.2 定义模型
11.5.3 动作采样
11.6 实战:TD3算法
11.7 本章小结
11.8 练习题
第12章 PPO算法
12.1 重要性采样
12.2 PPO算法
12.3 一个常见的误区
12.4 实战:PPO算法
12.4.1 PPO算法伪代码
12.4.2 PPO算法更新
12.5 本章小结
12.6 练习题
练习题答案
第2章
第3章
第4章
第5章
第6章
第7章
第8章
第9章
第10章
第11章
第12章
更新时间:2025-05-19 16:15:54