『狄蒂斯』计算机软件教程资源网

推荐各类电脑软件下载!

未分类

《强化学习的数学原理》作者:赵世钰电子书(pdf+word+epub+mobi+azw3版本)

茶楼酒店宾馆礼仪服、KTV小姐礼服、旗袍网店(美仪思佳等):http://www.lifu.in/liyi

『美仪思佳』礼仪小姐服饰网店和文化网 :http://www.liyi.info

【收藏本站】喜欢本站的朋友点击一下链接收藏到QQ空间、新浪微博等!

该商品为众筹商品,目前无实际资源,目前心愿值达成1点,未达成理想心愿值11点,如果不懂心愿值不要急着付款,先看心愿值计划:点击这里

您需要先支付 0.3元 才能查看此处内容!立即支付


强化学习的数学原理
本书将通过数学的视角向读者清晰地呈现强化学习中的基本概念、基本问题和经典算法。其中数学部分的介绍清晰而严谨,丰富的例子能够帮助读者更好的理解相关问题。相信本书能够帮助读者跨过强化学习的门槛,进入到这个
作者:赵世钰出版社:清华大学出版社出版时间:2025年05月
在当当计算机/网络畅销榜排名66位 809条评论

抢购价 ¥54.00(5折)

开 本:16开
纸 张:胶版纸
包 装:平装-胶订
是否套装:否
国际标准书号ISBN:9787302685678
所属分类:
图书>计算机/网络>人工智能>机器学习

编辑推荐

·从零开始到透彻理解,知其然并知其所以然;
·本书在GitHub收获5000 星;
·课程视频全网播放超过100万;
·国内外读者反馈口碑爆棚;
·教材、视频、课件三位一体。

内容简介

本书将从强化学习最基本的概念开始介绍,将介绍基础的分析工具包括贝尔曼公式和贝尔曼最优公式,之后会推广到基于模型的和无模型的强化学习算法,最后会推广到基于函数逼近的强化学习方法。本书强调从数学的角度接引入概念、分析问题、分析算法。并不强调算法的编程实现,因为目前已经有很多这方面的书籍,本书将不再重复造轮子。

本书面向对强化学习感兴趣的本科生、研究生、研究人员和企业研究所从业者。

它不需要读者有任何关于强化学习的背景,因为它会从最基本的概念开始介绍。如果读者已经有一些 强化学习的背景,这本书也可以帮助他们更深入地理解一些问题或者带来新的视角。

本书要求读者具备一定的概率论和线性代数知识。本书的附录中包含了一些必需的数学基础知识。
作者简介

赵世钰目前是西湖大学工学院特聘研究员、博士生导师、智能无人系统实验室主任、国家海外高层次人才引进计划(青年项目)获得者。他本硕毕业于北京航空航天大学,博士毕业于新加坡国立大学。他2019年回国加入西湖大学工学院,回国之前在英国谢菲尔德大学自动控制与系统工程系担任讲师和博士生导师,该系是英国唯一一个专注于自动控制领域的院系。

赵世钰在系统与控制领域具有丰富的理论和实践研究经验,他已在控制与机器人领域的国际期刊和会议发表研究论文50余篇。主要代表性研究成果为多机器人协同控制与估计,特别是方位刚性理论及其在网络系统中的应用,相关成果以综述论文的形式发表在IEEE控制系统学会权威官方杂志IEEE Control Systems Magazine。他是绝大多数控制和机器人领域的国际顶级期刊和会议的审稿人。他是多个国际重要会议的编委(包括IEEE IROS, CDC, ACC, ICCA, ICARCV, ICUAS),IEEE控制系统协会编委会委员,并担任ICCA2018的英国区域主席和ICCA2019的程序委员会主席。此外,他是国际期刊Unmanned Systems的编委。赵世钰曾获得领跑者5000——中国精品科技期刊顶尖论文、2014年第33届中国控制会议关肇直奖。
目  录

第 1章基本概念 1

1.1网格世界例子 2

1.2状态和动作 2

1.3状态转移 3

1.4策略 5

1.5奖励 7

1.6轨迹、回报、回合 9

1.7马尔可夫决策过程 11

1.8总结 13

1.9问答 13

第 2章状态值与贝尔曼方程 15

2.1启发示例 1:为什么回报很重要? 16

2.2启发示例 2:如何计算回报?. 17

2.3状态值 19

2.4贝尔曼方程 20

2.5示例 22

2.6矩阵向量形式 25

2.7求解状态值 27

2.7.1方法 1:解析解 27

2.7.2方法 2:数值解 27

2.7.3示例 28

2.8动作值 30

2.8.1示例 31

2.8.2基于动作值的贝尔曼方程 32

2.9总结
. 32

2.10问答
33

第 3章最优状态值与贝尔曼最优方程 35

3.
1启发示例:如何改进策略?. 36

3.
2最优状态值和最优策略 37

3.
3贝尔曼最优方程 38

3.
3.1方程右侧的优化问题 39

3.3.2矩阵
-向量形式 40

3.
3.3压缩映射定理 41

3.
3.4方程右侧函数的压缩性质 44

3.
4从贝尔曼最优方程得到最优策略 46

3.
5影响最优策略的因素 49

3.6总结
. 54

3.7问答
. 54

第 4章值迭代与策略迭代 57

4.1值迭代算法
. 58

4.
1.1展开形式和实现细节 59

4.1.2示例
. 59

4.2策略迭代算法
62

4.2.1算法概述
62

4.
2.2算法的展开形式 65

4.2.3示例
. 66

4.
3截断策略迭代算法 68

4.
3.1对比值迭代与策略迭代 68

4.
3.2截断策略迭代算法 71

4.4总结
. 73

4.5问答
. 73

5.
1启发示例:期望值估计 78

5.2
MC Basic:最简单的基于蒙特卡罗的算法 80

5.
2.1将策略迭代算法转换为无需模型 80

5.2.2
MC Basic算法 81

5.2.3示例
. 82

5.3
MC Exploring Starts算法 86

5.
3.1更高效地利用样本 86

5.
3.2更高效地更新策略 87

5.3.3算法描述
87

5.4
MC -Greedy算法 88

5.4.1
.-Greedy策略 89

5.4.2算法描述
89

5.4.3示例
. 91

5.
5探索与利用:以 -Greedy策略为例 91

5.6总结
. 96

5.7问答
. 96

第 5章蒙特卡罗方法 77

第 6章随机近似算法 99

6.
1启发示例:期望值估计 100

6.2罗宾斯
-门罗算法 101

6.2.1收敛性质
. 103

6.
2.2在期望值估计问题中的应用 106

6.3
Dvoretzky定理 107

6.3.1
Dvoretzky定理的证明 108

6.
3.2应用于分析期望值估计算法 109

6.
3.3应用于证明罗宾斯-门罗定理 110

6.3.4
Dvoretzky定理的推广 111

6.4随机梯度下降
. 112

6.
4.1应用于期望值估计 113

6.
4.2随机梯度下降的收敛模式 114

6.
4.3随机梯度下降的另一种描述 116

6.
4.4小批量梯度下降 117

6.
4.5随机梯度下降的收敛性 118

6.5总结
120

6.6问答
120

第 7章时序差分方法 123

7.
1状态值估计:最基础的时序差分算法 124

7.1.1算法描述
. 124

7.1.2性质分析
. 126

7.
1.3收敛性证明 127

7.2动作值估计:
Sarsa 130

7.2.1算法描述
. 131

7.
2.2学习最优策略 132

7.3动作值估计:
n-Step Sarsa. 135

7.
4最优动作值估计:Q-learning 137

7.4.1算法描述
. 137

7.4.2
Off-policy和 On-policy 138

7.4.3算法实现
. 140

7.4.4示例
141

7.
5时序差分算法的统一框架 142

7.6总结
145

7.7问答
145

第 8章值函数方法 149

8.
1价值表示:从表格到函数 150

8.
2基于值函数的时序差分算法:状态值估计 153

8.2.1目标函数
. 154

8.2.2优化算法
. 159

8.
2.3选择值函数 160

8.2.4示例
161

8.2.5理论分析
. 165

8.
3基于值函数的时序差分:动作值估计 175

8.
3.1基于值函数的 Sarsa 176

8.
3.2基于值函数的 Q-learning 177

8.4深度
Q-learning. 178

8.4.1算法描述 179

8.4.2示例
180

8.5总结
183

8.6问答
183

第 9章策略梯度方法 187

9.
1策略表示:从表格到函数 188

9.
2目标函数:定义最优策略 189

9.
3目标函数的梯度 194

9.
3.1推导策略梯度:有折扣的情况 195

9.
3.2推导策略梯度:无折扣的情况 200

9.
4蒙特卡罗策略梯度(REINFORCE). 206

9.5总结
208

9.6问答
209

第 10章演员-评论家方法 211

10.
1最简单的演员-评论家算法:QAC 212

10.2优势演员
-评论家 213

10.
2.1基准不变性 213

10.
2.2算法描述 215

10.3异策略演员
-评论家 217

10.
3.1重要性采样 217

10.3.2
Off-policy策略梯度定理 220

10.
3.3算法描述 221

10.4确定性演员
-评论家 223

10.
4.1确定性策略梯度定理 223

10.
4.2算法描述 229

10.5总结
. 230

10.6问答
. 231

附录 A概率论基础 233

附录 B测度概率论 239

附录 C序列的收敛性 247

C.1确定性序列的收敛性 248

C.2随机序列的收敛性 250
附录 D梯度下降方法 255
符号 261

索引 262
参考文献 265

显示部分信息
前  言

本书旨在成为一本数学但是友好的教材,能帮助读者“从零开始”实现对强化学习原理的“透彻理解”。本书的特点如下所述。
. 第一,从数学的角度讲故事,让读者不仅了解算法的流程,更能理解为什么一个算法最初设计成这个样子、为什么它能有效地工作等基本问题。

. 第二,数学的深度被控制在恰当的水平,数学内容也以精心设计的方式呈现,从而确保本书的易读性。读者可以根据自己的兴趣选择性地阅读灰色方框中的数学材料。

. 第三,提供了大量例子,能够帮助读者更好地理解概念和算法。特别是本书广泛使用了网格世界的例子,这个例子非常直观,对理解概念和算法非常有帮助。

. 第四,在介绍算法时尽可能将其核心思想与一些不太重要但是可能让算法看起来很复杂的东西分离开来。通过这种方式,读者可以更好地把握算法的核心思想。

. 第五,本书采用了新的内容组织架构,脉络清晰,易于建立宏观理解,内容层层递进,每一章都依赖于前一章且为后续章节奠定基础。

本书适合对强化学习感兴趣的高年级本科生、研究生、科研人员和工程技术人员阅读。由于本书会从最基本的概念开始介绍,因此不要求读者有任何强化学习的背景。当然,如果读者已经有一些强化学习的背景,我相信本书可以帮助大家更深入地理解一些问题或者提供不同的视角。此外,本书要求读者具备一些概率论和线性代数的知识,这些知识在本书附录中已经给出。
自 2019年以来,我一直在教授研究生的强化学习课程,我要感谢课程中的学生对我的教学提出的反馈建议。自 2022年 8月把这本书的草稿在线发布在 GitHub,到目前为止我收到了许多读者的宝贵反馈,在此对这些读者表示衷心感谢。此外,我还要感谢我的团队成员吕嘉玲在编辑书稿和课程视频方面所做的大量琐碎但是重要的工作;感谢助教李佳楠和米轶泽在我的教学中的勤恳工作;感谢我的博士生郑灿伦在设计书
中图片方面的帮助,以及我的家人的大力支持。

最后,我要感谢清华大学出版社的郭赛编辑和施普林格自然出版社的常兰兰博士,他们对于书稿的顺利出版给予了大力支持。我真诚地希望这本书能够帮助读者顺利进入强化学习这一激动人心的领域。
赵世钰

幻灯片《《强化学习的数学原理》作者:赵世钰电子书(pdf+word+epub+mobi+azw3版本)》
点击这里:https://www.liyiqipao.com/liyiqipao-xbook-9.html

开始欣赏,点开第一张图片就可以幻灯片欣赏了!
8秒自动换,也可单击切换!解放宅男双手!

Leave a Reply

*

code