关于对《Reinforcement Learning: An Introduct-米儿火

强烈推荐这本书！

答主有个习惯，就是入门某领域的时候先找一本权威的书籍啃透基础知识，然后去补充前沿论文。这本书是我经过调研之后，选择作为细啃的主力资料。目前已啃到第十章，代码也撸了一遍，题主如果也啃这本书可以一起讨论！哦对了，我有记读书笔记，有需要的话可以分享～

--------------------------------------------------------------------------------------------------------

一句话总结：这是一本打地基的非常优秀的入门书籍，属于扎实内功的修炼。内容翔实，广度足够，深度略有不足（需要额外参考相关paper），整体内容紧跟前沿（新版本已有，17年的）。

对于题主的公式例子看不懂的问题，个人有3个建议：

1、坚持正确的学习方向（权威资料）。

好吧，我承认这句话有点毛概思修课本的既视感，但是这么写是有我的道理的～～

一定一定坚持看最权威的教程，哪怕都是英文的很耗时；一定一定要综合对比多份资料，外加自己的思考后，再吸收某个知识。是的，我就是在反对很多博客或者在线教程，很多东西解释的模模糊糊，本身都是有错误的，如果被这些零散的东西先入为主，那么之后会越学越费劲。

所以一定得有自己的思考，你感觉不太对的地方，就要坚持你的想法，不要“好吧好吧，就先按照这个人说的想吧”。去google搜（别百度·····），去stackoverflow上搜或者问问题，去github上看看有谁写了这方面的代码，去发起issue去问。总有一本书的某一段、一个人的某一句话，会让你豁然开朗，觉得 that's it ! 那才是你寻找答案的终点。

对了，多说一个心得：在开始入门的时候，系统的书比ppt效果好。因为你还没有对整个领域的知识有系统的把握，所以ppt上的重点部分，你很难get到它的点。而书中会有很多的“废话”，就是过渡的话，这些话很可能对你有用。

推荐三本：

第一个当然就是Sutton这本，我发个最新版的2017年修改的：

链接: pan.baidu.com/s/1eStNGjS 密码: ckdt

这个版本比前些版本增添了一些内容，尤其是加上了policy gradient的内容，代码也更丰富。

第二个是“reinforcement learning state-of-the-art”，略难一点，可以当前一本的参考，有不懂的到这本里翻翻：

链接: pan.baidu.com/s/1mhLfANA 密码: wnvy

第三个是我之前参考过的一本书，这个结构和sutton那本不太一样，有自己的特色，有些sutton书里省略的部分，在这本书里却可以找到稍微详细的解释，这也是参考多本书的意义。

链接: pan.baidu.com/s/1nvmNU2H 密码: 2qu9

2、基本英文和数学知识

题主可能也看到了，很多这方面的权威读物或者ppt都是英文的，所以，没办法，只能尽可能看原版，看多了英文也不觉得晦涩了。当然了，如果你感兴趣，我把我的读书笔记链接放在这里，只是写了自己的理解，仅供参考和交流，你还是要对照原书看，自己思考还是最重要滴！

专栏：神经网络与强化学习

其实Sutton的书中用的数学，我觉得大学学的线性代数、概率论就够用了，没必要专门再去跟线代或者概率课程，别颠倒了主次。其实很多时候，某个公式看不懂，我都是直接百度百科，看一下介绍，应该就想起来了。

3、动手写代码，动手写代码，动手写代码

你可以把这步当做最重要的一步，也是升华的一步。你可能以为自己这一章的理论都看懂了，也能跟别人说道说道了，但是！！！如果写不出代码，或者不写代码，相信我，不出一星期，你会忘的一干二净。。。。。

强化学习里面那些算法，每个都有很多细节，感觉理解了和实际真的理解，不通过代码是验证不了的。如果你一开始写不出来，不要紧，继续google、stackoverflow，找各种别人的实现，不要直接复制粘贴，要自己一句一句跟着写，确保你明白他为什么写着一句。如果你暂时不明白，就跳过这句，按照你可以理解的，继续写下面的代码。

######## 反正最后如果跑不成功，你就知道你跳过的那句是多么重要了。哈哈哈 #######

等你完成了一本书之后，你就可以去看看前沿论文了，deepmind有几篇挺好的, John Sculman有一篇TRPO也挺好，下面都给出了链接，题主可以自己选择看看。那个时候，你应该没有现在的疑惑了。

祝学习顺利～

---------------------------------------资源分割线 ------------------------------------------------

资源链接在此～：

David Silver 课程及ppt: （课程）- 搜索结果 - 哔哩哔哩弹幕视频网 - ( ゜- ゜)つロ乾杯~ - bilibili

（ppt）：download.csdn.net/detail/happytofly/9554148

重磅论文们：

[deep Q network]:arxiv.org/abs/1312.5602

[A3C]:[1602.01783] Asynchronous Methods for Deep Reinforcement Learning

[UNREAL]:arXiv:1611.05397

还有一些在我的github里面：论文

算法实验平台：

openAI gym: OpenAI Gym: A toolkit for developing and comparing reinforcement learning algorithms

vizdoom：Home | ViZDoom

TORCS: TORCS - The Open Race Car Simulator

好吧，虽然写的也一般，如果题主想看代码，欢迎：RL frameork；题主想找人讨论的话，联系我邀请你加群～

为您推荐

关于对《Reinforcement Learning: An Introduct