强烈推荐这本书!
答主有个习惯,就是入门某领域的时候先找一本权威的书籍啃透基础知识,然后去补充前沿论文。这本书是我经过调研之后,选择作为细啃的主力资料。目前已啃到第十章,代码也撸了一遍,题主如果也啃这本书可以一起讨论!哦对了,我有记读书笔记,有需要的话 可以分享~
--------------------------------------------------------------------------------------------------------
一句话总结:这是一本打地基的非常优秀的入门书籍,属于扎实内功的修炼。内容翔实,广度足够,深度略有不足(需要额外参考相关paper),整体内容紧跟前沿(新版本已有,17年的)。
对于题主的公式例子看不懂的问题,个人有3个建议:
1、坚持正确的学习方向(权威资料)。
好吧,我承认这句话有点毛概思修课本的既视感,但是这么写是有我的道理的~~
一定一定坚持看最权威的教程,哪怕都是英文的很耗时;一定一定要综合对比多份资料,外加自己的思考后,再吸收某个知识。是的,我就是在反对很多博客或者在线教程,很多东西解释的模模糊糊,本身都是有错误的,如果被这些零散的东西先入为主,那么之后会越学越费劲。
所以一定得有自己的思考,你感觉不太对的地方,就要坚持你的想法,不要“好吧好吧,就先按照这个人说的想吧”。去google搜(别百度·····),去stackoverflow上搜或者问问题,去github上看看有谁写了这方面的代码,去发起issue去问。总有一本书的某一段、一个人的某一句话,会让你豁然开朗,觉得 that's it ! 那才是你寻找答案的终点。
对了,多说一个心得:在开始入门的时候,系统的书比ppt效果好。因为你还没有对整个领域的知识有系统的把握,所以ppt上的重点部分,你很难get到它的点。而书中会有很多的“废话”,就是过渡的话,这些话很可能对你有用。
推荐三本:
第一个当然就是Sutton这本,我发个最新版的2017年修改的:
链接: pan.baidu.com/s/1eStNGjS 密码: ckdt
这个版本比前些版本增添了一些内容,尤其是加上了policy gradient的内容,代码也更丰富。
第二个是“reinforcement learning state-of-the-art”,略难一点,可以当前一本的参考,有不懂的到这本里翻翻:
链接: pan.baidu.com/s/1mhLfANA 密码: wnvy
第三个是我之前参考过的一本书,这个结构和sutton那本不太一样,有自己的特色,有些sutton书里省略的部分,在这本书里却可以找到稍微详细的解释,这也是参考多本书的意义。
链接: pan.baidu.com/s/1nvmNU2H 密码: 2qu9
2、基本英文和数学知识
题主可能也看到了,很多这方面的权威读物或者ppt都是英文的,所以,没办法,只能尽可能看原版,看多了英文也不觉得晦涩了。当然了,如果你感兴趣,我把我的读书笔记链接放在这里,只是写了自己的理解,仅供参考和交流,你还是要对照原书看,自己思考还是最重要滴!
专栏:神经网络与强化学习
其实Sutton的书中用的数学,我觉得大学学的线性代数、概率论就够用了,没必要专门再去跟线代或者概率课程,别颠倒了主次。其实很多时候,某个公式看不懂,我都是直接百度百科,看一下介绍,应该就想起来了。
3、动手写代码,动手写代码,动手写代码
你可以把这步当做最重要的一步,也是升华的一步。你可能以为自己这一章的理论都看懂了,也能跟别人说道说道了,但是!!!如果写不出代码,或者不写代码,相信我,不出一星期,你会忘的一干二净。。。。。
强化学习里面那些算法,每个都有很多细节,感觉理解了和实际真的理解,不通过代码是验证不了的。如果你一开始写不出来,不要紧,继续google、stackoverflow,找各种别人的实现,不要直接复制粘贴,要自己一句一句跟着写,确保你明白他为什么写着一句。如果你暂时不明白,就跳过这句,按照你可以理解的,继续写下面的代码。
######## 反正最后如果跑不成功,你就知道你跳过的那句是多么重要了。哈哈哈 #######
等你完成了一本书之后,你就可以去看看前沿论文了,deepmind有几篇挺好的, John Sculman有一篇TRPO也挺好,下面都给出了链接,题主可以自己选择看看。那个时候,你应该没有现在的疑惑了。
祝学习顺利~
---------------------------------------资源分割线 ------------------------------------------------
资源链接在此~:
David Silver 课程及ppt: (课程)- 搜索结果 - 哔哩哔哩弹幕视频网 - ( ゜- ゜)つロ 乾杯~ - bilibili
(ppt):download.csdn.net/detail/happytofly/9554148
重磅论文们:
[deep Q network]:arxiv.org/abs/1312.5602
[A3C]:[1602.01783] Asynchronous Methods for Deep Reinforcement Learning
[UNREAL]:arXiv:1611.05397
还有一些在我的github里面:论文
算法实验平台:
openAI gym: OpenAI Gym: A toolkit for developing and comparing reinforcement learning algorithms
vizdoom:Home | ViZDoom
TORCS: TORCS - The Open Race Car Simulator
好吧,虽然写的也一般,如果题主想看代码,欢迎:RL frameork;题主想找人讨论的话,联系我邀请你加群~
发表评论