-
Notifications
You must be signed in to change notification settings - Fork 5
Home
LLT1 edited this page Dec 21, 2022
·
14 revisions
Note:本主页内容主要在知乎上进行更新,未同步更新至github,还请谅解。知乎连接:https://zhuanlan.zhihu.com/p/79680981
Welcome to the pages-for-RL-and-ADP wiki!
前言:过去几年学习强化学习(Reinforcement Learning,RL)的过程中,得到不少博客,文章,公开课等的指导,受益良多。现在把自己看过的参考资料(网上能找到的)系统地归纳一下,作为几年来自己学习的一个总结。若能帮助到别人,也是一件好事。以下资料(以强化学习为主,机器学习等为辅)仅小结了强化学习丰富研究内容的冰山一角,仅供参考,欢迎补充。本文为个人总结,主要是以model-free RL方面的研究为主,将会持续更新。
- Richard S. Sutton and Andrew G. Barto 写的Reinforcement Learning: An Introduction,second edition,本书全面介绍了强化学习基础。以及书中实验复现;
- Csaba Szepesvári写的Algorithms for Reinforcement Learning,适合作为入门以及日常handbook使用;
- Sham M. Kakade 等人的新书稿,尚未完成(目前是2019年10月27日的更新版本):Reinforcement Learning: Theory and Algorithms,其内容将会覆盖最近提出的各种重要RL及DRL方法,侧重理论介绍,是本好书。和Kakade发的论文一样,属于精品.
- Stephen Boyd 等人写的Applied Linear Algebra 和 Convex Optimization
- Trevor Hastie等人写的Statistical Learning with Sparsity:The Lasso and Generalizations;
- Lan Goodfellow等人写的Deep Learning;
- D.P. Bertsekas写过很多关于优化、动态规划和强化学习的书,Nonlinear Programming,Neuro Dynamic Programming,Reinforcement Learning and Optimal Control等都是不错的书。书籍介绍参见作者的个人主页
- Christopher M. Bishop写的Pattern Recognition and Machine Learning
- Shai Shalev-Shwartz, Shai Ben-David 的合著,Understanding Machine Learning: From Theory to Algorithms
- 周志华等,《机器学习理论导引》,又称‘宝箱书’。内容包括1、可学性,2、假设空间复杂度,3、泛化界,4、稳定性,5一致性,6、收敛率,7遗憾界,又称‘七种武器’。
- 策略评价算法综述:Christoph Dann, Gerhard Neumann and Jan Petters, Policy Evaluation with Temporal Differences: A Survey and Comparison,Journal of Machine Learning Research 15 (2014) 809-883,并且在github上有对应的代码实现。
- AC方法综述:Ivo Grondman, Lucian Bus¸oniu, Gabriel A. D. Lopes, and Robert Babuˇska, A Survey of Actor-Critic Reinforcement Learning: Standard and Natural Policy Gradients,IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS—PART C: APPLICATIONS AND REVIEWS, VOL. 42, NO. 6, NOV 2012.
- 深度强化学习综述:Yuxi Li, Deep Reinforcement Learning: an Overview, arXiv, 26 Nov 2018.
- 批次强化学习中的特征选择与学习:De-Rong Liu Hong-Liang Li Ding Wang, Feature Selection and Feature Learning for High-dimensional Batch Reinforcemen Learning: A Survey,International Journal of Automation and Computing,12(3), June 2015, 229-242.
- 连续动作空间策略搜索,Sigaud, Olivier and Freek Stulp. Policy search in continuous action domains: an overview, Neural Networks , 2018
- 贝叶斯强化学习,Mohammad Ghavamzadeh, Shie Mannor, Joelle Pineau and Aviv Tamar,Bayesian Reinforcement Learning: A Survey,arXiv, 14 Sep 2016
- 逆强化学习(inverse RL): Saurabh Arora and Prashant Doshi, A Survey of Inverse Reinforcement Learning: Challenges, Methods and Progress, arXiv, 18 Jun 2018.
- Andrew Ng 在Cousera的机器学习,以及网易云课堂上的深度学习,他原先在斯坦福大学录的cs229机器学习很经典。
- David Silver的强化学习
- Stephen Boyd 的凸优化,课程主页;
- Hung-yi Lee的机器学习:课程主页,b站机器学习2019视频
- Dimitri P. Bertsekas的强化学习与最优控制
- 林田轩的机器学习基石
- 斯坦福大学cs229机器学习
- 伯克利大学cs294深度强化学习,cs204-112 fal-2018课程主页
- 伯克利大学cs287先进机器人
- OpenAI 的Spinning Up in RL, 其内容是从强化学习到深度强化学习的educational resource,内容相当全面,资料涵盖了从基本概念到关键论文再到动手实践方方面面。
- lilianweng 的博客内容是对机器学习中重要方法的survey。下面两个是RL方面很好的博客(1)RL基础;(2)策略梯度总结
- 张楚珩的知乎专栏强化学习前沿,解读RL重要和前沿论文。
- 田渊栋的知乎专栏,其内容是研究生活、想法等的分享,对于想要从事研究工作的人很有参考价值.
- Sébastien Bubeck的博客内容是对各种学习、优化算法介绍,链接Sebastien Bubeck
- ECKai 的多智能体强化学习入门系列,梳理清晰,紧抓核心,链接ECKai:多智能体强化学习入门(一)——基础知识与博弈。
- 深度强化学习实验室(DeepRL-Lab)的DRL总结, 包括:"[1]全面的深度强化学习书籍、资料、综述等学习资源; [2]. 阐述深度强化学习的基本原理、前沿算法、场景应用、竞赛分析、论文分享等专业知识; [3]. 分享最前沿的业界动态和行业发展趋势。[4]. 成为所有深度强化学习领域的研究者与爱好者交流平台"(以上四点,引用自其GitHub主页),支撑团队强大,总结相当全面,可以当DRL日常浏览资料。
- OpenAI baseline
- rllab
- Stable Baselines
- RL Baselines Zoo
- DQN Adventure: DQN系列,从DQN到Rainbow
- RL-Adventure-2: Policy Gradients系列
- 策略评价算法系列,Temporal Difference Learning Algorithms for Policy Evaluation
- [S-RL Toolbox: Reinforcement Learning (RL) and State Representation Learning (SRL) Toolbox for Robotics],(https://github.com/araffin/robotics-rl-srl)
- Petros Christodoulou 的Deep-Reinforcement-Learning-Algorithms-with-PyTorch,囊括了DRL中DQN、DDPG、PPO系列算法的Pytorch实现.
- UC 伯克利大学的Bair研究小组的并行深度强化学习开源项目 in Pytorch,用于解决中小规模的RL问题(例如OpenAI Five 打DOTA,用100个GPU并行训练),简介博客.
- 骆昊的Python-100-Days,学python的好教材.
个人:
- Richard S. Sutton,提出TD等一系列重要算法及RL理论构建.
- D.P. Bertsekas,在动态规划等领域造诣深.
- David Silver, 与DeepMind团队一起打造AlphaGO,提出DDPG等一系列重要DeepRL算法.
- Pieter Abbeel,RL在机器人控制等的应用.
- Andrew Ng,其研究集中于机器学习,深度学习,NLP,机器人控制,和Abbeel一起提出IRL。
- Shalabh Bhatnagar,提出TD-AC等重要算法,RL理论构建.
- F.L. Lewis,研究集中在自适应动态规划(近似动态规划)和RL领域.
- Sergey Levine,RL在机器人控制等的应用.
- Jan Peters,RL理论及在机器人控制中的应用.
- John N. Tsitsiklis,AC理论的构建者之一.
- Csaba Szepesvári,RL理论构建,他的书Algorithms for Reinforcement Learning很实用.
- A-M. Farahmand, 博士期间在阿尔伯塔大学RL研究小组专门研究强化学习正则化理论.
- Benjamin Van Roy,His research focuses on the design, analysis, and application of reinforcement learning algorithms,尤其从统计理论角度分析、设计强化学习算法.
- Ronald Parr,提出LSPI,LSPI matlab实现,python实现
- Bo Liu, 提出proximal TD,ROTD等.
- John Schulman,提出TRPO,PPO.
- Shane Gu,其研究集中于Deep RL领域,如将DQN扩展到连续动作空间情形.
- Matthew W. Hoffman.
- Sham M. Kakade, 提出Natural Policy Gradient等.
- Martha White.
- Michael L. Littman.
- Philip S. Thomas,其研究集中于RL算法的安全性及实用性.
- Remi Munos
- Thomas Degris,提出off-policy AC.
- Shun-ichi Amari, 提出Natural gradient.
- DeepMind
- UC 伯克利大学的Bair研究小组
- OpenAI
- 强化学习大学(其实是阿尔伯塔大学的称呼)的RLAI 研究小组
- Yoshua Bengio 领导的MILA小组
- 牛津大学WhiRL团队Whiteson Research Lab,他们在IJCAI上发表的 A Survey of RL Informed by Natural Language很有意思,RL+NLP可能是RL下一个突破点。
- 强化学习泛化性能baseline:Procgen Benchmark 对应比赛neurips-2020-procgen-competition