强化学习代表人物、机构与资源

1. 强化学习代表人物

1.1 Richard Sutton

Richard Sutton 是加拿大阿尔伯塔大学的教授，也是强化学习领域的奠基人之一。他的主要研究方向包括强化学习、机器学习和人工智能。他是 Temporal Difference 学习算法的创始人之一，也是 SARSA 算法和函数逼近强化学习的奠基人之一，这些算法已被广泛应用于强化学习中。他与 Andrew Barto 合作写作的《Reinforcement Learning: An Introduction》一书是该领域的经典著作，该书介绍了强化学习的基本原理和方法，被广泛认为是强化学习的标准教材之一。

1.2 Andrew Ng

Andrew Ng 是斯坦福大学计算机科学系的教授，同时也是谷歌前副总裁和百度的首席科学家。他是机器学习和人工智能领域的知名专家，也是在线课程平台 Coursera 的联合创始人。他在 Coursera 上推出的“机器学习”课程已经有数百万人参加，成为机器学习入门的标准课程之一。他还创建了 deeplearning.ai，致力于普及深度学习的知识。

1.3 David Silver

David Silver 是英国伦敦大学学院的教授，他是 DeepMind 团队的创始成员之一，同时也是 AlphaGo 的核心设计者之一。在 2013 年，他开始研究将深度学习与强化学习相结合，这使得机器在更复杂的领域中具有了更强的表现力。他还在 2016 年发表的论文中介绍了著名的 Deep Reinforcement Learning（DRL）算法，并在 2019 年获得了杰出的成就奖。他的代表作包括 AlphaGo、AlphaZero、Atari Games 等。

1.4 Pieter Abbeel

Pieter Abbeel 是加州大学伯克利分校的教授，同时也是人工智能公司 Covariant 的联合创始人。他的研究方向包括机器学习、机器人学和控制论等。他在强化学习领域取得了一系列的突破，包括发明了一种新的强化学习算法，称为 Trust Region Policy Optimization（TRPO），该算法已经被广泛应用于机器人控制和其他任务中。他的团队开发了一种被称为 DeepMimic 的算法，可以让机器人学习各种高级运动，如跳跃、滑翔和攀岩等。他还开发了一种名为 CoRL（Conference on Robot Learning）的会议，该会议聚焦于机器人学习领域。

代表作：Apprenticeship Learning via Inverse Reinforcement Learning，DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills。

1.5 Sergey Levine

Sergey Levine 是加州大学伯克利分校的教授，也是 UC Berkeley 的 AI 实验室的主任。他在强化学习领域的主要贡献是针对机器人学习的算法研究，如怎样让机器人在现实环境中学习、移动和交互。他提出的一种基于深度学习和强化学习的“行动者-评论家”（Actor-Critic）算法已经被广泛应用于机器人控制领域。他的代表作包括在机器人控制、自主导航等领域的研究工作，以及 Flow、Spinning Up 等强化学习库。

代表作：Deep Learning for Robotics，End-to-End Training of Deep Visuomotor Policies。

1.6 John Schulman

John Schulman 是 OpenAI 的联合创始人之一，同时也是伯克利人工智能研究所（BAIR）的研究员。他在强化学习领域的主要贡献是开发出一种被称为 TRPO（Trust Region Policy Optimization）的强化学习算法，该算法可以更稳定地学习复杂的机器人控制任务。他还是 Gym 开源项目的创始人之一，该项目为开发人员提供了一种用于评估和比较强化学习算法的平台。

代表作：Trust Region Policy Optimization，Proximal Policy Optimization Algorithms。

1.7 Marc Bellemare

Marc Bellemare 是蒙特利尔大学的助理教授，同时也是 Google Brain 的研究员。他的研究重点在于开发新的强化学习算法，以及提高现有算法的表现。他在 2013 年发表了著名的 Double DQN 论文，提出了一种改进 DQN 算法的方法，大大提高了强化学习算法的稳定性。他的代表作还包括 Rainbow、QR-DQN 等强化学习算法。

1.8 其他代表人物：

Ian Goodfellow：加拿大蒙特利尔大学教授，GAN（生成对抗网络）的创始人之一，也是深度学习领域的知名专家。
Chelsea Finn：斯坦福大学助理教授，主要研究方向是强化学习、元学习和机器人学等，提出了 Model-Agnostic Meta-Learning（MAML）算法等。
Marc Bellemare：蒙特利尔大学助理教授，主要研究方向是强化学习、深度学习和游戏 AI 等，提出了 Double Q-Learning 等算法。
Doina Precup：蒙特利尔大学教授，主要研究方向是机器学习和强化学习等，她的研究成果包括 Autonomous Agents、Hierarchical Reinforcement Learning 等。
Jian Peng：美国乔治亚理工学院助理教授，主要研究方向是深度学习和强化学习等，提出了 Trust-PCL 等算法，并应用于推荐系统和自然语言处理等领域。
Emma Brunskill：斯坦福大学副教授，主要研究方向是强化学习、教育技术和人工智能公平性等，她的研究成果包括逆强化学习、Bandit-Based Learning 等。
Sham Kakade：华盛顿大学教授，主要研究方向是强化学习和统计学习等，提出了 Optimistic Initial Values、Policy Gradient 等算法。
Satinder Singh：密歇根大学教授，主要研究方向是强化学习和人工智能等，他的研究成果包括多智能体强化学习、协同机器人等。

2. 强化学习研究机构：学术界

2.1 国外

伯克利：Sergey Levine,Pieter Abbeel, Dimitri Bertsekas, Emma Brunskill, Chelsea Finn
UCL：David Sliver(目前好像不指导学生了)、汪军老师等
Alberta：Richard Sutton 老爷子、Dale, Michael Bowling, Csaba
MCGill: Doina, Joelle
Stanford：Benjamin Van Roy
莫斯科国立大学：NIPS 比赛很强
巴黎 Flowers Team：Intrinsic motivation 方向
Oxford: Shimon Whiteson
Texas: Peter Stone
新加坡南洋理工大学：安波老师
莫斯科国立大学：NIPS 比赛很强
巴黎 Flowers Team：Intrinsic motivation 方向
加拿大麦吉尔大学：推理与学习实验室 -（Doina Precup 和 Joelle Pineau 分别在 DeepMind 和 FAIR Montreal 工作）
加拿大 U Alberta 的增强学习和人工智能（Rich Sutton，Michael Bowling，Patrick Pilarski 在 DeepMind Edmonton 任职；CsabaSzepesv ári 在 DeepMind London 任职）
强化学习和在线学习小组，英国伦敦帝国学院（马克·迪森罗思在http://Prowler.IO）
英国牛津大学白森研究实验室
法国里尔的 Inria SequeL（Mohammad Ghavamzadeh，R émiMunos，Bilal Piot 在 DeepMind，Alessandro Lazaric 在 FAIR Paris，Olivier Pietquin 在 Google Brain）
Juergen Schmidhuber 的小组，瑞士 IDSIA（现为 NNAISENSE）
谢恩·曼诺（Shie Mannor）在以色列 Technio]的小组
Gergely Neu 在 UPF 西班牙巴塞罗那举行
印度 IIT-Madras 的 Balaraman Ravindran 小组
加拿大多伦多大学/媒介研究所的 Jimmy Ba 的小组
加拿大媒介学会的阿米尔·马苏德·法拉赫曼德（Amir-Massoud Farahmand）的 Alireza Makhzani

2.2 香港

香港中文大学：周博磊老师
香港中文大学（深圳）：Jim Dai、Hongyuan Zha、Baoxiang Wang

2.3 国内

清华大学：张崇洁老师、李升波老师等
北京大学：卢宗青老师等
南京大学：俞扬老师、高阳老师等
上海交通大学：张伟楠老师、俞凯老师
中国科学院：赵冬斌老师、张海峰老师等
天津大学：郝建业老师等
中科大：李厚强老师、周文罡老师、王杰老师、庄连生老师等
国防科技大学：徐昕老师
中科院深圳先进技术研究院：崔允端老师(强化学习在自动驾驶、机器控制上的应用)

3. 强化学习研究机构：工业界

3.1 国外

DeepMind(David Sliver, Marc G. Bellemare)
OpenAI(John Schulman)
FAIR（全方向）：知名的有田渊栋和 Noam Brown 等，大佬巨多
Google Brain（全方向）：大佬巨多
Salesforce Research

3.2 国内

腾讯 AI Lab：游戏等；
百度 PARL 团队：自研框架+RL 比赛
网易伏羲实验室：游戏；
字节跳动 AI Lab：游戏、推荐；
地平线 AI：RL+机器人、自动驾驶
滴滴：运筹优化；
阿里：推荐、运筹优化；
微软亚研院：Research，信息检索和搜索引擎；
华为诺亚方舟实验室：Research；
华为消费者 BG 自动驾驶解决方案 BU：RL+自动驾驶
平安保险：强化学习+NLP；
快手 AI Lab：游戏、检索；
Momenta：RL+自动驾驶
超参数科技：游戏；
启元世界
南栖仙策

强化学习代表人物、机构与资源 ​

1. 强化学习代表人物 ​

1.1 Richard Sutton ​

1.2 Andrew Ng ​

1.3 David Silver ​

1.4 Pieter Abbeel ​

1.5 Sergey Levine ​

1.6 John Schulman ​

1.7 Marc Bellemare ​

1.8 其他代表人物： ​

2. 强化学习研究机构：学术界 ​

2.1 国外 ​

2.2 香港 ​

2.3 国内 ​

3. 强化学习研究机构：工业界 ​

3.1 国外 ​

3.2 国内 ​