强化学习主要代表人物和组织

强化学习代表人物

Richard Sutton

Richard Sutton是加拿大阿尔伯塔大学的教授，也是强化学习领域的奠基人之一。他的主要研究方向包括强化学习、机器学习和人工智能。他是Temporal Difference学习算法的创始人之一，也是SARSA算法和函数逼近强化学习的奠基人之一，这些算法已被广泛应用于强化学习中。他与Andrew Barto合作写作的《Reinforcement Learning: An Introduction》一书是该领域的经典著作，该书介绍了强化学习的基本原理和方法，被广泛认为是强化学习的标准教材之一。

Andrew Ng

Andrew Ng是斯坦福大学计算机科学系的教授，同时也是谷歌前副总裁和百度的首席科学家。他是机器学习和人工智能领域的知名专家，也是在线课程平台Coursera的联合创始人。他在Coursera上推出的“机器学习”课程已经有数百万人参加，成为机器学习入门的标准课程之一。他还创建了deeplearning.ai，致力于普及深度学习的知识。

David Silver

David Silver是英国伦敦大学学院的教授，他是DeepMind团队的创始成员之一，同时也是AlphaGo的核心设计者之一。在2013年，他开始研究将深度学习与强化学习相结合，这使得机器在更复杂的领域中具有了更强的表现力。他还在2016年发表的论文中介绍了著名的Deep Reinforcement Learning（DRL）算法，并在2019年获得了杰出的成就奖。他的代表作包括AlphaGo、AlphaZero、Atari Games等。

Pieter Abbeel

Pieter Abbeel是加州大学伯克利分校的教授，同时也是人工智能公司Covariant的联合创始人。他的研究方向包括机器学习、机器人学和控制论等。他在强化学习领域取得了一系列的突破，包括发明了一种新的强化学习算法，称为Trust Region Policy Optimization（TRPO），该算法已经被广泛应用于机器人控制和其他任务中。他的团队开发了一种被称为DeepMimic的算法，可以让机器人学习各种高级运动，如跳跃、滑翔和攀岩等。他还开发了一种名为CoRL（Conference on Robot Learning）的会议，该会议聚焦于机器人学习领域。

代表作：Apprenticeship Learning via Inverse Reinforcement Learning，DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills。

Sergey Levine

Sergey Levine是加州大学伯克利分校的教授，也是UC Berkeley的AI实验室的主任。他在强化学习领域的主要贡献是针对机器人学习的算法研究，如怎样让机器人在现实环境中学习、移动和交互。他提出的一种基于深度学习和强化学习的“行动者-评论家”（Actor-Critic）算法已经被广泛应用于机器人控制领域。他的代表作包括在机器人控制、自主导航等领域的研究工作，以及Flow、Spinning Up等强化学习库。

代表作：Deep Learning for Robotics，End-to-End Training of Deep Visuomotor Policies。

John Schulman

John Schulman是OpenAI的联合创始人之一，同时也是伯克利人工智能研究所（BAIR）的研究员。他在强化学习领域的主要贡献是开发出一种被称为TRPO（Trust Region Policy Optimization）的强化学习算法，该算法可以更稳定地学习复杂的机器人控制任务。他还是Gym开源项目的创始人之一，该项目为开发人员提供了一种用于评估和比较强化学习算法的平台。

代表作：Trust Region Policy Optimization，Proximal Policy Optimization Algorithms。

Marc Bellemare

Marc Bellemare是蒙特利尔大学的助理教授，同时也是Google Brain的研究员。他的研究重点在于开发新的强化学习算法，以及提高现有算法的表现。他在2013年发表了著名的Double DQN论文，提出了一种改进DQN算法的方法，大大提高了强化学习算法的稳定性。他的代表作还包括Rainbow、QR-DQN等强化学习算法。

其他代表人物：

Ian Goodfellow：加拿大蒙特利尔大学教授，GAN（生成对抗网络）的创始人之一，也是深度学习领域的知名专家。
Chelsea Finn：斯坦福大学助理教授，主要研究方向是强化学习、元学习和机器人学等，提出了Model-Agnostic Meta-Learning（MAML）算法等。
Marc Bellemare：蒙特利尔大学助理教授，主要研究方向是强化学习、深度学习和游戏AI等，提出了Double Q-Learning等算法。
Doina Precup：蒙特利尔大学教授，主要研究方向是机器学习和强化学习等，她的研究成果包括Autonomous Agents、Hierarchical Reinforcement Learning等。
Jian Peng：美国乔治亚理工学院助理教授，主要研究方向是深度学习和强化学习等，提出了Trust-PCL等算法，并应用于推荐系统和自然语言处理等领域。
Emma Brunskill：斯坦福大学副教授，主要研究方向是强化学习、教育技术和人工智能公平性等，她的研究成果包括逆强化学习、Bandit-Based Learning等。
Sham Kakade：华盛顿大学教授，主要研究方向是强化学习和统计学习等，提出了Optimistic Initial Values、Policy Gradient等算法。
Satinder Singh：密歇根大学教授，主要研究方向是强化学习和人工智能等，他的研究成果包括多智能体强化学习、协同机器人等。

强化学习研究机构：学术界

国外

伯克利： Sergey Levine,Pieter Abbeel, Dimitri Bertsekas, Emma Brunskill, Chelsea Finn
UCL： David Sliver(目前好像不指导学生了)、汪军老师等
Alberta：Richard Sutton老爷子、Dale, Michael Bowling, Csaba
MCGill: Doina, Joelle
Stanford：Benjamin Van Roy
莫斯科国立大学：NIPS比赛很强
巴黎Flowers Team：Intrinsic motivation方向
Oxford: Shimon Whiteson
Texas: Peter Stone
新加坡南洋理工大学：安波老师
莫斯科国立大学：NIPS比赛很强
巴黎Flowers Team：Intrinsic motivation方向
加拿大麦吉尔大学：推理与学习实验室
（Doina Precup和Joelle Pineau分别在DeepMind和FAIR Montreal工作）
加拿大U Alberta的增强学习和人工智能（Rich Sutton，Michael Bowling，Patrick Pilarski在DeepMind Edmonton任职；CsabaSzepesvári在DeepMind London任职）
强化学习和在线学习小组，英国伦敦帝国学院（马克·迪森罗思在http://Prowler.IO）
英国牛津大学白森研究实验室
法国里尔的Inria SequeL（Mohammad Ghavamzadeh，RémiMunos，Bilal Piot在DeepMind，Alessandro Lazaric在FAIR Paris，Olivier Pietquin在Google Brain）
Juergen Schmidhuber的小组，瑞士IDSIA（现为NNAISENSE）
谢恩·曼诺（Shie Mannor）在以色列Technio]的小组
Gergely Neu在UPF西班牙巴塞罗那举行
印度IIT-Madras的Balaraman Ravindran小组
加拿大多伦多大学/媒介研究所的Jimmy Ba的小组
加拿大媒介学会的阿米尔·马苏德·法拉赫曼德（Amir-Massoud Farahmand）的Alireza Makhzani

香港

香港中文大学：周博磊老师
香港中文大学（深圳）：Jim Dai、Hongyuan Zha、Baoxiang Wang

国内

清华大学：张崇洁老师、李升波老师等
北京大学：卢宗青老师等
南京大学：俞扬老师、高阳老师等
上海交通大学：张伟楠老师、俞凯老师
中国科学院：赵冬斌老师、张海峰老师等
天津大学：郝建业老师等
中科大：李厚强老师、周文罡老师、王杰老师、庄连生老师等
国防科技大学：徐昕老师
中科院深圳先进技术研究院: 崔允端老师(强化学习在自动驾驶、机器控制上的应用)

强化学习研究机构：工业界

国外

DeepMind(David Sliver, Marc G. Bellemare)
OpenAI(John Schulman)
FAIR（全方向）：知名的有田渊栋和Noam Brown等，大佬巨多
Google Brain（全方向）：大佬巨多
Salesforce Research

国内

腾讯AI Lab：游戏等；
百度PARL团队：自研框架+RL比赛
网易伏羲实验室：游戏；
字节跳动AI Lab：游戏、推荐；
地平线AI：RL+机器人、自动驾驶
滴滴：运筹优化；
阿里：推荐、运筹优化；
微软亚研院：Research，信息检索和搜索引擎；
华为诺亚方舟实验室：Research；
华为消费者BG自动驾驶解决方案BU：RL+自动驾驶
平安保险：强化学习+NLP；
快手AI Lab：游戏、检索；
Momenta：RL+自动驾驶
超参数科技：游戏；
启元世界
南栖仙策

强化学习主要代表人物和组织 ​

强化学习代表人物 ​

Richard Sutton ​

Andrew Ng ​

David Silver ​

Pieter Abbeel ​

Sergey Levine ​

John Schulman ​

Marc Bellemare ​

其他代表人物： ​

强化学习研究机构 ：学术界 ​

国外 ​

香港 ​

国内 ​

强化学习研究机构 ：工业界 ​