强化学习主要代表人物和组织
强化学习代表人物
Richard Sutton
Richard Sutton是加拿大阿尔伯塔大学的教授,也是强化学习领域的奠基人之一。他的主要研究方向包括强化学习、机器学习和人工智能。他是Temporal Difference学习算法的创始人之一,也是SARSA算法和函数逼近强化学习的奠基人之一, 这些算法已被广泛应用于强化学习中。他与Andrew Barto合作写作的《Reinforcement Learning: An Introduction》一书是该领域的经典著作,该书介绍了强化学习的基本原理和方法,被广泛认为是强化学习的标准教材之一。
Andrew Ng
Andrew Ng是斯坦福大学计算机科学系的教授,同时也是谷歌前副总裁和百度的首席科学家。他是机器学习和人工智能领域的知名专家,也是在线课程平台Coursera的联合创始人。他在Coursera上推出的“机器学习”课程已经有数百万人参加,成为机器学习入门的标准课程之一。他还创建了deeplearning.ai,致力于普及深度学习的知识。
David Silver
David Silver是英国伦敦大学学院的教授,他是DeepMind团队的创始成员之一,同时也是AlphaGo的核心设计者之一。在2013年,他开始研究将深度学习与强化学习相结合,这使得机器在更复杂的领域中具有了更强的表现力。他还在2016年发表的论文中介绍了著名的Deep Reinforcement Learning(DRL)算法,并在2019年获得了杰出的成就奖。他的代表作包括AlphaGo、AlphaZero、Atari Games等。
Pieter Abbeel
Pieter Abbeel是加州大学伯克利分校的教授,同时也是人工智能公司Covariant的联合创始人。他的研究方向包括机器学习、机器人学和控制论等。他在强化学习领域取得了一系列的突破,包括发明了一种新的强化学习算法,称为Trust Region Policy Optimization(TRPO),该算法已经被广泛应用于机器人控制和其他任务中。他的团队开发了一种被称为DeepMimic的算法,可以让机器人学习各种高级运动,如跳跃、滑翔和攀岩等。他还开发了一种名为CoRL(Conference on Robot Learning)的会议,该会议聚焦于机器人学习领域。
代表作:Apprenticeship Learning via Inverse Reinforcement Learning,DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills。
Sergey Levine
Sergey Levine是加州大学伯克利分校的教授,也是UC Berkeley的AI实验室的主任。他在强化学习领域的主要贡献是针对机器人学习的算法研究,如怎样让机器人在现实环境中学习、移动和交互。他提出的一种基于深度学习和强化学习的“行动者-评论家”(Actor-Critic)算法已经被广泛应用于机器人控制领域。他的代表作包括在机器人控制、自主导航等领域的研究工作,以及Flow、Spinning Up等强化学习库。
代表作:Deep Learning for Robotics,End-to-End Training of Deep Visuomotor Policies。
John Schulman
John Schulman是OpenAI的联合创始人之一,同时也是伯克利人工智能研究所(BAIR)的研究员。他在强化学习领域的主要贡献是开发出一种被称为TRPO(Trust Region Policy Optimization)的强化学习算法,该算法可以更稳定地学习复杂的机器人控制任务。他还是Gym开源项目的创始人之一,该项目为开发人员提供了一种用于评估和比较强化学习算法的平台。
代表作:Trust Region Policy Optimization,Proximal Policy Optimization Algorithms。
Marc Bellemare
Marc Bellemare是蒙特利尔大学的助理教授,同时也是Google Brain的研究员。他的研究重点在于开发新的强化学习算法,以及提高现有算法的表现。他在2013年发表了著名的Double DQN论文,提出了一种改进DQN算法的方法,大大提高了强化学习算法的稳定性。他的代表作还包括Rainbow、QR-DQN等强化学习算法。
其他代表人物:
Ian Goodfellow:加拿大蒙特利尔大学教授,GAN(生成对抗网络)的创始人之一,也是深度学习领域的知名专家。
Chelsea Finn:斯坦福大学助理教授,主要研究方向是强化学习、元学习和机器人学等,提出了Model-Agnostic Meta-Learning(MAML)算法等。
Marc Bellemare:蒙特利尔大学助理教授,主要研究方向是强化学习、深度学习和游戏AI等,提出了Double Q-Learning等算法。
Doina Precup:蒙特利尔大学教授,主要研究方向是机器学习和强化学习等,她的研究成果包括Autonomous Agents、Hierarchical Reinforcement Learning等。
Jian Peng:美国乔治亚理工学院助理教授,主要研究方向是深度学习和强化学习等,提出了Trust-PCL等算法,并应用于推荐系统和自然语言处理等领域。
Emma Brunskill:斯坦福大学副教授,主要研究方向是强化学习、教育技术和人工智能公平性等,她的研究成果包括逆强化学习、Bandit-Based Learning等。
Sham Kakade:华盛顿大学教授,主要研究方向是强化学习和统计学习等,提出了Optimistic Initial Values、Policy Gradient等算法。
Satinder Singh:密歇根大学教授,主要研究方向是强化学习和人工智能等,他的研究成果包括多智能体强化学习、协同机器人等。
强化学习研究机构 :学术界
国外
- 伯克利: Sergey Levine,Pieter Abbeel, Dimitri Bertsekas, Emma Brunskill, Chelsea Finn
- UCL: David Sliver(目前好像不指导学生了)、汪军老师等
- Alberta:Richard Sutton老爷子、Dale, Michael Bowling, Csaba
- MCGill: Doina, Joelle
- Stanford:Benjamin Van Roy
- 莫斯科国立大学:NIPS比赛很强
- 巴黎Flowers Team:Intrinsic motivation方向
- Oxford: Shimon Whiteson
- Texas: Peter Stone
- 新加坡南洋理工大学:安波老师
- 莫斯科国立大学:NIPS比赛很强
- 巴黎Flowers Team:Intrinsic motivation方向
- 加拿大麦吉尔大学: 推理与学习实验室
- (Doina Precup和Joelle Pineau分别在DeepMind和FAIR Montreal工作)
- 加拿大U Alberta的增强学习和人工智能(Rich Sutton,Michael Bowling,Patrick Pilarski在DeepMind Edmonton任职;CsabaSzepesvári在DeepMind London任职)
- 强化学习和在线学习小组,英国伦敦帝国学院(马克·迪森罗思在http://Prowler.IO)
- 英国牛津大学白森研究实验室
- 法国里尔的Inria SequeL(Mohammad Ghavamzadeh,RémiMunos,Bilal Piot在DeepMind,Alessandro Lazaric在FAIR Paris,Olivier Pietquin在Google Brain)
- Juergen Schmidhuber的小组,瑞士IDSIA(现为NNAISENSE)
- 谢恩·曼诺(Shie Mannor)在以色列Technio]的小组
- Gergely Neu在UPF西班牙巴塞罗那举行
- 印度IIT-Madras的Balaraman Ravindran小组
- 加拿大多伦多大学/媒介研究所的Jimmy Ba的小组
- 加拿大媒介学会的阿米尔·马苏德·法拉赫曼德(Amir-Massoud Farahmand)的Alireza Makhzani
香港
- 香港中文大学:周博磊老师
- 香港中文大学(深圳):Jim Dai、Hongyuan Zha、Baoxiang Wang
国内
- 清华大学:张崇洁老师、李升波老师等
- 北京大学:卢宗青老师等
- 南京大学: 俞扬老师、高阳老师等
- 上海交通大学: 张伟楠老师、俞凯老师
- 中国科学院: 赵冬斌老师、张海峰老师等
- 天津大学:郝建业老师等
- 中科大: 李厚强老师、周文罡老师、王杰老师、庄连生老师等
- 国防科技大学: 徐昕老师
- 中科院深圳先进技术研究院: 崔允端老师(强化学习在自动驾驶、机器控制上的应用)
强化学习研究机构 :工业界
国外
- DeepMind(David Sliver, Marc G. Bellemare)
- OpenAI(John Schulman)
- FAIR(全方向):知名的有田渊栋和Noam Brown等,大佬巨多
- Google Brain(全方向):大佬巨多
- Salesforce Research
国内
- 腾讯AI Lab:游戏等;
- 百度PARL团队:自研框架+RL比赛
- 网易伏羲实验室:游戏;
- 字节跳动AI Lab:游戏、推荐;
- 地平线AI:RL+机器人、自动驾驶
- 滴滴:运筹优化;
- 阿里:推荐、运筹优化;
- 微软亚研院:Research,信息检索和搜索引擎;
- 华为诺亚方舟实验室:Research;
- 华为消费者BG自动驾驶解决方案BU:RL+自动驾驶
- 平安保险:强化学习+NLP;
- 快手AI Lab:游戏、检索;
- Momenta:RL+自动驾驶
- 超参数科技:游戏;
- 启元世界
- 南栖仙策