Skip to content

强化学习主要代表人物和组织

强化学习代表人物

Richard Sutton

Richard Sutton是加拿大阿尔伯塔大学的教授,也是强化学习领域的奠基人之一。他的主要研究方向包括强化学习、机器学习和人工智能。他是Temporal Difference学习算法的创始人之一,也是SARSA算法和函数逼近强化学习的奠基人之一, 这些算法已被广泛应用于强化学习中。他与Andrew Barto合作写作的《Reinforcement Learning: An Introduction》一书是该领域的经典著作,该书介绍了强化学习的基本原理和方法,被广泛认为是强化学习的标准教材之一。

Andrew Ng

Andrew Ng是斯坦福大学计算机科学系的教授,同时也是谷歌前副总裁和百度的首席科学家。他是机器学习和人工智能领域的知名专家,也是在线课程平台Coursera的联合创始人。他在Coursera上推出的“机器学习”课程已经有数百万人参加,成为机器学习入门的标准课程之一。他还创建了deeplearning.ai,致力于普及深度学习的知识。

David Silver

David Silver是英国伦敦大学学院的教授,他是DeepMind团队的创始成员之一,同时也是AlphaGo的核心设计者之一。在2013年,他开始研究将深度学习与强化学习相结合,这使得机器在更复杂的领域中具有了更强的表现力。他还在2016年发表的论文中介绍了著名的Deep Reinforcement Learning(DRL)算法,并在2019年获得了杰出的成就奖。他的代表作包括AlphaGo、AlphaZero、Atari Games等。

Pieter Abbeel

Pieter Abbeel是加州大学伯克利分校的教授,同时也是人工智能公司Covariant的联合创始人。他的研究方向包括机器学习、机器人学和控制论等。他在强化学习领域取得了一系列的突破,包括发明了一种新的强化学习算法,称为Trust Region Policy Optimization(TRPO),该算法已经被广泛应用于机器人控制和其他任务中。他的团队开发了一种被称为DeepMimic的算法,可以让机器人学习各种高级运动,如跳跃、滑翔和攀岩等。他还开发了一种名为CoRL(Conference on Robot Learning)的会议,该会议聚焦于机器人学习领域。

代表作:Apprenticeship Learning via Inverse Reinforcement Learning,DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills。

Sergey Levine

Sergey Levine是加州大学伯克利分校的教授,也是UC Berkeley的AI实验室的主任。他在强化学习领域的主要贡献是针对机器人学习的算法研究,如怎样让机器人在现实环境中学习、移动和交互。他提出的一种基于深度学习和强化学习的“行动者-评论家”(Actor-Critic)算法已经被广泛应用于机器人控制领域。他的代表作包括在机器人控制、自主导航等领域的研究工作,以及Flow、Spinning Up等强化学习库。

代表作:Deep Learning for Robotics,End-to-End Training of Deep Visuomotor Policies。

John Schulman

John Schulman是OpenAI的联合创始人之一,同时也是伯克利人工智能研究所(BAIR)的研究员。他在强化学习领域的主要贡献是开发出一种被称为TRPO(Trust Region Policy Optimization)的强化学习算法,该算法可以更稳定地学习复杂的机器人控制任务。他还是Gym开源项目的创始人之一,该项目为开发人员提供了一种用于评估和比较强化学习算法的平台。

代表作:Trust Region Policy Optimization,Proximal Policy Optimization Algorithms。

Marc Bellemare

Marc Bellemare是蒙特利尔大学的助理教授,同时也是Google Brain的研究员。他的研究重点在于开发新的强化学习算法,以及提高现有算法的表现。他在2013年发表了著名的Double DQN论文,提出了一种改进DQN算法的方法,大大提高了强化学习算法的稳定性。他的代表作还包括Rainbow、QR-DQN等强化学习算法。

其他代表人物:

  1. Ian Goodfellow:加拿大蒙特利尔大学教授,GAN(生成对抗网络)的创始人之一,也是深度学习领域的知名专家。

  2. Chelsea Finn:斯坦福大学助理教授,主要研究方向是强化学习、元学习和机器人学等,提出了Model-Agnostic Meta-Learning(MAML)算法等。

  3. Marc Bellemare:蒙特利尔大学助理教授,主要研究方向是强化学习、深度学习和游戏AI等,提出了Double Q-Learning等算法。

  4. Doina Precup:蒙特利尔大学教授,主要研究方向是机器学习和强化学习等,她的研究成果包括Autonomous Agents、Hierarchical Reinforcement Learning等。

  5. Jian Peng:美国乔治亚理工学院助理教授,主要研究方向是深度学习和强化学习等,提出了Trust-PCL等算法,并应用于推荐系统和自然语言处理等领域。

  6. Emma Brunskill:斯坦福大学副教授,主要研究方向是强化学习、教育技术和人工智能公平性等,她的研究成果包括逆强化学习、Bandit-Based Learning等。

  7. Sham Kakade:华盛顿大学教授,主要研究方向是强化学习和统计学习等,提出了Optimistic Initial Values、Policy Gradient等算法。

  8. Satinder Singh:密歇根大学教授,主要研究方向是强化学习和人工智能等,他的研究成果包括多智能体强化学习、协同机器人等。

强化学习研究机构 :学术界

国外

  • 伯克利: Sergey Levine,Pieter Abbeel, Dimitri Bertsekas, Emma Brunskill, Chelsea Finn
  • UCL: David Sliver(目前好像不指导学生了)、汪军老师等
  • Alberta:Richard Sutton老爷子、Dale, Michael Bowling, Csaba
  • MCGill: Doina, Joelle
  • Stanford:Benjamin Van Roy
  • 莫斯科国立大学:NIPS比赛很强
  • 巴黎Flowers Team:Intrinsic motivation方向
  • Oxford: Shimon Whiteson
  • Texas: Peter Stone
  • 新加坡南洋理工大学:安波老师
  • 莫斯科国立大学:NIPS比赛很强
  • 巴黎Flowers Team:Intrinsic motivation方向
  • 加拿大麦吉尔大学: 推理与学习实验室
  • (Doina Precup和Joelle Pineau分别在DeepMind和FAIR Montreal工作)
  • 加拿大U Alberta的增强学习和人工智能(Rich Sutton,Michael Bowling,Patrick Pilarski在DeepMind Edmonton任职;CsabaSzepesvári在DeepMind London任职)
  • 强化学习和在线学习小组,英国伦敦帝国学院(马克·迪森罗思在http://Prowler.IO
  • 英国牛津大学白森研究实验室
  • 法国里尔的Inria SequeL(Mohammad Ghavamzadeh,RémiMunos,Bilal Piot在DeepMind,Alessandro Lazaric在FAIR Paris,Olivier Pietquin在Google Brain)
  • Juergen Schmidhuber的小组,瑞士IDSIA(现为NNAISENSE)
  • 谢恩·曼诺(Shie Mannor)在以色列Technio]的小组
  • Gergely Neu在UPF西班牙巴塞罗那举行
  • 印度IIT-Madras的Balaraman Ravindran小组
  • 加拿大多伦多大学/媒介研究所的Jimmy Ba的小组
  • 加拿大媒介学会的阿米尔·马苏德·法拉赫曼德(Amir-Massoud Farahmand)的Alireza Makhzani

香港

国内

  • 清华大学:张崇洁老师、李升波老师等
  • 北京大学:卢宗青老师等
  • 南京大学: 俞扬老师、高阳老师等
  • 上海交通大学: 张伟楠老师、俞凯老师
  • 中国科学院: 赵冬斌老师、张海峰老师等
  • 天津大学:郝建业老师等
  • 中科大: 李厚强老师、周文罡老师、王杰老师、庄连生老师等
  • 国防科技大学: 徐昕老师
  • 中科院深圳先进技术研究院: 崔允端老师(强化学习在自动驾驶、机器控制上的应用)

强化学习研究机构 :工业界

国外

  • DeepMind(David Sliver, Marc G. Bellemare)
  • OpenAI(John Schulman)
  • FAIR(全方向):知名的有田渊栋和Noam Brown等,大佬巨多
  • Google Brain(全方向):大佬巨多
  • Salesforce Research

国内

  • 腾讯AI Lab:游戏等;
  • 百度PARL团队:自研框架+RL比赛
  • 网易伏羲实验室:游戏;
  • 字节跳动AI Lab:游戏、推荐;
  • 地平线AI:RL+机器人、自动驾驶
  • 滴滴:运筹优化;
  • 阿里:推荐、运筹优化;
  • 微软亚研院:Research,信息检索和搜索引擎;
  • 华为诺亚方舟实验室:Research;
  • 华为消费者BG自动驾驶解决方案BU:RL+自动驾驶
  • 平安保险:强化学习+NLP;
  • 快手AI Lab:游戏、检索;
  • Momenta:RL+自动驾驶
  • 超参数科技:游戏;
  • 启元世界
  • 南栖仙策

Maintained by Robin