学术信息

首页

学术报告:稳态方差准则的马氏决策过程与强化学习

  报告时间:2021年5月14日(星期五)15:30-17:30

  报告地点:北辰校区土木与交通学院楼二楼216学术报告厅

  报告题目:稳态方差准则的马氏决策过程与强化学习

  报告嘉宾:夏俐 教授

图片 1.jpg

  嘉宾简介:

  夏俐,教授,博士导师,中山大学。长期从事随机动态系统的学习优化、马氏决策过程、强化学习、排队论、博弈论等理论研究,以及在能源系统、智能建筑、金融科技、计算机网络等领域的应用研究工作。分别于2002年和2007年在清华大学自动化系获得学士和博士学位,博士毕业后分别在IBM中国研究院、沙特国王科技大学从事科研工作,2011年至2019在清华大学自动化系工作,2019年进入中山大学管理学院。以访问学者身份在香港科技大学电子与计算机工程系、美国斯坦福大学管理科学与工程系等从事合作研究。在本领域顶级期刊发表论文20余篇,并获得多项美国和中国专利。担任IEEE Transactions on Automation Science and Engineering、Discrete Event Dynamic Systems等期刊编委。


  报告摘要:

  随着AlphaGo的成功应用,强化学习(Reinforcement Learning, RL)得到了学术界和工业界的日益重视。强化学习的理论基础是马氏决策过程(Markov Decision Process, MDP)。目前绝大多数的RL都是研究优化折扣累积报酬值的数学期望,无法处理方差等风险指标。本报告将主要介绍作者近几年在马氏决策过程的稳态方差最小化优化问题的理论研究成果,稳态方差不同于MDP以往文献中已经研究过的折扣累积报酬值的方差,稳态方差是衡量MDP到达稳态之后的系统报酬值的方差,能够衡量随机动态系统的风险、稳定性、公平性、可靠性等。由于方差指标的二次费用函数形式依赖于具体策略,费用函数不具有马氏性,优化随机系统的稳态方差不是一个标准MDP问题,经典动态规划原理不再适用。我们从性能灵敏度的新角度研究这一问题,得到了一些新的理论结果,进而将MDP理论研究结果实现为数据驱动的风险敏感强化学习算法,应用于风电与储能系统联合出力的波动性抑制问题,来平滑风电出力的波动性,提高风电利用率。该方法还可应用于金融系统风险管理、服务系统公平性优化等领域。