北京邮电大学学报

  • EI核心期刊

北京邮电大学学报 ›› 2011, Vol. 34 ›› Issue (2): 31-34.doi: 10.13190/jbupt.201102.31.chenxs

• 论文 • 上一篇    下一篇

改进的模糊Sarsa学习

陈学松1,2,杨宜民2   

  1. 1.广东工业大学 应用数学学院, 广州 510006; 2. 广东工业大学 自动化学院, 广州 510090
  • 收稿日期:2010-04-17 修回日期:2010-12-06 出版日期:2011-04-30 发布日期:2011-04-28
  • 通讯作者: 陈学松 E-mail:chenxs@gdut.edu.cn
  • 基金资助:

    国家自然科学基金项目(60974019);广东省自然科学基金项目(9451009001002686)

An Improved Fuzzy Sarsa Learning

Xue-Song CHEN   

  • Received:2010-04-17 Revised:2010-12-06 Online:2011-04-30 Published:2011-04-28
  • Contact: Xue-Song CHEN E-mail:chenxs@gdut.edu.cn
  • Supported by:

    National Natural Science Foundation of China

摘要:

为了解决模糊Sarsa学习(FSL)无法在线自适应调节学习因子和不能处理学习过程中探索与利用的平衡问题,提出了一种改进的模糊Sarsa学习(IFSL)算法. 在FSL基础上,引入自适应学习率产生器来在线调节学习因子,增加模糊平衡器控制探索和利用的程度. 给出了IFSL的结构框图,证明了IFSL中可调节权向量具有平衡不动点. 仿真结果表明,与FSL相比,IFSL能加快系统的学习收敛速度,具有较好的学习性能.

关键词: 强化学习, 模糊控制, 模糊Sarsa学习, 探索, 利用

Abstract:

It is difficult for fuzzy Sarsa learning(FSL) to tune learning rate and balance exploration vs. exploitation, so an improved FSL(IFSL) method based on FSL is presented. In the method, an adaptive learning rate generator for tuning learning rate online and a fuzzy balancer for controlling the degree of exploration vs. exploitation are introduced. The diagram of IFSL is given, and the weight vector of IFSL with stationary action selection policy converges to a unique value is proved. Simulation results show that IFSL well manager balance, and outperforms FSL in terms of learning speed and action quality.

Key words: reinforcement learning, fuzzy control, fuzzy Sarsa learning, exploration, exploitation