改进的模糊Sarsa学习

doi:10.13190/jbupt.201102.31.chenxs

北京邮电大学学报 ›› 2011, Vol. 34 ›› Issue (2): 31-34.doi: 10.13190/jbupt.201102.31.chenxs

改进的模糊Sarsa学习

陈学松^1,2,杨宜民²

1.广东工业大学应用数学学院, 广州 510006; 2. 广东工业大学自动化学院, 广州 510090

收稿日期:2010-04-17 修回日期:2010-12-06 出版日期:2011-04-30 发布日期:2011-04-28
通讯作者: 陈学松 E-mail:chenxs@gdut.edu.cn
基金资助:
国家自然科学基金项目(60974019)；广东省自然科学基金项目(9451009001002686)

An Improved Fuzzy Sarsa Learning

Xue-Song CHEN

Received:2010-04-17 Revised:2010-12-06 Online:2011-04-30 Published:2011-04-28
Contact: Xue-Song CHEN E-mail:chenxs@gdut.edu.cn
Supported by:
National Natural Science Foundation of China

摘要/Abstract

摘要：

为了解决模糊Sarsa学习(FSL)无法在线自适应调节学习因子和不能处理学习过程中探索与利用的平衡问题，提出了一种改进的模糊Sarsa学习(IFSL)算法. 在FSL基础上，引入自适应学习率产生器来在线调节学习因子，增加模糊平衡器控制探索和利用的程度. 给出了IFSL的结构框图，证明了IFSL中可调节权向量具有平衡不动点. 仿真结果表明，与FSL相比，IFSL能加快系统的学习收敛速度，具有较好的学习性能.

关键词: 强化学习, 模糊控制, 模糊Sarsa学习, 探索, 利用

Abstract:

It is difficult for fuzzy Sarsa learning(FSL) to tune learning rate and balance exploration vs. exploitation, so an improved FSL(IFSL) method based on FSL is presented. In the method, an adaptive learning rate generator for tuning learning rate online and a fuzzy balancer for controlling the degree of exploration vs. exploitation are introduced. The diagram of IFSL is given, and the weight vector of IFSL with stationary action selection policy converges to a unique value is proved. Simulation results show that IFSL well manager balance, and outperforms FSL in terms of learning speed and action quality.

Key words: reinforcement learning, fuzzy control, fuzzy Sarsa learning, exploration, exploitation

陈学松,杨宜民. 改进的模糊Sarsa学习[J]. 北京邮电大学学报, 2011, 34(2): 31-34.

Xue-Song CHEN. An Improved Fuzzy Sarsa Learning[J]. JOURNAL OF BEIJING UNIVERSITY OF POSTS AND TELECOM, 2011, 34(2): 31-34.

[1]	刘阳, 滕颖蕾, 牛涛, 郅佳琳. 基于深度强化学习的滤波器剪枝方案[J]. 北京邮电大学学报, 2023, 46(3): 31-36.
[2]	谭炜骞, 吴斌伟, 汪硕. 确定性网络跨域传输架构与DRL流量调度算法[J]. 北京邮电大学学报, 2023, 46(3): 37-42.
[3]	杨华, 耿烜, 孔宁. 一种采用dueling-DDQN算法的无线网络MAC协议[J]. 北京邮电大学学报, 2023, 46(3): 25-30.
[4]	孙国玮许方敏朱瑾瑜张恒升赵成林. 算力网络中的确定性调度与路由联合智能优化方案[J]. 北京邮电大学学报, 2023, 46(2): 9-14.
[5]	公雨魏翼飞. 一种集成学习辅助DDPG的资源优化算法[J]. 北京邮电大学学报, 2023, 46(2): 29-36.
[6]	郭兴康孙君. 基于交替方向乘子法与深度强化学习算法的资源分配[J]. 北京邮电大学学报, 2022, 45(6): 126-130.
[7]	郭令奇褚智贤廖建新王敬宇陆璐. 意图驱动的自智网络资源按需服务[J]. 北京邮电大学学报, 2022, 45(6): 85-91.
[8]	陈峻磊刘凯俊董辰周虹媛. 一种基于无线网络场景的自适应比特率算法模型[J]. 北京邮电大学学报, 2022, 45(5): 115-120.
[9]	郅佳琳, 王楠, 满毅, 滕颖蕾. 面向硬件感知的边缘计算卸载和资源分配[J]. 北京邮电大学学报, 2022, 45(2): 22-28.
[10]	杜梅, 周军华, 李敦桥, 陈士钊, 魏翼飞. MEC计算卸载与资源分配联合智能优化方案[J]. 北京邮电大学学报, 2022, 45(2): 65-71.
[11]	杨灿, 罗涛, 刘颖, 李泽旭, 徐永庆. 面向QoS需求的分簇自组织网络路由算法[J]. 北京邮电大学学报, 2022, 45(1): 1-6.
[12]	黄浩, 胡智群, 王鲁晗, 路兆铭, 温向明. 基于Sumtree DDPG的智能交通信号控制算法[J]. 北京邮电大学学报, 2021, 44(1): 97-103.
[13]	管婉青, 张海君, 路兆铭. 基于DRL的6G多租户网络切片智能资源分配算法[J]. 北京邮电大学学报, 2020, 43(6): 132-139.
[14]	马庆刘, 喻鹏, 吴佳慧, 熊翱, 颜拥. 基于深度强化学习的综合能源业务通道优化机制[J]. 北京邮电大学学报, 2020, 43(2): 87-93.
[15]	刘金华, 柯钟鸣, 周文辉. 基于强化学习的微电网能源调度策略及优化[J]. 北京邮电大学学报, 2020, 43(1): 28-34.

改进的模糊Sarsa学习

An Improved Fuzzy Sarsa Learning

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价