摘要: 算力网络(CFN)将异质算力信息和网络融合,提高了资源利用率和网络传输效率,时间敏感网络(TSN)保证了传输的低时延高可靠性能,二者融合可以实现高效率的确定性转发。一体化决策CFN中的资源调度和路由规划以及TSN中的门控排布会出现决策变量过多、计算复杂度过高、优化性能不足等问题。针对以上问题,提出了一个根据IEEE 802.1Qbv做门控排布和算力网络路由规划、算力资源调度的融合架构。基于深度强化学习提出了改进后的RBDQN(reward-back deep Q-learning)算法优化门控,并采用贪婪算法协助路由路径规划。算法以平均时延、能量损耗和用户满意度为多优化指标建立效用函数。仿真结果表明,相比于遗传算法,RBDQN能够把小规模调度问题收敛时间降低1倍以上,针对多业务、多节点的算力网络问题能够将收敛时间降低数十倍。同时,算法能够避免模型陷入局部最优,相比于传统DQN,决策结果将效用函数指标性能提升超过10%,相同指标下的收敛时间下降约50%。
中图分类号: