随着无线移动通信的不断发展, 用户激增的内容需求与有限无线网络资源之间的矛盾日益加剧。利用设备到设备(device-to-device, D2D)通信实现边缘节点间缓存内容的共享, 可以改善用户体验质量并减轻核心网络的流量负担。针对节点缓存空间受限的场景, 考虑交互成本及个体理性等因素将协作缓存问题建模成合作博弈, 实现系统效用的优化。根据节点间效用是否可转移, 分类讨论两种情况下的合作博弈:在效用可转移(Transferable Utility, TU)博弈下, 推导出节点形成稳定大联盟的条件;在效用不可转移(Non-Transferable Utility, NTU)博弈下, 考虑到理性节点无法确保形成稳定的大联盟,且联盟的数量随用户数剧增。因此,提出一种基于深度强化学习的联盟形成算法在有限时间内保证节点间稳定联盟的形成。理论分析和仿真结果表明, 所提出的联盟形成算法能收敛于纳什稳定最优解或者渐进最优解, 性能上优于其他对比算法。