恭喜昆明理工大学;云南省交通科学研究院有限公司陈峥获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜昆明理工大学;云南省交通科学研究院有限公司申请的专利一种在混合交通流环境下基于混合深度强化学习的端到端车群协同决策方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119294437B 。
龙图腾网通过国家知识产权局官网在2025-03-14发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411813468.2,技术领域涉及:G06N3/006;该发明授权一种在混合交通流环境下基于混合深度强化学习的端到端车群协同决策方法是由陈峥;陈博闻;张开文;杨韵可;夏雪磊;申江卫;沈世全;郭凤香设计研发完成,并于2024-12-11向国家知识产权局提交的专利申请。
本一种在混合交通流环境下基于混合深度强化学习的端到端车群协同决策方法在说明书摘要公布了:本发明涉及智能交通技术领域,且公开了一种在混合交通流环境下基于混合深度强化学习的端到端车群协同决策方法。该方法通过设计了一种针对复杂交通场景的图结构建模方法,从底层实现了交通参与者之间的通信机制,其次,本发明基于图卷积方法的时空编码器实现了对环境观测中时空信息的有效嵌入,为系统理解环境中的时空耦合信息实现了前提条件,最后,将actor‑critic架构与Q学习架构深度耦合,构建了一种新型的适用于混合动作空间的强化学习方法,基于该方法完成模型训练后,可通过保存与加载模型参数实现模型的部署,部署完成的模型可通过输入环境观测数据从而输出被控车群的协同决策。
本发明授权一种在混合交通流环境下基于混合深度强化学习的端到端车群协同决策方法在权利要求书中公布了:1.一种在混合交通流环境下基于混合深度强化学习的端到端车群协同决策方法,其特征在于:包括以下步骤:S1、建立双层网络图结构用于表征混合交通流的通信机制,包括了智能体与智能体之间的通信连接和智能体与人类驾驶车辆之间的通信连接;S2、构建时空编码器,用于将步骤S1中的双层网络图结构产生的环境观测划分为离散型观测与连续型观测,并将连续型观测输入批归一化层后整合为增广张量输入长短时记忆层与图卷积层实现时间卷积与空间卷积,之后通过全局平均池化与丢弃层获取时空卷积后的两种降维化张量;S3、基于步骤S2中的时空编码器作为深度图网络的基本浅层结构,并通过掩码根据环境中交通参与者是否存在对输出进行正则化,具体表达式如下:y=fM⊙x其中,y表示输出层的输出张量,fM⊙x表示对输出层的输入与掩码进行Hadamard积得到正则化后的输出,M表示掩码矩阵,x表示输出层的输入张量;S4、构建多智能体混合深度强化学习模型,为不同类型的智能体分别构建不同的基本图卷积网络作为actor子网络,每一个actor子网络输出所对应智能体的连续型动作与离散型动作,构建所有智能体共享的广义Q网络,其对离散型动作和连续型动作进行评估,让多智能体混合深度强化学习模型学习最大奖励的动作;S5、构建混合探索与利用策略;所述步骤S5具体过程如下:S5.1、在探索过程中针对离散型动作,采用ε-greedy策略比较动作的Q值分布,获取随机数ε判断落入的概率域是否需要探索新动作,如需探索新动作则从离散动作空间中随机选取动作,反之则获取最大Q值所对应的动作,针对连续型动作则通过Ornstein-Uhlenbeckprocess施加正态噪声来探索动作-奖励元组;S5.2、在利用过程中,针对离散型动作,选取Q值分布中最大值所对应的动作,针对连续型动作,则不施加噪声,直接利用actor子网络的动作;S6、对多智能体混合深度强化学习模型进行迭代训练;S7、保存训练完成的模型权重参数,通过重载参数,实现模型的在线部署,输入环境观测即可输出车群的协同决策。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人昆明理工大学;云南省交通科学研究院有限公司,其通讯地址为:650500 云南省昆明市呈贡区景明南路727号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。