基于最小二乘截断时域差分学习的路径规划决策优化方法

导航：龙图腾网> 最新专利技术> 基于最小二乘截断时域差分学习的路径规划决策优化方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：中国人民解放军国防科技大学

摘要：本发明公开一种基于最小二乘截断时域差分学习的路径规划决策优化方法，步骤包括：S1.使用第一策略收集智能体与环境交互样本，并学习特征表示的基函数；S2.评价器使用执行器生成的第二策略收集智能体与环境交互样本，利用基函数获得样本特征，并利用投影均方贝尔曼误差作为截断指标，以控制采用最小二乘时域差分或线性时域差分进行参数更新，获取近似最优的策略评价器；S3.使用执行器生成的策略收集与环境交互样本，并利用基函数获得样本特征，使用步骤S2中评价器作为策略执行器的评价函数，得到控制策略输出；S4.按照得到的控制策略控制智能体进行路径规划。本发明具有实现方法简单、规划决策效率以及准确性高等优点。

主权项：1.一种基于最小二乘截断时域差分学习的路径规划决策优化方法，其特征在于，步骤包括：S1.基函数学习：使用第一策略收集智能体与环境交互过程中的状态、动作以及奖励，构成样本数据集，所述第一策略为初始策略或容许策略；根据所述样本数据集采用预训练的方式学习特征表示的基函数；S2.评价器学习：评价器使用执行器生成的第二策略收集智能体与环境交互过程中状态、动作的样本数据，利用所述基函数获得样本特征，并利用投影均方贝尔曼误差作为截断指标，以控制在策略评价的不同阶段采用最小二乘时域差分或线性时域差分进行参数更新，获取近似最优的策略评价器，所述投影贝尔曼误差根据所述样本数据集计算得到；S3.执行器学习：使用执行器生成的策略收集与环境交互样本，并利用所述基函数获得样本特征，使用步骤S2中评价器作为策略执行器的评价函数，得到控制策略输出；S4.路径规划：按照步骤S3得到的控制策略控制智能体进行路径规划；所述步骤S2中，按照下式计算所述投影贝尔曼均方误差以作为所述截断指标：式中，MSPBEw表示为评价器的参数w所对应的投影贝尔曼均方误差，表示期望计算公式，δ表示时域差分误差，为特征矩阵，其中每个向量对应于状态si的具体特征φsi，i＝1,2……,m，表示转置算符，Vw是以w为参数的近似状态值函数，Π是将任意值函数投影到表示空间上的投影算子，T为贝尔曼算子，D为权值对角矩阵；所述步骤S2中，利用投影均方贝尔曼误差作为截断指标按照以下方式截断：如果当前次计算得到的投影贝尔曼均方误差相较上一次计算得到的投影贝尔曼均方误差的上升幅度超过切换条件设置的预设判别阈值时，采用最小二乘时域差分方法进行评价器参数更新，否则采用线性时域差分方法进行评价器参数更新。

全文数据：

权利要求：

百度查询：中国人民解放军国防科技大学基于最小二乘截断时域差分学习的路径规划决策优化方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：数据驱动的需求侧负荷预测与不确定性估计方法及系统

下一篇：基于私有传输协议的文件传输方法、装置和存储介质

相关技术

数据驱动的需求侧负荷预测与不确定性估计方法及系统

基于私有传输协议的文件传输方法、装置和存储介质

一种高取代氟化壳聚糖及其制备方法

一种公路深层病害双组分高聚物抽拔注浆加固装置及方法

一种可自动充电的分体式移动充电桩及其方法

钢包上水口拆卸装置

一种基于鱼、鸭综合控制水体满江红的方法

核酸探针及利用核酸探针进行DNA检测的方法

站隧合建宽大基坑桩撑一体化支护结构

一种装饰条连接件与立柱压板的连接工艺

一种头戴式呼吸机

一种马铃薯繁育脱毒装置及脱毒方法

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于最小二乘截断时域差分学习的路径规划决策优化方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务