一种基于Kernel采样策略在不确定性环境下的在线规划方法

导航：龙图腾网> 最新专利技术> 一种基于Kernel采样策略在不确定性环境下的在线规划方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：福州大学

摘要：本发明提出一种基于Kernel采样策略在不确定性环境下的在线规划方法，用于对机器人执行任务时的规划，在该不确定性环境中，表示为POMDP模型的不确定性是制约机器人可靠运行的主因；所述POMDP模型中，机器人可观测自身的部分状态，机器人通过不断的与环境进行交互来获得回报最大的策略；在所述在线规划方法中，处理可观测部分时，把机器人的状态表示为一个信念，记为belief，其属于一个状态的集合，以POMDP算法通过构建信念树的方式执行前向搜索，以此来获得当前信念下的最优策略；所述信念树的每一个节点代表一个信念，父节点与子节点通过行为‑观测分支连接；所述POMDP算法是在线POMDP规划算法Kernel‑DESPOT；本发明算法性能优于DESPOT和POMCP，在收敛速度以及质量上具有优势。

主权项：1.一种基于Kernel采样策略在不确定性环境下的在线规划方法，用于对机器人在不确定性环境下执行任务时的规划，其特征在于：在该不确定性环境中，表示为POMDP模型的不确定性是制约机器人可靠运行的主因；所述POMDP模型中，机器人可观测自身的部分状态，机器人通过不断的与环境进行交互来获得回报最大的策略；在所述在线规划方法中，处理可观测部分时，把机器人的状态表示为一个信念，记为belief，其属于一个状态的集合，以POMDP算法通过构建信念树的方式执行前向搜索，以此来获得当前信念下的最优策略；所述信念树的每一个节点代表一个信念，父节点与子节点通过行为-观测分支连接；所述POMDP算法是在线POMDP规划算法Kernel-DESPOT，包括以下步骤；步骤S1、在机器人当前信念空间b中，依据Kernel采样策略采样K个状态构建采样状态集合Φb，并对每一个状态进行权重的分配；步骤S2、通过Kernel-DESPOT算法以b作为根节点构建信念树D；步骤S3、初始化机器人当前信念b经验价值的上界Ub和下界Lb，以及RK-WDU最优价值V*b的上界μb和下界lb；步骤S4、定义机器人当前信念的不确定性为εb←μb-lb；步骤S5、如果不确定性εb大于理想值并且算法的总运行时间小于Tmax，则对根节点b0进行扩展；步骤S6、当信念树停止扩展时，执行BACKUPD,b；在BACKUPD,b执行完毕之后，会更新根节点的不确定性εb，重新判断不确定性是否小于ò0或者运行时间是否大于Tmax，如果条件满足，则Kernel-DESPOT算法返回b的lb值；步骤S7、最终对于根节点b，算法会选择一个最优行为a*使得信念树返回的lb最大，即a*←maxa∈Alb,a；比较信念树计算的最优行为a*对应的价值lb,a*和通过默认策略π0初始化的价值Lb的大小，如果Lb更大，则将最优行为修改为默认策略，即a*←π0b；步骤S8、机器重复以上的步骤，直到最终到达目标点；步骤S1具体实现方式为：Kernel采样策略核函数定义其中，在核函数中表示的是向量的转置；x表示当前机器人状态可观测信息，xi表示信念空间中状态可观测信息，||x||为x的范数，为克罗内克符号；Kx,xi表示x与xi的相似程度，因此可以依据Kx,xi采样跟当前状态信息高度相关的K个状态；Kernel-DESPOT信念树每一个节点b都含有一个集合Φb，该集合表示经过节点b的所有序列；每个序列的起始状态构成采样状态集合；对于当前信念b，序列φ的起始状态s0的权重为其中，φ∈Φb，xi为状态s0的可观测部分信息；定义σn2为测量噪声方差，表示上一个采样周期中信念空间所有状态的Kx,xi值的方差；定义σf2为信号方差。

全文数据：

权利要求：

百度查询：福州大学一种基于Kernel采样策略在不确定性环境下的在线规划方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种碳纤维纺丝前驱体及碳纤维的生产方法

下一篇：一种电视墙管理方法、系统、电子装置和存储介质

相关技术

一种碳纤维纺丝前驱体及碳纤维的生产方法

一种电视墙管理方法、系统、电子装置和存储介质

沸点检测方法、装置、存储介质、程序产品和烹饪设备

接地开关

时间校准方法及装置、车辆、服务器和存储介质

用于涡轮发动机的密封支撑组件

一种数据传输方法、装置、设备及计算机可读存储介质

流媒体推流方法、流媒体推流系统和存储介质

重油加氢装置平稳运行控制参数的确定方法及装置

一种缺陷检测方法和相关设备

螺纹钢及其轧制方法、螺纹钢钢液的制备方法

连接器和电子设备

不确定性相关技术

一种考虑不确定性因素的扭曲舵优化设计方法_中国舰船研究设计中心_202111141224.0

基于UDE的不确定性柔性主动悬架系统最优控制方法_桂林电子科技大学_202410943127.0

具有不确定性量化的音频设备及相关方法_GN奥迪欧有限公司_202410330075.X

具有不确定性量化的音频设备及相关方法_GN奥迪欧有限公司_202410329143.0

考虑光伏不确定性的潮流计算收敛性提升方法和装置_中国南方电网有限责任公司_202410787908.5

数据驱动的需求侧负荷预测与不确定性估计方法及系统_北京理工大学_202411162944.9

融合在线地图不确定性的自动驾驶碰撞风险的预测方法_吉林大学_202410713791.6

一种量化复合材料力学性能不确定性及其来源的方法_同济大学_202410699630.6

基于深度确定性策略梯度的联邦学习分类模型训练方法_西安电子科技大学_202210712697.X

5G内生确定性车间网的实现方法及系统_重庆数智融合创新科技有限公司_202311192699.1

环境相关技术

一种环境监测设备_合肥市特种污染物管理中心_202420030911.8

一种环境处理单元_华为数字能源技术有限公司_202210970109.2

可用于不同湿度环境的制粒机_广州颂德医药科技有限公司_202323546204.9

一种机房环境巡视装置_南方电网科学研究院有限责任公司_202211191624.7

一种水环境检测装置_江西清川检测有限公司_202420047742.9

环境保护用监测装置_优艺(聊城)水处理有限公司_202420363973.0

一种施工环境检测装置_安徽成源祥建设工程有限公司_202420251069.0

一种环境空气检测装置_济南市生态环境监控中心_202410947397.9

一种车间环境检测装置_浙江嘉兴环发环境科学技术有限公司_202323584917.4

促进工作环境中的协作_脸萌有限公司_202380021858.3

策略相关技术

小区干扰协作策略的控制方法和装置_苏州华兴源创科技股份有限公司_202411111840.5

一种非线性对抗策略优化方法_烟台中飞海装科技有限公司_202410813159.9

一种使用对抗学习和数据选择策略的域适应方法_北京建筑大学_202410737969.0

无线专网调制编码策略配置方法、系统、设备及存储介质_中国电力科学研究院有限公司_202411158774.7

基于混合策略的暴力行为检测方法及系统、存储介质_艾伯资讯(深圳)有限公司_202010685116.9

基于深度确定性策略梯度的联邦学习分类模型训练方法_西安电子科技大学_202210712697.X

一种基于难度引导可变攻击策略的对抗防御方法_电子科技大学_202310831043.3

一种基于近端策略优化算法的实时最优潮流计算方法_东北大学秦皇岛分校_202210196338.3

模型量化策略确定及模型量化方法、装置、介质和设备_网易(杭州)网络有限公司_202410584724.9

一种利用回馈电流的均衡策略_北京宏瑞汽车科技股份有限公司_202310280145.0

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于Kernel采样策略在不确定性环境下的在线规划方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务