首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于Kernel采样策略在不确定性环境下的在线规划方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:福州大学

摘要:本发明提出一种基于Kernel采样策略在不确定性环境下的在线规划方法,用于对机器人执行任务时的规划,在该不确定性环境中,表示为POMDP模型的不确定性是制约机器人可靠运行的主因;所述POMDP模型中,机器人可观测自身的部分状态,机器人通过不断的与环境进行交互来获得回报最大的策略;在所述在线规划方法中,处理可观测部分时,把机器人的状态表示为一个信念,记为belief,其属于一个状态的集合,以POMDP算法通过构建信念树的方式执行前向搜索,以此来获得当前信念下的最优策略;所述信念树的每一个节点代表一个信念,父节点与子节点通过行为‑观测分支连接;所述POMDP算法是在线POMDP规划算法Kernel‑DESPOT;本发明算法性能优于DESPOT和POMCP,在收敛速度以及质量上具有优势。

主权项:1.一种基于Kernel采样策略在不确定性环境下的在线规划方法,用于对机器人在不确定性环境下执行任务时的规划,其特征在于:在该不确定性环境中,表示为POMDP模型的不确定性是制约机器人可靠运行的主因;所述POMDP模型中,机器人可观测自身的部分状态,机器人通过不断的与环境进行交互来获得回报最大的策略;在所述在线规划方法中,处理可观测部分时,把机器人的状态表示为一个信念,记为belief,其属于一个状态的集合,以POMDP算法通过构建信念树的方式执行前向搜索,以此来获得当前信念下的最优策略;所述信念树的每一个节点代表一个信念,父节点与子节点通过行为-观测分支连接;所述POMDP算法是在线POMDP规划算法Kernel-DESPOT,包括以下步骤;步骤S1、在机器人当前信念空间b中,依据Kernel采样策略采样K个状态构建采样状态集合Φb,并对每一个状态进行权重的分配;步骤S2、通过Kernel-DESPOT算法以b作为根节点构建信念树D;步骤S3、初始化机器人当前信念b经验价值的上界Ub和下界Lb,以及RK-WDU最优价值V*b的上界μb和下界lb;步骤S4、定义机器人当前信念的不确定性为εb←μb-lb;步骤S5、如果不确定性εb大于理想值并且算法的总运行时间小于Tmax,则对根节点b0进行扩展;步骤S6、当信念树停止扩展时,执行BACKUPD,b;在BACKUPD,b执行完毕之后,会更新根节点的不确定性εb,重新判断不确定性是否小于ò0或者运行时间是否大于Tmax,如果条件满足,则Kernel-DESPOT算法返回b的lb值;步骤S7、最终对于根节点b,算法会选择一个最优行为a*使得信念树返回的lb最大,即a*←maxa∈Alb,a;比较信念树计算的最优行为a*对应的价值lb,a*和通过默认策略π0初始化的价值Lb的大小,如果Lb更大,则将最优行为修改为默认策略,即a*←π0b;步骤S8、机器重复以上的步骤,直到最终到达目标点;步骤S1具体实现方式为:Kernel采样策略核函数定义 其中,在核函数中表示的是向量的转置;x表示当前机器人状态可观测信息,xi表示信念空间中状态可观测信息,||x||为x的范数,为克罗内克符号;Kx,xi表示x与xi的相似程度,因此可以依据Kx,xi采样跟当前状态信息高度相关的K个状态;Kernel-DESPOT信念树每一个节点b都含有一个集合Φb,该集合表示经过节点b的所有序列;每个序列的起始状态构成采样状态集合;对于当前信念b,序列φ的起始状态s0的权重为 其中,φ∈Φb,xi为状态s0的可观测部分信息;定义σn2为测量噪声方差,表示上一个采样周期中信念空间所有状态的Kx,xi值的方差;定义σf2为信号方差。

全文数据:

权利要求:

百度查询: 福州大学 一种基于Kernel采样策略在不确定性环境下的在线规划方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。