首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于双价值估计引导的在线三维装箱方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:淄博纽氏达特机器人系统技术有限公司

摘要:本发明涉及智慧仓储技术领域,具体来说是一种能够最大化容器空间利用率的基于双价值估计引导的在线三维装箱方法及系统,设有两个深度摄像头、一个机械臂、一个容器配置箱和一个传送带,通过机械臂和传送带完成装箱,其特征在于,两个深度摄像头采集图像数据后,执行如上所述的基于双价值估计引导的在线三维装箱方法,本发明针对网络训练过程中输入产生不确定性所带来的值估计高方差的问题,提出了双价值估计引导下的模型结构,通过手动分解任务为两个不同的子任务,以子任务的价值估计均值作为原任务的估计价值并在此引导下指导策略网络学习以缓解由输入产生不确定性所带来的值估计高方差问题,与现有技术相比,能够显著提高容器空间利用率。

主权项:1.一种基于双价值估计引导的在线三维装箱方法,其特征在于,包括以下步骤:步骤一:问题定义,状态S:状态由容器配置情况与当前要装箱的项目信息所组成;动作A:智能体执行动作的过程被描述为将待装箱项目的前左下角点放置到容器底部离散化的点上的过程;奖励R:除了由任务终步基于结果的稀疏奖励外,还基于启发式规则构造内在奖励,约束规则M:为了保证安全的放置,动作必须在硬约束的条件下执行,将动作空间直接投影到约束空间以此来进行满足约束的放置;步骤二:构建双价值估计模型结构,所述的双价值估计模型包括:提取高度图信息与放置项目信息感知网络,基于任务目标的稀疏奖励下的目的价值网络,基于辅助任务的内在奖励下的辅助价值网络与被双价值网络指导估计的策略网络用于输出动作概率分布;步骤三:模型训练,首先将要装箱的项目信息与容器中的配置情况通过深度摄像头RGB-D输入到感知网络中,由感知网络提取出二维网络方式下的高度图与包含项目长宽高信息的三维矩阵,然后由二者组成的状态信息分别传送至目的价值网络与辅助价值网络中,网络根据当前状态分别估计出双奖励下的价值,并共同指导策略网络更新,策略网络则根据当前状态输出动作概率分布,从中进行采样得到最终的执行动作;步骤四:确定损失函数:价值网络采用MSE损失函数,策略网络使用交叉熵损失函数,此外还包含,正则化的策略网络概率的Entropy损失,以及惩罚不合法动作项的inf损失,同样采用交叉熵的形式。

全文数据:

权利要求:

百度查询: 淄博纽氏达特机器人系统技术有限公司 基于双价值估计引导的在线三维装箱方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术