首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于DDQN的触觉材料不平衡数据的分类方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:吉林大学

摘要:本发明涉及一种基于DDQN的触觉材料不平衡数据的分类方法,属于触觉材料不平衡数据的分类方法。利用VGG19处理图片,提取图片特征;将提取的图片特征当作DDQN的状态,将它们的标签当作DDQN的动作,构建DDQN的环境;设置奖励函数;并选择Q值最大的动作传递给目标网络;计算评估网络估计Q值的时间差分误差;保存训练好的网络,根据最大Q值所对应的动作来分类图片。优点是:解决了触觉材料不平衡数据的分类问题,并且分类精度要高于常用的不平衡数据的分类方法。时间代价小,训练时间和测试时间都低于其他分类方法,提取图片特征保证图片特征的鲁棒性,避免出现噪声,DDQN的参数更新机制可以有效的减少过拟合现象,保证训练的网络的鲁棒性。

主权项:1.一种基于DDQN的触觉材料不平衡数据的分类方法,其特征在于,包括下列步骤:1、利用VGG19处理图片,提取图片特征;2、将VGG19提取的图片特征当作DDQN的状态,将它们的标签当作DDQN的动作,构建DDQN的环境;3、根据不同材料训练集样本数目的不同设置DDQN的奖励函数;4、DDQN的评估网络估计Q值,并选择Q值最大的动作传递给目标网络;所述评估网络选择最大Q值的动作的具体途径是:在DDQN中,建立基于神经网络的评估网络Q′来估计动作值:Q值;Q值反应了在状态s,DDQN采取了动作a获得的未来奖励的估计; 其中的wt表示第t步评估网络Q′的参数,Gt表示在状态s做出动作a得到的奖励加上未来的奖励,用折扣因子γ来减小未来的奖励对现在动作选取的影响:Gt=Rt+γRt+1+γ2Rt+2+γ3Rt+3+…+γkRt+kRt表示在第t步的状态st做出动作at后根据动作的对错和不平衡奖励函数得到的奖励,Rt+1表示第t+1步的奖励,k表示在一次迭代中DDQN的所有步数;特别地,除了评估网络Q′,DDQN还有另一个目标网络它的构造与评估网络Q′相同,它的参数是每隔一段时间从评估网络Q′复制过来的,给定状态st+1,评估网络Q′估计出采取所有动作所对应的Q值,然后选出其中最大Q值对应的动作: 其中的Qst+1,a;wt表示评估网络Q′估计的Q值,评估网络Q′选出最大Q值对应的动作a*后,将动作a*传递给目标网络用于计算评估Q值的时间差分误差;5、DDQN的目标网络计算评估网络估计Q值的时间差分误差;6、将评估网络估计Q值的时间差分误差进行随机梯度下降优化参数,直至找到全局最优解,训练结束,保存训练好的网络,根据最大Q值所对应的动作来分类图片。

全文数据:

权利要求:

百度查询: 吉林大学 一种基于DDQN的触觉材料不平衡数据的分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术