一种基于DDQN的触觉材料不平衡数据的分类方法

导航：龙图腾网> 最新专利技术> 一种基于DDQN的触觉材料不平衡数据的分类方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：吉林大学

摘要：本发明涉及一种基于DDQN的触觉材料不平衡数据的分类方法，属于触觉材料不平衡数据的分类方法。利用VGG19处理图片，提取图片特征；将提取的图片特征当作DDQN的状态，将它们的标签当作DDQN的动作，构建DDQN的环境；设置奖励函数；并选择Q值最大的动作传递给目标网络；计算评估网络估计Q值的时间差分误差；保存训练好的网络，根据最大Q值所对应的动作来分类图片。优点是：解决了触觉材料不平衡数据的分类问题，并且分类精度要高于常用的不平衡数据的分类方法。时间代价小，训练时间和测试时间都低于其他分类方法，提取图片特征保证图片特征的鲁棒性，避免出现噪声，DDQN的参数更新机制可以有效的减少过拟合现象，保证训练的网络的鲁棒性。

主权项：1.一种基于DDQN的触觉材料不平衡数据的分类方法，其特征在于，包括下列步骤：1、利用VGG19处理图片，提取图片特征；2、将VGG19提取的图片特征当作DDQN的状态，将它们的标签当作DDQN的动作，构建DDQN的环境；3、根据不同材料训练集样本数目的不同设置DDQN的奖励函数；4、DDQN的评估网络估计Q值，并选择Q值最大的动作传递给目标网络；所述评估网络选择最大Q值的动作的具体途径是：在DDQN中，建立基于神经网络的评估网络Q′来估计动作值：Q值；Q值反应了在状态s，DDQN采取了动作a获得的未来奖励的估计；其中的wt表示第t步评估网络Q′的参数，Gt表示在状态s做出动作a得到的奖励加上未来的奖励，用折扣因子γ来减小未来的奖励对现在动作选取的影响：Gt＝Rt+γRt+1+γ2Rt+2+γ3Rt+3+…+γkRt+kRt表示在第t步的状态st做出动作at后根据动作的对错和不平衡奖励函数得到的奖励，Rt+1表示第t+1步的奖励，k表示在一次迭代中DDQN的所有步数；特别地，除了评估网络Q′，DDQN还有另一个目标网络它的构造与评估网络Q′相同，它的参数是每隔一段时间从评估网络Q′复制过来的，给定状态st+1，评估网络Q′估计出采取所有动作所对应的Q值，然后选出其中最大Q值对应的动作：其中的Qst+1,a；wt表示评估网络Q′估计的Q值，评估网络Q′选出最大Q值对应的动作a*后，将动作a*传递给目标网络用于计算评估Q值的时间差分误差；5、DDQN的目标网络计算评估网络估计Q值的时间差分误差；6、将评估网络估计Q值的时间差分误差进行随机梯度下降优化参数，直至找到全局最优解，训练结束，保存训练好的网络，根据最大Q值所对应的动作来分类图片。

全文数据：

权利要求：

百度查询：吉林大学一种基于DDQN的触觉材料不平衡数据的分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：含氟甲醛基的哌啶型阴离子交换膜及其制备方法

下一篇：一种大数据支持的交通碳排放监测方法及监测系统

相关技术

含氟甲醛基的哌啶型阴离子交换膜及其制备方法

一种大数据支持的交通碳排放监测方法及监测系统

用于装置气溶胶生成系统的传感器

通过光学衍射改善粒度

一种水力发电装置及清洁装置

一种提高战场综合态势信息处理效率的方法

一种大花海棠染色体加倍的诱导方法

一种静载试验接桩循环护筒

一种适用于垂直起降无人机的可折叠起落架

具有处于低速档的分动箱的混合动力的动力总成系统和操作

基于AI的PCB或半导体多工序生产设备组合优化方法

一种安装稳固的连接件

相关技术

相关技术

相关技术

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于DDQN的触觉材料不平衡数据的分类方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务