用于决策模型训练的中间步的奖励分计算方法及系统

导航：龙图腾网> 最新专利技术> 用于决策模型训练的中间步的奖励分计算方法及系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：中至江西智能技术有限公司;江西中至科技有限公司

摘要：本发明公开了一种用于决策模型训练的中间步的奖励分计算系统，该系统包括：存储器、处理器以及存储在存储器上的计算机模块，计算机模块用于提供在处理器上运行的计算机程序；计算机模块包括：建立模块，用于分别建立胡牌预测模型和决策模型；预测模块，用于在决策模型对当前牌局作出每一步的决策动作之前，通过胡牌预测模型预测当前牌局的预测胡牌结果；确定模块，用于根据预测胡牌结果和实际胡牌结果确定当前牌局的回推中间步的奖励分的最终奖励分的计算规则；回推模块，用于根据最终奖励分的计算规则确定最终奖励分，并根据最终奖励分对中间步的奖励分进行回推得到中间步的奖励分。本发明解决了现有技术中决策模型出牌质量低的问题。

主权项：1.一种用于决策模型训练的中间步的奖励分计算系统，其特征在于，所述系统包括：存储器、处理器以及存储在存储器上的计算机模块，所述计算机模块用于提供在处理器上运行的计算机程序；所述计算机模块包括：建立模块，用于分别建立胡牌预测模型和决策模型；预测模块，用于在所述决策模型对当前牌局作出每一步的决策动作之前，通过所述胡牌预测模型预测所述当前牌局的预测胡牌结果；确定模块，用于根据所述预测胡牌结果和实际胡牌结果确定所述当前牌局的回推中间步的奖励分的最终奖励分的计算规则；回推模块，用于根据所述最终奖励分的计算规则确定所述最终奖励分，并根据所述最终奖励分对所述中间步的奖励分进行回推得到所述中间步的奖励分。

全文数据：

权利要求：

百度查询：中至江西智能技术有限公司江西中至科技有限公司用于决策模型训练的中间步的奖励分计算方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种煤枪煤粉反吹收集装置

下一篇：一种电加热结构及带有该电加热结构的家用电器

相关技术

一种煤枪煤粉反吹收集装置

一种电加热结构及带有该电加热结构的家用电器

一种结构新颖的烘干机钣金围板

可隐藏式转向系统

一种散热盘管焊缝位置打磨抛光装置

一种涂装喷粉装置

一种储物筐可调节的电动购物车

一种用于焦炭反应性加热炉的恒温测定组件

一种实验动物饲养笼具用进食系统

一种干法激光粒度仪进样装置

一种舌肌训练装置

一种便于安装的声屏障

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

用于决策模型训练的中间步的奖励分计算方法及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务