首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于深度强化学习的个性化学习推荐系统及方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:欣正实业发展总公司

摘要:本发明涉及学习个性化推荐系统领域,更具体地说,涉及基于深度强化学习的个性化学习推荐系统,包括:用户兴趣表示模块、知识表示模块、认知诊断模块、个性化推荐模块、增量更新模块和反馈集成模块;用户兴趣表示模块,用于采用优化校验矩阵算法从用户的显式反馈和隐式行为中提取多维度兴趣特征,融合生用户兴趣表示向量;首次将对比学习思想引入强化学习中,设计了全新的奖赏函数,通过构建困难负样本加强了模型的判别能力,大大提升了样本效率。层次化的状态设计和双重DQN的价值估计也是亮点,使推荐在满足用户实时兴趣的同时兼顾长远收益;增量更新模块利用新数据微调模型,通过参数局部调整和Loss重传加速增量学习过程。

主权项:1.基于深度强化学习的个性化学习推荐系统,其特征在于,包括:用户兴趣表示模块、知识表示模块、认知诊断模块、个性化推荐模块、增量更新模块和反馈集成模块;所述用户兴趣表示模块,用于采用优化校验矩阵算法从用户的显式反馈和隐式行为中提取多维度兴趣特征,融合生用户兴趣表示向量;所述知识表示模块,用于利用知识图谱对学习资源进行语义化、结构化表示,构建包含概念、属性、关系的多粒度知识网络,形成反映资源内在联系的知识嵌入向量;所述认知诊断模块,用于通过自适应测评收集学生答题数据,使用能力图模型精准推断学生对知识点的掌握状态,输出动态更新的知识掌握向量;所述个性化推荐模块,用于将所述兴趣表示向量、所述知识嵌入向量和所述知识掌握向量多源异构信息输入端到端的深度强化学习网络,通过融合对比学习的奖赏函数、层次化的环境状态表示和双重DQN价值估计,生成兼顾实时匹配度和长期收益的个性化学习资源推荐列表;所述增量更新模块,用于当新用户或新学习资源出现时,从相似用户中迁移模型参数,并利用新数据微调模型,通过参数局部调整和Loss重传加速增量学习过程;所述反馈集成模块,用于收集用户对推荐内容的显式反馈、隐式反馈和外部反馈,统计分析综合满意度,并将反馈特征应用于优化后续推荐策略。

全文数据:

权利要求:

百度查询: 欣正实业发展总公司 基于深度强化学习的个性化学习推荐系统及方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。