买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:哈尔滨工程大学
摘要:本发明公开了一种多任务强化学习推荐方法,步骤1:采集用户在项目集上的评分信息,根据项目的配置文件构造项目的向量表示;步骤2:采集有用户评分的项目以及与其相关的所有知识图谱信息,构造对应的三元组;步骤3:构造马尔科夫决策过程,并建立Q网络;步骤4:建立基于DDQN的推荐模型;步骤5:建立知识表示学习模型;步骤6:将知识表示学习作为DDQN推荐模型的辅助任务进行训练,交替更新DDQN推荐模型和知识表示学习模型。本发明使得推荐模型能够更深入挖掘项目与动作之间潜在的语义关系,从而提高了推荐的长期收益以及推荐精确度;同时由于使用多任务模型,提高了强化学习训练中的泛化性,也提升了训练的速度。
主权项:1.一种多任务强化学习推荐方法,其特征在于,包括以下步骤:步骤1:采集用户在项目集上的评分信息,根据项目的配置文件构造项目的向量表示;步骤2:采集有用户评分的项目以及与其相关的所有知识图谱信息,构造对应的三元组;步骤3:构造马尔科夫决策过程,并建立Q网络;步骤3.1:将用户的评分进行处理得到reward,其中μu表示该用户的评分均值,σu表示该用户的评分标准差,rating代表用户对项目的评分;步骤3.2:将用户交互项目中reward大于0的Ns个项目保留作为用户状态的组成,用表示用户当前的状态,在函数F中采用一个门控循环单元捕捉用户顺序偏好,门控循环单元包括一个重置门rn和一个更新门zn,rn决定了如何将新的输入信息与前面的记忆状态信息hn-1相结合,zn定义了前面记忆保存到当前时间步的量,将作为GRU的输入,将hn作为用户的状态St;步骤3.3:action用要推荐给用户的item的特征向量表示,即at=irec;步骤3.4:当推荐项目给用户后,若该用户获得正reward,则state由转换为如果没有获得正reward则state保持不变;步骤3.5:构建Q网络:以待推荐项目的特征向量at与用户当前状态st作为网络输入,将at与该项目对应的实体向量e经过一个特征交叉共享单元处理:产生新的动作向量a't,其中每个α向量的值是项目与实体用来对特征组合共享程度的调节;将state向量st与动作向量a't进行拼接,拼接后进行经过全连接层输出推荐项目的状态动作价值Qst,at=MLP[st,a't];步骤4:建立基于DDQN的推荐模型;假设随机选择项目进行推荐的概率为ε,在Q网络中选择项目进行推荐的概率为1-ε,若使用Q网络推荐,则先将已经给用户推荐的项目以及最初的NS个项目从项目集P中去除,生成未给该用户推荐的项目集作为待推荐项目集,将待推荐项目集中每一个项目的特征向量与用户当前状态作为Q网络的输入,选出Q值最大的项目作为推荐项目推荐给用户;步骤5:建立知识表示学习模型;步骤6:将知识表示学习作为DDQN推荐模型的辅助任务进行训练,交替更新DDQN推荐模型和知识表示学习模型。
全文数据:
权利要求:
百度查询: 哈尔滨工程大学 一种多任务强化学习推荐方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。