首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于哈夫曼树的高计算效率深度强化学习的推荐方法 

申请/专利权人:浙大城市学院

申请日:2024-03-11

公开(公告)日:2024-06-28

公开(公告)号:CN118260448A

主分类号:G06F16/735

分类号:G06F16/735;G06F16/9535;G06N3/092;G06N3/045

优先权:

专利状态码:在审-公开

法律状态:2024.06.28#公开

摘要:本发明涉及一种基于哈夫曼树的高计算效率深度强化学习的推荐方法,包括如下步骤:1、用户与推荐系统交互的强化学习建模;2、用户与推荐系统的交互表征的建立;3、多元哈夫曼树推荐策略的构建;4、推荐系统的构建;5推荐系统的部署。本发明的优点为:采用哈夫曼树作为推荐策略神经网络建模,有效降低推荐系统学习和决策时的时间复杂度,提升效率。

主权项:1.一种基于哈夫曼树的高计算效率深度强化学习推荐方法,其特征在于包括如下步骤:S1建立用户与推荐系统交互的特征表征集合:用户与推荐系统交互的过程用马尔可夫决策过程来表示,S,A,P,R,γ,其中S为状态集合,即用户与推荐系统的交互特征的表征集合,A为用户可选择的项目集合,P是状态转移函数Ps’|s,a,为当前时刻状态s下用户选择项目a后下一时刻的状态s’的概率,R为回报函数Rs’|s,a,即用户对当前状态s选择项目a后用户的评分,γ∈[0,1]是折扣因子,用于权衡当前回报和未来回报的重要性,推荐系统的优化目标是最大化用户的期望总评分;S2用户与推荐系统的交互表征的建立:根据推荐系统收集的用户历史浏览信息的时序数据,建立U行M列的用户评分矩阵,其中,U为用户的总数,M为推荐的项目总数,矩阵的第i行第j列的数值表示第i个用对第j个项目的评价分数;通过Funk奇异值矩阵分解方法,把该用户矩阵分解为两个矩阵V和W的乘积形式,其中V矩阵为U行h列,W矩阵为h行W列,用V矩阵的第i行表示第i个用户的特征向量,用W矩阵的第j列表示第j个项目的特征向量;根据每个用户与推荐系统交互过程中浏览的历史记录条目,采用基于注意力机制的神经网络进行特征建模,作为用户与推荐系统交互表征;S3推荐策略的构建:采用多元哈夫曼树状的网络结构作为推荐策略的表征,该神经网络输入为步骤S2得到的用户与推荐系统的交互表征,输出为每个推荐条目的推荐概率;S4推荐系统的训练:采用蒙特卡洛策略优化方法REINFORCE,根据推荐系统收集的包含用户浏览信息的时序数据,对推荐策略进行优化学习;S5推荐系统的部署:在线上部署平台上,利用步骤S4训练好的推荐策略网络,根据用户的当前状态,得到每个推荐条目的推荐概率,根据推荐概率向用户推荐对应条目。

全文数据:

权利要求:

百度查询: 浙大城市学院 基于哈夫曼树的高计算效率深度强化学习的推荐方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。