首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于电影结构化信息和简介预测电影评分类别的方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:浙江大学

摘要:本发明公开了一种基于电影结构化信息和简介预测电影评分类别的方法。该方法首先对电影的结构化信息和电影的简介进行清洗和预处理,构建电影结构化信息的“电影实体‑关系‑信息实体”三元组以及电影简介的文本数据集。利用电影结构化信息生成的三元组训练电影实体向量,利用电影简介的文本数据训练出文档向量。将电影实体向量和文档向量拼接组成的电影特征向量输入电影对应的评分训练分类模型,预测电影评分的类别。本发明通过结合电影自身信息构建分类模型,没有涉及用户相关的评价和情感偏好,提升了预测电影评分分类的准确率,可以有效解决进行新片评分预测的“冷启动”问题。

主权项:1.一种基于电影结构化信息和简介预测电影评分类别的方法,其特征在于,该方法包含以下步骤:1对电影的结构化信息和简介进行清洗和预处理;具体包括以下子步骤:1.1删除电影简介过少、电影简介异常或者缺失电影简介的电影样本;1.2删除电影简介中的特殊符号非文本信息;1.3将结构化信息中演员、导演人名加入词库,对电影简介进行分词处理,并删除停用词;1.4删除缺失类型、语言、导演、演员、编剧结构化信息的电影样本,得到清洗过的结构化信息;1.5将清洗过的结构化信息生成“电影实体-关系-信息实体”的三元组,所述电影实体为电影名称,信息实体包括电影的类型、语言、导演、演员、编剧;2使用电影结构化信息生成的三元组训练生成电影实体向量;具体包括以下子步骤:2.1每个电影实体分配唯一的电影实体向量f,每个关系分配唯一的关系向量r,每个信息实体分配唯一的信息实体向量i;2.2设置电影实体向量、关系向量和信息实体向量的维度,训练轮数,批量大小参数,使用“电影实体-关系-信息实体”的三元组作为正样本,同时通过结构化信息自动生成负样本采样,将正样本和负样本同时输入定义实体向量生成模型,训练生成电影实体向量;3使用电影简介训练生成文档向量;具体包括以下子步骤:3.1每条电影简介分配唯一的文档ID,根据文档ID生成文档向量,每个单词分配唯一的单词ID,根据单词ID生成单词向量;3.2设置doc2vec文档向量模型的窗口大小,负样本数参数,使用电影的文档向量、单词向量作为doc2vec文档向量模型的输入,训练生成文档向量;4使用训练生成的电影实体向量和文档向量训练电影评分预测分类模型,使用训练好的电影评分预测分类模型预测新电影的评分类别;具体包括以下子步骤:4.1将训练生成的电影实体向量和文档向量依次拼接,作为电影评分预测分类模型输入,将电影的评分分为低、中、高三类作为对应的类别训练出评分预测分类模型;4.2新电影的评分分类预测,通过步骤1的方法生成“实体-关系-实体”的三元组,再经步骤2,步骤3的方法生成电影实体向量和文档向量,然后将拼接好的向量输入训练好的评分预测分类模型输出新电影的评分类别;所述定义实体向量生成模型通过以下方法训练:a采用df,r,i用来描述“电影实体-关系-信息实体”的距离,即 其中,Mf是将电影实体向量转换到关系向量空间的转换矩阵,Mi是将电影信息向量转换到关系向量空间的转换矩阵;b通过当损失函数的波动小于0.1,完成对定义实体向量生成模型的训练;其中,损失函数为:loss=-logδdf,r,ineg-df,r,ipos2df,r,ineg表示负样本的距离,df,r,ipos表示正样本的距离,δ表示非线性激活函数。

全文数据:

权利要求:

百度查询: 浙江大学 一种基于电影结构化信息和简介预测电影评分类别的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。