一种基于BTM主题模型和Doc2vec的文本相似度计算方法

导航：龙图腾网> 最新专利技术> 一种基于BTM主题模型和Doc2vec的文本相似度计算方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：西北工业大学

摘要：本发明公开了一种基于BTM主题模型和Doc2vec的文本相似度计算方法，首先进行数据预处理与基础模型训练，使用大规模语料库对基础Doc2vec模型进行训练，对待检测的文本数据，进行分词处理，用于下一阶段Doc2vec模型的数据输入；其次进行模型的数据训练处理，使用分词后的数据对Doc2vec模型进行训练，得到文本向量集合，同时使用BTM主题模型对待检测文本数据进行训练，得到文本主题集合。最后进行数据相似度的计算，在文本向量集合基础上，结合文本主题信息，得到主题向量集合，将文本向量与主题向量进行融合得到表征数据的距离向量，针对距离向量使用余弦相似度计算公式计算得到数据相似度值。本发明提出的检测模型提升了计算效率与文本之间相似度计算的准确度。

主权项：1.一种基于BTM主题模型和Doc2vec的文本相似度计算方法，其特征在于，包括以下步骤：步骤1：模型定义与数据预处理；首先对如表1所示的基础Doc2vec模型参数进行定义，再使用语料库对Doc2vec基础模型进行训练；对于待检测的文本数据d{d1,d2,...,dn}，使用分词工具，对待检测文本数据进行分词处理，处理后的数据项用于进行下一阶段的模型训练处理；表1Doc2vec基础模型参数步骤2：模型训练；使用处理后的数据项对经过语料库训练后的Doc2vec模型再次进行训练，得到数据的文本向量集合{vd1,vd2,...,vdn}；构建BTM主题模型，使用BTM主题模型对待检测文本数据进行文本主题信息的检测，得到文本主题数据集合{t1,t2,...,tn}；步骤3：相似度计算；在文本向量集合的基础上，结合文本主题数据集合进行向量数据筛选，得到主题向量集合，随后将主题向量信息与文本向量信息结合，计算得到文本相似度，相似度计算的具体过程如下：步骤3-1：对每个文本主题中的高频词进行权重标注，将高频词出现的概率设定为主题权重，并且与文本向量集合中对应该文本主题的文本向量进行结合，得到主题向量集合，计算公式如下所示：其中，vdi表示该文本主题的向量表示，表示主题权重，h为主题向量总数，m为主题向量序号；步骤3-2：使用式2将文本向量与主题向量相结合，用两个向量之间的的距离来表征数据项的特征,disvdi,vti＝|vdi-vti|2步骤3-3：针对两个数据项的文本向量与主题向量，使用余弦相似度计算公式，计算公式如式3：得到两个文本数据项之间的相似度值。

全文数据：

权利要求：

百度查询：西北工业大学一种基于BTM主题模型和Doc2vec的文本相似度计算方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种高浓度含氟废水治理设备

下一篇：一种便携式气动执行机构弹簧调整装置

相关技术

一种高浓度含氟废水治理设备

一种便携式气动执行机构弹簧调整装置

水封逆止阀及其使用方法

一种提高战场综合态势信息处理效率的方法

一种水力发电装置及清洁装置

一种浅层地下水污染用治理装置

一种改善6061铝合金挤压性的均匀化热处理方法及其铸棒

一种坐浴盆

一种金属制品加工用数控刀头

具有处于低速档的分动箱的混合动力的动力总成系统和操作

用于治疗三尖瓣功能不全的系统、方法和装置

一种适用于垂直起降无人机的可折叠起落架

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于BTM主题模型和Doc2vec的文本相似度计算方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务