买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:西安金讯通软件技术有限公司
摘要:本发明公开了一种文本相似度计算去重方法、系统、介质及设备,将热线文本数据集导入数据库,并输入训练好的模型中进行特征提取,特征融合和特征增强,得到数据的最终特征并序列化保存;输入待计算数据到模型中提取最终特征;与相应日期内的热线文本数据进行余弦相似度计算,得到相似度结果;输出排名top50的相似度结果,进行去重。本发明面向政务服务便民热线,通过模型将热线文本内容的最终句子特征提取出来进行相似度计算去重,还提供了外界调用的途径,可通过四个接口操作模型实现不同的模型功能,便于操作,实用性强,适用于热线领域。
主权项:1.一种文本相似度计算去重方法,其特征在于,包括以下步骤:S1、对热线文本数据集进行预处理,得到包含工单编号、人物、地点、日期、手机号码和文本内容的数据集;S2、将步骤S1得到的数据集输入sbert+名词实体识别+关键词提取+word2vec模型中,结合去停用词和自定义词库进行初始化,获得文本数据的特征向量,并对文本数据进行名词实体抽取和关键词抽取,得到每一条热线文本数据的文本特征向量,输入sentence句子到sbert+名词实体识别+关键词提取+word2vec模型中,sbert模型使用平均池化策略,将均值后的向量作为句向量Vs,得到全局特征,word2vec模型获得名词词向量Vn,通过TFIDF算法获得关键词词向量Vk,得到局部特征,将名词词向量Vn和关键词词向量Vk进行平均,再和句向量Vs进行平均,得到最后的句向量Vn×d,n为热线文本数据集中的数据量,d为向量维度,将所有热线文本数据的特征向量进行序列化保存,使用pickle模块dump序列化数据所有热线文本的特征向量,将特征向量的结果数据流写入文件对象,使用load反序列化对象,还原得到每一条热线文本数据的文本特征向量;S3、提取新文本的特征,输入新的热线文本到sbert+名词实体识别+关键词提取+word2vec模型中,获得新文本的最终特征向量;S4、从步骤S2得到的每一条热线文本数据的文本特征向量中筛选设定日期内数据量的特征向量,将步骤S3得到的新文本的最终特征向量与特征向量进行余弦相似度计算,得到文本相似度结果;S5、基于步骤S4得到的文本相似度结果,将相似度排名前50的热线文本数据输出,实现文本相似度计算去重。
全文数据:
权利要求:
百度查询: 西安金讯通软件技术有限公司 一种文本相似度计算去重方法、系统、介质及设备
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。