Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于词汇语义增强的句子相似度计算方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:山东科技大学

摘要:本发明公开了一种基于词汇语义增强的句子相似度计算方法,属于自然语言处理领域,包括如下步骤:步骤1、获取源数据和词汇约束集合;步骤2、对源数据和词汇约束集合进行预处理;步骤3、采用主成分分析法对第二数据进行降维处理,提取词向量中的主要特征,得到第三数据;步骤4、针对不同的词汇约束集合构建不同的损失函数;步骤5、进行分布式词向量优化;步骤6、计算两个句子的余弦相似度。本发明针对句子相似度,对句子中词汇的向量表示进行了加工处理,可以使得句子相似度的分析更加准确,解决目前句子对比相似度低下的问题。

主权项:1.一种基于词汇语义增强的句子相似度计算方法,其特征在于,包括如下步骤:步骤1、获取源数据和词汇约束集合;步骤2、对源数据和词汇约束集合进行预处理;具体过程如下:步骤2.1、对源数据建立数据字典,将每个词汇映射成唯一的索引;步骤2.2、读取源数据和词汇约束集合,将源数据作为第一数据;步骤2.3、读取词汇约束集合和第一数据,进行字段类型转换;步骤2.4、将词汇约束集合中的词汇与第一数据中的词汇做对比,判断词汇约束集合中的词汇是否存在于第一数据中,将既属于词汇约束集合又属于第一数据的词汇作为第二数据;步骤2.5、将不同的词汇约束集合进行重复值处理,去除词汇约束集合中的重复内容;步骤3、采用主成分分析法对第二数据进行降维处理,提取词向量中的主要特征,得到第三数据;具体过程如下:步骤3.1、对第二数据的分布式词向量进行去中心化操作;步骤3.2、计算选取的batch块中词向量的的协方差矩阵;步骤3.3、对协方差矩阵做特征值分解,计算特征值和特征向量,并对特征值进行降序排列;步骤3.4、按照实际需求,取最大的D个特征值所对应的单位特征向量;步骤3.5、确定变换矩阵,进行数据降维,求解结束后获得降维后的第三数据;步骤4、针对不同的词汇约束集合构建不同的损失函数;具体过程如下:构建第一损失函数,公式如下:Li,j=log∑i,k∈Mexpβ-Di,k+∑j,k∈Mexpβ-Dj,k+Di,j1;其中,Li,j表示样本示例对i,j在分布式空间中的损失;i表示示示例对i,j中的锚点样本;k表示batch块选中的距离锚点样本i最近的负样本;M表示batch块中所有的负样本对;Di,k表示锚点样本i与其负样本k之间的距离;j表示样本示例对i,j中i样本的正样本;β表示最小间隔或者最大间隔;Dj,k表示正样本j与其负样本k之间的距离;Di,j表示样本示例对中i和j之间的向量距离;构建第二损失函数,第二损失函数L2的公式如下: 其中,是上义词-下义词约束集中的示例对,表示示例对中上义词;表示示例对中的下义词;构建第三损失函数,第三损失函数L3的公式如下:L3=∑x∈batchγreg‖xi′-xi‖4;其中,x表示batch中的任一个词汇;γreg表示正则化系数;xi′表示对应词汇原始空间中的分布式词向量;xi表示优化后的分布式词向量;同义词约束集合和反义词约束集合的损失函数L同反为:L同反=Li,j+L35;上义词和下义词约束集合的损失函数L上下为:L上下=Li,j+L2+L36;模型的整体损失Ltotal如下所示:Ltotal=Li,j+L2+L37;构建完成模型的整体损失后,选择合适的优化器对所述的整体损失进行优化,基于损失函数的最小值,不断地训练模型,调整模型中的海量参数,最终生成基于词汇语义增强的句子相似度模型;步骤5、进行分布式词向量优化;具体过程如下:步骤5.1、将降维后的第三数据输入到句子相似度模型;步骤5.2、判断输入的词汇属于哪一个语义约束集合;步骤5.3、为词汇选择对应的损失函数,为词汇修正建立模型;步骤5.4、选择合适的参数优化方法,不断对模型参数进行优化;步骤5.5、待模型优化完成以后,词汇向量得以优化;步骤6、计算两个句子的余弦相似度;具体过程如下:步骤6.1、获取待计算相似性的两个句子,分别将两个句子进行分词;步骤6.2、在优化后词向量中选取第一个句子的词汇向量,并将第一个句子中的词汇向量取均值,取均值后的结果称为第一语义向量;步骤6.3、在优化后词向量中选取第二个句子的词汇向量,并将第二个句子中的词汇向量取均值,取均值后的结果称为第二语义向量;步骤6.4、计算第一语义向量和第二语义向量的余弦相似度,得出句子余弦相似度的分析结果。

全文数据:

权利要求:

百度查询: 山东科技大学 一种基于词汇语义增强的句子相似度计算方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。