首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种结合知网与词林的词语相似度获取方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:重庆邮电大学

摘要:本发明公开了一种结合知网与词林的词语相似度获取方法及系统,利用《知网》义原层次树计算知网义原信息内容含量;并构建第一词语相似度计算模型;根据扩展版《同义词词林》词林拓扑树中的路径信息构建第二词语相似度计算模型;根据待测词语对在《知网》和扩展版《同义词词林》中的分布情况,综合两个计算模型的计算结果,获得待测词语对的最终词语相似度,在原本的信息内容含量的基础上引入义原节点的密度信息,能够得到更符合人类判断的词语相似度计算结果,同时在词林的计算过程中设置关于路径信息的权重参数,通过改变该参数的值,得到更高的皮尔森相关系数,更符合人类主观判断的结果,从而提高词语相似度的计算精度和范围。

主权项:1.一种结合知网与词林的词语相似度获取方法,其特征在于,包括以下步骤:根据《知网》义原层次树和义原层次树中的路径信息,计算知网义原信息内容含量;根据知网义原信息内容含量,构建第一词语相似度计算模型;根据扩展版《同义词词林》词林拓扑树中的路径信息构建第二词语相似度计算模型;获取待测词语对,根据待测词语对在《知网》和扩展版《同义词词林》中的分布情况,分别利用第一词语相似度计算模型和第二词语相似度计算模型计算待测词语对的相似度;将两个计算模型计算得到的词语相似度结合,获得待测词语对的最终词语相似度;其中,得到知网义原信息内容含量的过程包括:根据《知网》义原层次树中的节点总数和义原节点在义原层次树中对应的下位节点数,计算得到义原的第一信息内容含量;根据当前义原节点所在义原层次树路径信息中的义原密度信息和义原深度信息,根据义原密度信息计算当前义原节点及其兄弟节点的节点总和;计算得到义原的第二信息内容含量;结合义原的第一信息内容含量和第二信息内容含量,得到知网义原信息内容含量;其中,利用第一词语相似度计算模型计算待测词语对的相似度的过程包括:分别计算词语对的两个词语在《知网》义原层次树中对应义原节点的知网义原信息内容含量,对应得到两个知网义原信息内容含量;根据两个知网义原信息内容含量的共性信息,计算得到词语对的相似度,计算过程为: 其中,函数LCSw1,w2表示词语对w1和w2对应的义原节点的最近公共节点,ICLCSw1,w2表示词语对对应的义原节点的共性信息,ICw1、ICw2分别表示词语对应的知网义原信息内容含量;其中,得到知网义原信息内容含量ICC的计算公式如下: 其中,max_nodes表示义原层次树中的节点总数,函数hypoC表示义原节点在义原层次树中对应的下位节点数,函数fC表示当前义原节点所在树的密度信息,c1表示权衡义原深度信息和义原密度信息对信息内容含量的影响权重因子,k表示路径信息的影响权重,k设为0.5,c1设为0.6;其中,利用第二词语相似度计算模型计算待测词语对的相似度的过程为:根据扩展版《同义词词林》词林拓扑树,将词林拓扑树由根节点开始向下逐层划分为大类、中类、小类、词群和原子词群,并将原子词群部分的抽象的概念放到对应上层结构中;从词林拓扑树中获取待测词语对中每个词语对应概念的路径信息,根据每个词语对应概念的路径信息中的概念深度信息,计算概念的信息内容含量;根据待测词语对中两个词语分别对应概念的信息内容含量、对应的概念之间的深度信息,计算待测词语对的相似度;其中,计算词林中概念的信息内容含量IC1C的过程为: 其中,max_depth表示词林拓扑树的最大深度,depthC表示当前计算的概念节点的深度,函数hypoC表示当前概念节点在词林拓扑树中对应的下位节点数,max_nodes表示词林拓扑树中的概念节点总数,k表示路径信息的影响权重,k设为0.5;其中,第二词语相似度计算模型的相似度计算过程为: 其中,α表示可调参数,p表示用于调节待测词语对w1、w2对应概念之间的路径信息与信息内容含量的权重参数,N表示对应概念之间可达路径上的长度,leveli表示第i条路径在词林拓扑树中所处的层次,函数weight用于计算第i条路径的权重值;其中,获得待测词语对的最终词语相似度的计算公式为:simw1,w2=λsim1w1,w2+1-λsim2w1,w2,其中,λ表示根据待测词语对w1、w2在《知网》和扩展版《同义词词林》中的分布情况在选用相应计算模型时的分配权重,sim1表示第一词语相似度计算模型的计算结果,sim2表示第二词语相似度计算模型的计算结果;其中,根据待测词语对在《知网》和扩展版《同义词词林》中的分布情况,当词语同时被《知网》和扩展版《同义词词林》收录时用B表示,当词语只被《知网》收录时用A表示,当词语只被扩展版《同义词词林》收录时用C表示,则获得待测词语对的最终词语相似度的过程为:当w1∈B且w2∈B时,将λ设为0.5;当w1∈A且w2∈B时,判断w2在扩展版《同义词词林》中是否存在同义词,若存在,将λ设为0.6,若不存在则将λ设为1;当w1∈B且w2∈C时,判断w1在扩展版《同义词词林》中是否存在同义词,若存在,则将λ设为0.4,若不存在,则将λ设为0;当w1∈A且w2∈C时,判断w2在扩展版《同义词词林》中是否存在同义词,若存在则根据sim1和sim2的计算结果,选取最大值作为待测词语对的最终词语相似度,若不存在,则待测词语对的最终词语相似度为0.1;当w1∈A且w2∈A时,将λ设为1,当w1∈C且w2∈C时,将λ设为0。

全文数据:

权利要求:

百度查询: 重庆邮电大学 一种结合知网与词林的词语相似度获取方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。