一种结合知网与词林的词语相似度获取方法及系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：重庆邮电大学

摘要：本发明公开了一种结合知网与词林的词语相似度获取方法及系统，利用《知网》义原层次树计算知网义原信息内容含量；并构建第一词语相似度计算模型；根据扩展版《同义词词林》词林拓扑树中的路径信息构建第二词语相似度计算模型；根据待测词语对在《知网》和扩展版《同义词词林》中的分布情况，综合两个计算模型的计算结果，获得待测词语对的最终词语相似度，在原本的信息内容含量的基础上引入义原节点的密度信息，能够得到更符合人类判断的词语相似度计算结果，同时在词林的计算过程中设置关于路径信息的权重参数，通过改变该参数的值，得到更高的皮尔森相关系数，更符合人类主观判断的结果，从而提高词语相似度的计算精度和范围。

主权项：1.一种结合知网与词林的词语相似度获取方法，其特征在于，包括以下步骤：根据《知网》义原层次树和义原层次树中的路径信息，计算知网义原信息内容含量；根据知网义原信息内容含量，构建第一词语相似度计算模型；根据扩展版《同义词词林》词林拓扑树中的路径信息构建第二词语相似度计算模型；获取待测词语对，根据待测词语对在《知网》和扩展版《同义词词林》中的分布情况，分别利用第一词语相似度计算模型和第二词语相似度计算模型计算待测词语对的相似度；将两个计算模型计算得到的词语相似度结合，获得待测词语对的最终词语相似度；其中，得到知网义原信息内容含量的过程包括：根据《知网》义原层次树中的节点总数和义原节点在义原层次树中对应的下位节点数，计算得到义原的第一信息内容含量；根据当前义原节点所在义原层次树路径信息中的义原密度信息和义原深度信息，根据义原密度信息计算当前义原节点及其兄弟节点的节点总和；计算得到义原的第二信息内容含量；结合义原的第一信息内容含量和第二信息内容含量，得到知网义原信息内容含量；其中，利用第一词语相似度计算模型计算待测词语对的相似度的过程包括：分别计算词语对的两个词语在《知网》义原层次树中对应义原节点的知网义原信息内容含量，对应得到两个知网义原信息内容含量；根据两个知网义原信息内容含量的共性信息，计算得到词语对的相似度，计算过程为：其中，函数LCSw1，w2表示词语对w1和w2对应的义原节点的最近公共节点，ICLCSw1,w2表示词语对对应的义原节点的共性信息，ICw1、ICw2分别表示词语对应的知网义原信息内容含量；其中，得到知网义原信息内容含量ICC的计算公式如下：其中，max_nodes表示义原层次树中的节点总数，函数hypoC表示义原节点在义原层次树中对应的下位节点数，函数fC表示当前义原节点所在树的密度信息，c1表示权衡义原深度信息和义原密度信息对信息内容含量的影响权重因子，k表示路径信息的影响权重，k设为0.5，c1设为0.6；其中，利用第二词语相似度计算模型计算待测词语对的相似度的过程为：根据扩展版《同义词词林》词林拓扑树，将词林拓扑树由根节点开始向下逐层划分为大类、中类、小类、词群和原子词群，并将原子词群部分的抽象的概念放到对应上层结构中；从词林拓扑树中获取待测词语对中每个词语对应概念的路径信息，根据每个词语对应概念的路径信息中的概念深度信息，计算概念的信息内容含量；根据待测词语对中两个词语分别对应概念的信息内容含量、对应的概念之间的深度信息，计算待测词语对的相似度；其中，计算词林中概念的信息内容含量IC1C的过程为：其中，max_depth表示词林拓扑树的最大深度，depthC表示当前计算的概念节点的深度，函数hypoC表示当前概念节点在词林拓扑树中对应的下位节点数，max_nodes表示词林拓扑树中的概念节点总数，k表示路径信息的影响权重，k设为0.5；其中，第二词语相似度计算模型的相似度计算过程为：其中，α表示可调参数，p表示用于调节待测词语对w1、w2对应概念之间的路径信息与信息内容含量的权重参数，N表示对应概念之间可达路径上的长度，leveli表示第i条路径在词林拓扑树中所处的层次，函数weight用于计算第i条路径的权重值；其中，获得待测词语对的最终词语相似度的计算公式为：simw1,w2＝λsim1w1,w2+1-λsim2w1,w2，其中，λ表示根据待测词语对w1、w2在《知网》和扩展版《同义词词林》中的分布情况在选用相应计算模型时的分配权重，sim1表示第一词语相似度计算模型的计算结果，sim2表示第二词语相似度计算模型的计算结果；其中，根据待测词语对在《知网》和扩展版《同义词词林》中的分布情况，当词语同时被《知网》和扩展版《同义词词林》收录时用B表示，当词语只被《知网》收录时用A表示，当词语只被扩展版《同义词词林》收录时用C表示，则获得待测词语对的最终词语相似度的过程为：当w1∈B且w2∈B时，将λ设为0.5；当w1∈A且w2∈B时，判断w2在扩展版《同义词词林》中是否存在同义词，若存在，将λ设为0.6，若不存在则将λ设为1；当w1∈B且w2∈C时，判断w1在扩展版《同义词词林》中是否存在同义词，若存在，则将λ设为0.4，若不存在，则将λ设为0；当w1∈A且w2∈C时，判断w2在扩展版《同义词词林》中是否存在同义词，若存在则根据sim1和sim2的计算结果，选取最大值作为待测词语对的最终词语相似度，若不存在，则待测词语对的最终词语相似度为0.1；当w1∈A且w2∈A时，将λ设为1，当w1∈C且w2∈C时，将λ设为0。

全文数据：

权利要求：

百度查询：重庆邮电大学一种结合知网与词林的词语相似度获取方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：通信方法、装置、存储介质及程序产品

下一篇：一种紫外活化过一硫酸盐联用过程去除水中硫酸羟基氯喹的方法

相关技术

通信方法、装置、存储介质及程序产品

一种紫外活化过一硫酸盐联用过程去除水中硫酸羟基氯喹的方法

一种新能源汽车电池包自加热检测柜

单电池气密流阻测试工装结构

一种齿轨车的制动方法、装置、设备及存储介质

一种人脸识别环卫作业电子工牌

柔性石墨烯霍尔传感器及其制备方法

一种基于三嗪共价有机框架材料的制备及用途

一种基于突变适配体的快速检测食品中残留甲硝唑的方法

一种大数据检索方法、装置以及可读存储介质

用于车辆空调系统的控制方法、装置、程序产品及介质

一种超声波诊断检查防护装置

词语相关技术

词语的上下位关系确定方法、装置、计算机设备及介质_腾讯科技(深圳)有限公司_202011281974.3

一种基于词语相似度的中文短文本分类方法和系统_广东工业大学_202410562008.0

一种结合知网与词林的词语相似度获取方法及系统_重庆邮电大学_202111510160.7

一种基于词语相似关系的文本提取系统及提取方法_苏州汇钟灵科技有限公司_202410580004.5

一种英文词语的教学辅助系统及方法_上海电子信息职业技术学院_202410619098.2

目标词语的确定方法、模型的训练方法、装置及电子设备_腾讯科技(深圳)有限公司_202210058255.8

一种基于词语分类的人力资源简历筛选方法_一站发展(北京)云计算科技有限公司_202410613842.8

一种双语词语对齐方法及系统_清华大学_202110801838.0

词语索引模型和医学报告的生成方法、系统、设备和介质_安徽大学_202410804636.5

一种云际环境下基于区块链的关键词语义可搜索加密方法_东北大学_202410473425.8

林相关技术

一种林麝精饲料加工切片装置_陕西亿普恩信息技术有限公司_202323642779.0

一种林麝散养投喂装置_陕西亿普恩信息技术有限公司_202420026201.8

一种特异扩增长林小蠹的组合物及用其检测或鉴定长林小蠹的方法_宁波海关技术中心_202410732092.6

一种构建山、水林、草药组成的生态系统的方法_内蒙古师范大学_202410597130.1

一种循环式超长单面柔性线路板自动曝光菲林装置_东莞市黄江大顺电子有限公司_202410414955.5

自下而上的橡胶林无人机LiDAR点云单木分割方法_中国热带农业科学院橡胶研究所_202410750389.5

一种林长制绩效考核举证系统_国家林业和草原局华东调查规划院_202311123772.X

一种分泌脂质的林麝香腺细胞的分离纯化方法_北京燕麝生物科技发展有限公司_202410648661.9

一种天然林质量评价方法及系统_四川省林业科学研究院(四川省林产工业研究设计所)_202410823063.0

一种林蛙越冬池_沈阳农业大学_202323469974.8

相似相关技术

用于复杂电磁环境构设的相似度评价方法_中国人民解放军91404部队第340所_202210491436.X

相似工单计算方法及装置、介质、设备_浪潮云信息技术股份公司_202410599313.7

一种基于向量数据库的案例相似度推荐系统_苏州恩赫信息科技有限公司_202410625610.4

一种基于物料的相似度阈值匹配方法及系统_数字节点(杭州)科技有限公司_202411100940.8

内容相似度推荐结果的解释方法、计算机程序产品及系统_广东津虹数字科技有限公司_202411081799.1

相似接口推荐方法、装置、设备、存储介质及程序产品_中邮消费金融有限公司_202410857590.3

一种基于气象相似度的臭氧污染预测方法_重庆知行数联智能科技有限责任公司_202410762817.6

一种基于质量及相似评估在线模板更新的目标跟踪方法_燕山大学_202111476809.8

一种相似合路及抵消的功率放大电路_物广科技控股有限公司_202410803976.6

一种用于智慧城市运行管理的多种相似案件的判断方法_山东惠硕信息技术有限公司_202410264267.5

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种结合知网与词林的词语相似度获取方法及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务