【发明授权】一种基于多特征的术语检索方法_中国标准化研究院_202010404933.2

导航：龙图腾网> 最新专利技术> 一种基于多特征的术语检索方法_中国标准化研究院_202010404933.2

申请/专利权人：中国标准化研究院

申请日：2020-05-13

公开（公告）日：2024-06-04

公开（公告）号：CN111597315B

主分类号：G06F16/332

分类号：G06F16/332;G06F16/338;G06F16/35

优先权：

专利状态码：有效-授权

法律状态：2024.06.04#授权;2020.09.22#实质审查的生效;2020.08.28#公开

摘要：本发明公开了一种基于多特征的术语检索方法，该方法包括如下步骤：建立术语的表示模型结构的步骤；基于术语的表示模型，对术语名称进行相似度计算得到术语名称相似度的步骤；基于术语的表示模型，对术语的定义及相关特征进行相似度计算得到术语相关特征相似度的步骤；融合术语名称相似度及术语相关特征相似度，计算得到术语综合相似度的步骤；融合术语名称相似度、术语相关特征相似度及术语综合相似度，进行多特征检索得到相似术语的步骤；对检索得到的相似术语，结合术语综合相似度和术语所属领域信息进行排序的步骤。该方法能有效发现检索出相关术语，并对相似术语集合进行合理排序，满足多种术语检索的应用要求，利于术语的编写和规范使用。

主权项：1.一种基于多特征的术语检索方法，其特征在于该方法包括如下步骤：建立术语的表示模型结构的步骤；基于术语的表示模型，对术语名称进行相似度计算得到术语名称相似度的步骤；基于术语的表示模型，对术语的定义及相关特征进行相似度计算得到术语相关特征相似度的步骤；融合术语名称相似度及术语相关特征相似度，计算得到术语综合相似度的步骤；融合术语名称相似度、术语相关特征相似度及术语综合相似度，进行多特征检索得到相似术语的步骤；对检索得到的相似术语，结合术语综合相似度和术语所属领域信息进行排序的步骤；所述建立术语的表示模型结构的步骤中，基于五元组建立术语的表示模型结构为：T＝t,et,C,D,N其中，t为术语的中文名称；et为术语的英文名称；C为术语的所属领域的信息；D为术语的标准定义；N是其它信息的结合；对于术语T1和术语T2，所述基于术语的表示模型，对术语名称进行相似度计算得到术语名称相似度的步骤，包括：21分别将术语T1和术语T2的中文名称切分成字的集合：将术语T1的中文名称T1.t＝c1…cm切分成字的集合T1_Set＝{c1,c2..cm}，其中m是T1.t的长度；将术语T2的中文名称T2.t＝d1..dn切分成字的集合T2_Set＝{d1,d2…dn}，其中n是T2.t的长度；22对术语T1和术语T2的中文名称进行相似度计算得到术语中文名称相似度：其中IntersectionT1_set，T2_set表示括号内两个集合的交集的元素个数，UnionT1_set，T2_set表示括号内两个集合的并集的元素个数，LCST1.t，T2.t表示括号内两个术语中文名称的最长公共子串，Len表示括号内串的长度，Maxm，n表示m，n的最大值，α为第一权值；23分别将术语T1和术语T2的英文名称切分成2-gram序列集合：将术语T1的英文名称T1.et＝w1..wn切分成2-gram序列集合T1_et_set＝{w1w2，w2w3，...wn-1wn}；将术语T2的英文名称T2.et＝w1’…wn’切分成2-gram序列集合T2_et_set＝{w1’w2’，w2’w3’，...，wn-1’wn’}；24对术语T1和术语T2的英文名称进行相似度计算得到术语英文名称相似度：其中IntersectionT1_et_set，T2_et_set表示括号内两个集合的交集的元素个数，UnionT1_et_set，T2_et_set表示括号内两个集合的并集的元素个数；25融合术语中文名称相似度和术语英文名称相似度，得到术语T1和术语T2的术语名称相似度：SimnameT1，T2＝β*SimtT1.t，T2.t+1-β*SimetT1.et，T2.et其中，β为第二权值；对于术语T1和术语T2，所述基于术语的表示模型，对术语的定义及相关特征进行相似度计算得到术语相关特征相似度的步骤，包括：31对术语T1和术语T2的定义进行相似度计算得到术语定义相似度：其中SameT1.D，T2.D表示括号内两个集合中相同词的个数，UnionT1.D，T2.D表示括号内两个集合中所有不同词的个数；32对术语T1和术语T2的其它信息进行相似度计算得到术语其它信息相似度：其中SameT1.N，T2.N表示括号内两个集合中相同词的个数，UnionT1.N，T2.N表示括号内两个集合中所有不同词的个数；33融合术语定义相似度和术语其它信息相似度，得到术语T1和术语T2的术语相关特征相似度：SiminfoT1，T2＝γ*Sim_DT1.D，T2.D+1-γ*Sim_NT1.N，T2.N其中，γ为第三权值；所述融合术语名称相似度、术语相关特征相似度及术语综合相似度，进行多特征检索得到相似术语的步骤中，包括对于给定术语T1，遍历术语库Dic中的每一个术语进行相似度判断，直到术语库Dic中所有的术语都判断完毕，得到给定术语T1的相似术语集合resultLst；其中对于给定术语T1与术语库Dic中的术语T2进行相似度判断的步骤包括：41计算术语T1和术语T2的术语名称相似度SimnameT1，T2，判断SimnameT1，T2是否大于第一预设阈值θ1，如是，则将T2放入到相似术语集合resultLst中后继续进行给定术语T1与术语库Dic中的下一个术语的相似度判断，如否，则进入步骤42，第一预设阈值θ1＝0.75；42计算术语T1和术语T2的术语相关特征相似度SiminfoT1，T2，判断SiminfoT1，T2是否大于第二预设阈值θ2，如是，则将T2放入到相似术语集合resultLst中后继续进行给定术语T1与术语库Dic中的下一个术语的相似度判断，如否，则进入步骤43，第二预设阈值θ2＝0.7；43计算术语T1和术语T2的术语综合相似度SimT1，T2＝SimnameT1，T2+SiminfoT1，T22，判断Sim是否大于第三预设阈值θ3，如是，则将T2放入到相似术语集合resultLst中后继续进行给定术语T1与术语库Dic中的下一个术语的相似度判断，直至遍历结束；如否，则继续进行给定术语T1与术语库Dic中的下一个术语的相似度判断直至遍历结束，第三预设阈值θ3＝0.5；其中第一权值α、第二权值β和第三权值γ数值相同；所述第一预设阈值θ1、第二预设阈值θ2、第三预设阈值θ3的取值依次递减；所述对检索得到的相似术语，结合术语综合相似度和术语所属领域信息进行排序的步骤中，对于术语T1，将其通过相似度判断得到的相似术语集合resultLst中的相似术语进行如下排序：51首先按术语T1与resultLst中各相似术语的术语综合相似度从大到小的顺序依次排序；52对于其中与术语T1的术语综合相似度的数值相同的若干相似术语，进一步结合术语表示模型中的术语所属领域信息C进行排序，排序规则如下：521如T1.C＝T2.C，则排在此若干相似术语的第一顺序；522如T1.则排在此若干相似术语的第二顺序；533如T1.则排在此若干相似术语的第三顺序；534如则排在此若干相似术语的第四顺序；535否则，排在此若干相似术语的最后顺序；所述融合术语名称相似度及术语相关特征相似度，计算得到术语综合相似度的步骤中，对于术语T1和术语T2，所述术语综合相似度为术语名称相似度和术语相关特征相似度的均值，术语T1和术语T2的术语综合相似度SimT1,T2为：SimT1,T2＝SimnameT1,T2+SiminfoT1,T22；融合术语名称相似度、术语相关特征相似度及术语综合相似度，进行多特征检索得到相似术语的步骤，包括：对于给定术语T1，遍历术语库Dic中的每一个术语进行相似度判断，直到术语库Dic中所有的术语都判断完毕，得到给定术语T1的相似术语集合resultLst的步骤；其中，对检索得到的相似术语，结合术语综合相似度和术语所属领域信息进行排序的步骤，包括：对于给定术语T1，首先按术语T1与resultLst中各相似术语的术语综合相似度从大到小的顺序依次排序的步骤；以及对于其中与术语T1的术语综合相似度的数值相同的若干相似术语，进一步结合术语表示模型中的术语所属领域信息C进行排序的步骤。

全文数据：

权利要求：

百度查询：中国标准化研究院一种基于多特征的术语检索方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种机房巡检机器人控制方法及系统_广州申迪智能科技有限公司_202311823017.2

下一篇：一种自润滑长寿命硬质合金串珠及其制备方法和应用_郑州机械研究所有限公司_202311466192.0

相关技术

一种机房巡检机器人控制方法及系统_广州申迪智能科技有限公司_202311823017.2

一种自润滑长寿命硬质合金串珠及其制备方法和应用_郑州机械研究所有限公司_202311466192.0

升降销硬止动件_朗姆研究公司_202280073752.3

由独立组分生产的果仁酱仿品_航行食品股份有限公司_202280059657.8

一种降低彩虹纹的光栅波导装置以及波导系统_北京至格科技有限公司_202410658035.8

小区内犬只预警方法、装置、电子设备和介质_中国电信股份有限公司_202211645591.9

用于提供更新的机器学习算法的系统和方法_西门子医疗有限公司_202311623232.8

交互控制方法、装置及电子设备_网易(杭州)网络有限公司_202410176251.9

一种化学发光免疫分析仪的试剂仓_山东中鸿特检生物科技有限公司_202410659557.X

催化剂质子膜涂层及其制备方法、以及膜电极、燃料电池_武汉氢能与燃料电池产业技术研究院有限公司_202410642734.3

一种基于无人机图像的安全帽与反光衣检测方法_东北林业大学_202410326065.9

一种基于生物技术的实验室用空气过滤装置_汇智赢华医疗科技研发(北京)有限公司_202410305488.2

术语相关技术

用于独立于领域的术语链接的系统和方法_罗伯特·博世有限公司_201880090468.0

基于大语言模型做数据增强的医学术语归一化方法_浙江大学_202410266524.9

临床术语标准化方法、装置、电子设备及存储介质_青岛国新健康产业科技有限公司_202110767577.5

一种基于半监督学习的企业数字化术语库构建方法及系统_武汉大学_202311666252.3

一种术语编译方法、术语编译系统、存储介质和电子设备_广东优特云科技有限公司_202410304744.6

一种基于多特征的术语检索方法_中国标准化研究院_202010404933.2

一种临床术语标准化方法_昆明理工大学_202410257563.2

一种肿瘤类疾病临床诊断术语集的构建方法_李书梅_202410324060.2

一种标准术语结构化处理方法_江苏省质量和标准化研究院_202410527490.4

医学术语标准化方法、装置、电子设备及存储介质_卫宁健康科技集团股份有限公司_202011502982.6

特征相关技术

一种特征冗余性分析方法、特征选择方法和相关装置_北京京东尚科信息技术有限公司_201810299340.7

带生物特征签名验证的笔_亚尼夫·科恩_202280074870.6

一种基于微分频域特征的浮选过程关联泡沫图像特征选择方法_中南大学_202310526456.0

基于变换特征的视频融合方法及系统_智慧互通科技股份有限公司_202410055310.7

经由增强现实（AR）传递的地图特征_移动眼视觉科技有限公司_202280075298.5

多维特征融合ISAR质量评估系统及其方法_西安电子科技大学_202410643543.9

一种心电图图像特征提取方法_中国人民解放军空军军医大学_202410634217.1

一种特征可视化方法及装置_华为云计算技术有限公司_202211595387.0

用于圆形外科缝合器的组织稳定特征部_西拉格国际有限公司_202280075378.0

一种特征比对方法、装置及系统_浙江大华技术股份有限公司_202110835742.6

方法相关技术

配置方法_意法半导体(大西部)公司_202311748134.7

设备控制方法方法和装置_珠海格力电器股份有限公司_202111537707.2

模型预训练方法、模型训练方法、对象处理方法及装置_北京百度网讯科技有限公司_202310701200.9

脱水方法_赛纳塔生物有限公司_202280073278.4

任务处理方法、法律问答方法及任务处理模型训练方法_阿里巴巴(中国)有限公司_202410660148.1

移动台、基站、发送方法及接收方法_松下电器(美国)知识产权公司_201980043653.9

模型构建方法、图像分割方法、装置、设备、介质_北京字跳网络技术有限公司_202211634709.8

测试结构及其形成方法及测试方法_中芯国际集成电路制造(北京)有限公司_202211638350.1

消息发送方法、装置和资源分配方法、装置_北京小米移动软件有限公司_201880000686.0

窗口插件配置方法、窗口数据采集方法及装置_北京字节跳动网络技术有限公司_202111209776.0

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明授权】一种基于多特征的术语检索方法_中国标准化研究院_202010404933.2

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务