首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于多特征的术语检索方法_中国标准化研究院_202010404933.2 

申请/专利权人:中国标准化研究院

申请日:2020-05-13

公开(公告)日:2024-06-04

公开(公告)号:CN111597315B

主分类号:G06F16/332

分类号:G06F16/332;G06F16/338;G06F16/35

优先权:

专利状态码:有效-授权

法律状态:2024.06.04#授权;2020.09.22#实质审查的生效;2020.08.28#公开

摘要:本发明公开了一种基于多特征的术语检索方法,该方法包括如下步骤:建立术语的表示模型结构的步骤;基于术语的表示模型,对术语名称进行相似度计算得到术语名称相似度的步骤;基于术语的表示模型,对术语的定义及相关特征进行相似度计算得到术语相关特征相似度的步骤;融合术语名称相似度及术语相关特征相似度,计算得到术语综合相似度的步骤;融合术语名称相似度、术语相关特征相似度及术语综合相似度,进行多特征检索得到相似术语的步骤;对检索得到的相似术语,结合术语综合相似度和术语所属领域信息进行排序的步骤。该方法能有效发现检索出相关术语,并对相似术语集合进行合理排序,满足多种术语检索的应用要求,利于术语的编写和规范使用。

主权项:1.一种基于多特征的术语检索方法,其特征在于该方法包括如下步骤:建立术语的表示模型结构的步骤;基于术语的表示模型,对术语名称进行相似度计算得到术语名称相似度的步骤;基于术语的表示模型,对术语的定义及相关特征进行相似度计算得到术语相关特征相似度的步骤;融合术语名称相似度及术语相关特征相似度,计算得到术语综合相似度的步骤;融合术语名称相似度、术语相关特征相似度及术语综合相似度,进行多特征检索得到相似术语的步骤;对检索得到的相似术语,结合术语综合相似度和术语所属领域信息进行排序的步骤;所述建立术语的表示模型结构的步骤中,基于五元组建立术语的表示模型结构为:T=t,et,C,D,N其中,t为术语的中文名称;et为术语的英文名称;C为术语的所属领域的信息;D为术语的标准定义;N是其它信息的结合;对于术语T1和术语T2,所述基于术语的表示模型,对术语名称进行相似度计算得到术语名称相似度的步骤,包括:21分别将术语T1和术语T2的中文名称切分成字的集合:将术语T1的中文名称T1.t=c1…cm切分成字的集合T1_Set={c1,c2..cm},其中m是T1.t的长度;将术语T2的中文名称T2.t=d1..dn切分成字的集合T2_Set={d1,d2…dn},其中n是T2.t的长度;22对术语T1和术语T2的中文名称进行相似度计算得到术语中文名称相似度: 其中IntersectionT1_set,T2_set表示括号内两个集合的交集的元素个数,UnionT1_set,T2_set表示括号内两个集合的并集的元素个数,LCST1.t,T2.t表示括号内两个术语中文名称的最长公共子串,Len表示括号内串的长度,Maxm,n表示m,n的最大值,α为第一权值;23分别将术语T1和术语T2的英文名称切分成2-gram序列集合:将术语T1的英文名称T1.et=w1..wn切分成2-gram序列集合T1_et_set={w1w2,w2w3,...wn-1wn};将术语T2的英文名称T2.et=w1’…wn’切分成2-gram序列集合T2_et_set={w1’w2’,w2’w3’,...,wn-1’wn’};24对术语T1和术语T2的英文名称进行相似度计算得到术语英文名称相似度: 其中IntersectionT1_et_set,T2_et_set表示括号内两个集合的交集的元素个数,UnionT1_et_set,T2_et_set表示括号内两个集合的并集的元素个数;25融合术语中文名称相似度和术语英文名称相似度,得到术语T1和术语T2的术语名称相似度:SimnameT1,T2=β*SimtT1.t,T2.t+1-β*SimetT1.et,T2.et其中,β为第二权值;对于术语T1和术语T2,所述基于术语的表示模型,对术语的定义及相关特征进行相似度计算得到术语相关特征相似度的步骤,包括:31对术语T1和术语T2的定义进行相似度计算得到术语定义相似度: 其中SameT1.D,T2.D表示括号内两个集合中相同词的个数,UnionT1.D,T2.D表示括号内两个集合中所有不同词的个数;32对术语T1和术语T2的其它信息进行相似度计算得到术语其它信息相似度: 其中SameT1.N,T2.N表示括号内两个集合中相同词的个数,UnionT1.N,T2.N表示括号内两个集合中所有不同词的个数;33融合术语定义相似度和术语其它信息相似度,得到术语T1和术语T2的术语相关特征相似度:SiminfoT1,T2=γ*Sim_DT1.D,T2.D+1-γ*Sim_NT1.N,T2.N其中,γ为第三权值;所述融合术语名称相似度、术语相关特征相似度及术语综合相似度,进行多特征检索得到相似术语的步骤中,包括对于给定术语T1,遍历术语库Dic中的每一个术语进行相似度判断,直到术语库Dic中所有的术语都判断完毕,得到给定术语T1的相似术语集合resultLst;其中对于给定术语T1与术语库Dic中的术语T2进行相似度判断的步骤包括:41计算术语T1和术语T2的术语名称相似度SimnameT1,T2,判断SimnameT1,T2是否大于第一预设阈值θ1,如是,则将T2放入到相似术语集合resultLst中后继续进行给定术语T1与术语库Dic中的下一个术语的相似度判断,如否,则进入步骤42,第一预设阈值θ1=0.75;42计算术语T1和术语T2的术语相关特征相似度SiminfoT1,T2,判断SiminfoT1,T2是否大于第二预设阈值θ2,如是,则将T2放入到相似术语集合resultLst中后继续进行给定术语T1与术语库Dic中的下一个术语的相似度判断,如否,则进入步骤43,第二预设阈值θ2=0.7;43计算术语T1和术语T2的术语综合相似度SimT1,T2=SimnameT1,T2+SiminfoT1,T22,判断Sim是否大于第三预设阈值θ3,如是,则将T2放入到相似术语集合resultLst中后继续进行给定术语T1与术语库Dic中的下一个术语的相似度判断,直至遍历结束;如否,则继续进行给定术语T1与术语库Dic中的下一个术语的相似度判断直至遍历结束,第三预设阈值θ3=0.5;其中第一权值α、第二权值β和第三权值γ数值相同;所述第一预设阈值θ1、第二预设阈值θ2、第三预设阈值θ3的取值依次递减;所述对检索得到的相似术语,结合术语综合相似度和术语所属领域信息进行排序的步骤中,对于术语T1,将其通过相似度判断得到的相似术语集合resultLst中的相似术语进行如下排序:51首先按术语T1与resultLst中各相似术语的术语综合相似度从大到小的顺序依次排序;52对于其中与术语T1的术语综合相似度的数值相同的若干相似术语,进一步结合术语表示模型中的术语所属领域信息C进行排序,排序规则如下:521如T1.C=T2.C,则排在此若干相似术语的第一顺序;522如T1.则排在此若干相似术语的第二顺序;533如T1.则排在此若干相似术语的第三顺序;534如则排在此若干相似术语的第四顺序;535否则,排在此若干相似术语的最后顺序;所述融合术语名称相似度及术语相关特征相似度,计算得到术语综合相似度的步骤中,对于术语T1和术语T2,所述术语综合相似度为术语名称相似度和术语相关特征相似度的均值,术语T1和术语T2的术语综合相似度SimT1,T2为:SimT1,T2=SimnameT1,T2+SiminfoT1,T22;融合术语名称相似度、术语相关特征相似度及术语综合相似度,进行多特征检索得到相似术语的步骤,包括:对于给定术语T1,遍历术语库Dic中的每一个术语进行相似度判断,直到术语库Dic中所有的术语都判断完毕,得到给定术语T1的相似术语集合resultLst的步骤;其中,对检索得到的相似术语,结合术语综合相似度和术语所属领域信息进行排序的步骤,包括:对于给定术语T1,首先按术语T1与resultLst中各相似术语的术语综合相似度从大到小的顺序依次排序的步骤;以及对于其中与术语T1的术语综合相似度的数值相同的若干相似术语,进一步结合术语表示模型中的术语所属领域信息C进行排序的步骤。

全文数据:

权利要求:

百度查询: 中国标准化研究院 一种基于多特征的术语检索方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。