首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于规则挖掘的实例匹配方法_东南大学_202110320754.5 

申请/专利权人:东南大学

申请日:2021-03-25

公开(公告)日:2024-06-21

公开(公告)号:CN113157819B

主分类号:G06F18/22

分类号:G06F18/22;G06F16/28;G06F17/18;G06N5/022

优先权:

专利状态码:有效-授权

法律状态:2024.06.21#授权;2021.08.10#实质审查的生效;2021.07.23#公开

摘要:本发明公开了一种基于规则挖掘的实例匹配方法,用于解决不同知识库之间的融合问题。本发明的方法包括步骤:1将多个知识库之间已知的等价实例作为种子集合;2从种子集合的等价实例中挖掘出等价实例的匹配规则,并筛选掉上一轮评估效果不好的匹配规则;3把匹配规则作用在多个知识库的数据上,匹配得到新的等价实例,把新的等价实例添加到种子集合中;4利用匹配规则挖掘出的新的等价实例对匹配规则进行评估;5使用期望最大值算法框架,迭代重复步骤2~步骤4的内容,直到没有新的匹配规则和等价实例产生。通过不断迭代,完成等价实例的寻找,实现知识的融合。

主权项:1.一种基于规则挖掘的实例匹配方法,其特征在于,该方法包括以下步骤:1将多个知识库之间已知的等价实例作为种子集合;2从种子集合的等价实例中挖掘出等价实例的匹配规则,并筛选掉上一轮评估效果不好的匹配规则;步骤2中所述挖掘出等价实例的匹配规则的具体方法是:2-a从种子集合中挖掘出等价实例的等价属性:对于等价实例的两个属性值对p1,v1和p2,v2;其中,p1是等价实例在知识图谱1中实例的属性,v1是知识图谱1中实例属性p1对应的属性值,p2是等价实例在知识图谱2中实例的属性,v2是知识图谱2中实例属性p2对应的属性值;如果v1,v2都是实例,且是等价实例,则两个属性值对为等价属性;如果v1,v2都是值类型数据,且v1=v2,则两个属性值对为等价属性;此外,如果v1,v2是同义词,两个属性值对也为等价属性;如果v1,v2是数值型数据,先进行单位和表达方式的统一,再进行比较;如果v1,v2是集合类型的数据,通过集合相似度进行判断,若达到预设的相似度阈值,两个属性值对也为等价属性;2-b根据等价属性的频率,利用关联规则挖掘算法,挖掘等价属性子集作为匹配规则,使得期望最大化算法中的似然函数值最大,其中,期望最大化算法中的似然函数定义为实例匹配图的连通分量除以边的总数,该似然函数值刻画了匹配规则的准确率,当匹配规则能够寻找的正确的实例匹配越多,似然函数值越高;期望最大化算法的最大化过程中,会确保每一条规则产生的实例匹配图的似然函数值尽可能地大,设定一个阈值,如果一条规则生成的实例匹配图的似然函数值大于该阈值,则会将匹配规则保留;2-c对于保留的匹配规则,筛选掉上一轮迭代中评估效果不好的匹配规则;3把匹配规则作用在多个知识库的数据上,匹配得到新的等价实例,把新的等价实例添加到种子集合中;步骤3中所述把匹配规则作用在多个知识库的数据上,匹配得到新的等价实例的具体方法是:在挖掘出匹配规则后,每一条挖掘出的匹配规则都有一个置信度值,即似然函数值,每条匹配规则可能匹配多对实例匹配,每一对实例匹配也能够由多条匹配规则匹配,每一对实例匹配的置信度由匹配得到该实例匹配的所有匹配规则共同决定,这些匹配规则的置信度通过证据理论进行结合,对于两条匹配规则的置信度conf1,conf2,其中conf1表示规则1的置信度,conf2表示规则2的置信度,这两条规则的置信度结合方式如下: 把这些匹配规则的置信度结合起来作为实例匹配的置信度,当实例匹配的置信度值大于某个阈值时,则认为其是新的等价实例,将其加入到种子集合中;4利用匹配规则挖掘出的新的等价实例对匹配规则进行评估;5使用期望最大值算法框架,迭代重复步骤2~步骤4的内容,直到没有新的匹配规则和等价实例产生,其中步骤2为期望最大化算法的最大化过程,步骤3为期望最大化算法的期望过程。

全文数据:

权利要求:

百度查询: 东南大学 基于规则挖掘的实例匹配方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。