买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京明略软件系统有限公司
摘要:本发明提出一种基于实体话题关联度的领域命名实体去噪方法及系统,包括:S1,获取待识别语料并通过一命名实体识别模型进行实体识别,得到实体列表;S2,将所述实体列表中的每一命名实体拆分为语义元素并通过一相似语义元素模型得到多个领域相关主题及其权重;S3,基于所述步骤S2得到的每一所述领域相关主题及主题的权重计算得到所述命名实体的评分;S4,设定一噪音阈值并根据噪音阈值筛选、过滤所述命名实体中的噪音实体。采用上述方案的领域命名实体去噪方法及系统,针对识别出来的命名实体,进行噪声识别过滤,去除识别错误的与领域不相关实体,以保留正确的实体进行知识图谱的构建。
主权项:1.一种基于实体话题关联度的领域命名实体去噪方法,其特征在于,包括:S1,获取待识别语料并通过一命名实体识别模型进行实体识别,得到实体列表;S2,将所述实体列表中的每一命名实体拆分为语义元素并通过一相似语义元素模型经学习、筛选得到多个领域相关主题及其权重;S3,基于所述步骤S2得到的每一所述领域相关主题及主题的权重计算得到所述命名实体的评分;S4,设定一噪音阈值并根据噪音阈值筛选、过滤所述命名实体中的噪音实体;其中,所述步骤S2进一步包括:S21,将所述命名实体拆分为语义元素;S22,获取一主题数量n并将经所述步骤S21得到的语义元素输入到所述相似语义元素模型中,计算得到n个主题;S23,根据所述步骤S22得到的主题获取多个所述领域相关主题并设置每一所述领域相关主题的权重;其中,所述步骤S22进一步包括:S221,获取所述主题数量n,并根据所述主题数量n在所述语义元素中选取n个代表元素;S222,计算每一主题中每一语义元素与所述代表元素的距离,所述距离为所述语义元素出现在同一实体内次数的倒数;S223,通过组合所述语义元素及与所述语义元素距离最小的代表元素,得到n个主题;S224,确定主题中的中心元素,所述中心元素为与主题中其他元素的距离之和最小的元素;S225,重复步骤S221~S224直至每个主题内的中心元素不再变化。
全文数据:
权利要求:
百度查询: 北京明略软件系统有限公司 一种基于实体话题关联度的领域命名实体去噪方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。