买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京海致科技集团有限公司
摘要:本发明提供了一种基于spark的知识图谱关系数据增量计算方法、装置,方法包括如下步骤:根据时间数据的id信息,找出新增以及更新的事件数据;通过新增以及更新的事件数据,根据关系提取时的条件,获取会产生新增关系数据的关联数据;将关联数据去重后,则为能够产生新增关系数据的条件;将关联数据与全部事件数据对比,生成需要增量计算的事件数据;利用关系数据计算方法计算出新增的关系数据;将新增的关系数据与旧的关系数据合并,得到最新的关系数据。本发明提供的基于spark的知识图谱关系数据增量计算方法、装置,对新增数据提取关键数据,在事件数据中提取能够产生增量关系的中间数据,再通过关系的清洗,完成关系的增量计算,优化用户的关系计算。
主权项:1.一种基于spark的知识图谱关系数据增量计算方法,其特征在于,包括如下步骤:根据时间数据的id信息,找出新增以及更新的事件数据;通过新增以及更新的事件数据,根据关系提取时的条件,获取会产生新增关系数据的关联数据;将所述关联数据去重后,则为能够产生新增关系数据的条件;将关联数据与全部事件数据对比,当关联数据量小于预设值时,将关联数据落盘后,触发sparksql的broadcastjoin,生成需要增量计算的事件数据;利用关系数据计算方法计算出新增的关系数据;将新增的关系数据与旧的关系数据合并,得到最新的关系数据,其中,利用关系数据计算方法计算出新增的关系数据包括:利用hive窗口规范函数;使用PARTITIONBY与ORDERBY语句,使用一个或者多个数据类型的分区或者排序列;满足包含相同条件、偏移条件、交集条件关系的提取。
全文数据:
权利要求:
百度查询: 北京海致科技集团有限公司 一种基于spark的知识图谱关系数据增量计算方法和装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。