买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:数据空间研究院
摘要:本发明公开了一种基于矛盾纠纷数据的知识图谱构建方法,包括S1、采集矛盾纠纷数据;S2、对矛盾纠纷数据进行清洗和预处理。S3、对于清洗和预处理后的矛盾纠纷数据,抽取实体、关系和属性,并将非结构化或半结构化数据转化为结构化的三元组;S4、通过改进孪生网络模型计算实体对的相似性,对不同数据源的相似实体之间进行合并,并处理实体消歧问题;S5、采用改进TransE算法进行实体间的关系推理,挖掘隐藏的人员身份信息;S6、基于矛盾纠纷已知风险信息和矛盾纠纷潜在风险信息合并形成矛盾纠纷画像。本发明全方位分析多元矛盾纠纷事件全貌,为分析矛盾纠纷成因溯源和疏导处置提供依据。
主权项:1.一种基于矛盾纠纷数据的知识图谱构建方法,其特征在于,包括如下步骤:S1、数据采集:依托大数据中心采集矛盾纠纷数据;S2、数据清洗:对矛盾纠纷数据进行清洗和预处理,包括去除重复项、填充缺失值、纠正错误和标准化数据格式;S3、知识抽取:对于清洗和预处理后的矛盾纠纷数据,抽取实体、关系和属性,并将非结构化或半结构化数据转化为结构化的三元组;S4、知识融合:通过改进孪生网络模型计算实体对的相似性,对不同数据源的相似实体之间进行合并,并处理实体消歧问题;S5、关系推导:采用改进TransE算法进行实体间的关系推理,挖掘隐藏的人员身份信息;S6、个人画像:通过图数据库和图神经网络分别对知识图谱的三元组表进行推理分别获取矛盾纠纷已知风险信息和矛盾纠纷潜在风险信息,基于矛盾纠纷已知风险信息和矛盾纠纷潜在风险信息合并形成最终的矛盾纠纷画像;所述改进孪生网络模型包括两个相同的图注意力网络,两个图注意力网络具有相同的结构,且参数是独立的,两个图注意力网络共享权重并且并行处理两个不同的输入,两个实体及其关系的初始表示,学习比较两个输入向量并输出两个输入向量之间的相似性:共享网络层:共享相同的权重,选用图注意力网络的图注意力网络对实体进行编码,对于每个实体都有一个GAT分支用于学习实体的表示;合并层:通过两个相同的图注意力网络处理了两个输入的实体数据记作和,通过一个合并层,计算两个向量之间的相似度,使用余弦相似度来计算实体对之间的相似度: ;输出层:输出两个相同的图注意力网络的值,值被限制在0到1之间,解释为相似度的概率;所述图注意力网络的编码流程如下:在知识图谱中实体用节点表示,关系用边表示: ;其中,是节点集合,是边集合,每个节点都有一个特征向量;计算每个节点与其邻居节点之间的注意力系数,对于每一对节点,计算注意力系数: ;其中,和分别表示节点和与节点之间的关系向量,表示向量拼接,是转置的注意力向量,LeakyReLU是激活函数;使用注意力系数加权求和邻居节点的特征,更新每个节点的特征表示,对于每个节点,更新后的特征为: ;其中,是与关系向量相关的权重矩阵,是非线性激活函数ReLU;结合不同层次的邻居信息,第一层关注一阶邻居,第二层关注二阶邻居;所述改进孪生网络模型训练和评估具体包括:采用生成对抗网络生成的负样本;使用三重损失函数进行改进孪生网络模型的优化,调整改进孪生网络模型的权重,三重损失函数定义为: ;其中,和表示两个处理好后的实体特征向量,是负样本的特征表示,margin是一个预设的边界;使用三重损失函数训练改进孪生网络模型,并在验证集上评估改进孪生网络模型性能;使用训练好的改进孪生网络模型计算两个实体间的相似度,并通过人工设定的阈值,当实体间相似度达到阈值时,则认为两个实体为同一个实体,进行合并;所述改进TransE算法构建包括:对于每个实体和关系,初始化向量表示和;对于每个正样本三元组和对应的负样本三元组,应用ReLU激活: ;计算余弦相似度: ;对比损失函数: ;总损失: ;使用Adam优化算法更新实体和关系的向量表示: ;其中,是学习率;对于给定的实体对,计算与每个关系的得分,并选择得分最高的关系: ;使用准确率、召回率、F1分数评估模型在测试集上的性能。
全文数据:
权利要求:
百度查询: 数据空间研究院 一种基于矛盾纠纷数据的知识图谱构建方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。