首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于层级聚类和属性挖掘的可计算价值体系构建方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国科学技术大学

摘要:本发明涉及自然语言理解技术技术领域,公开了一种基于层级聚类和属性挖掘的可计算价值体系构建方法,包括:层级节点挖掘,将语料数据聚类为四个类别的语料,提取关键词,将所有关键词汇总并去重后得到的关键词作为词节点;基于软硬权重融合的节点关系属性构建;多层级综合知识匹配计算,初始化测试文本的价值分数,提取测试文本中的实体,根据实体对应的词节点的相邻词节点的层级属性,以及词节点间的边对应的权值,计算实体的价值分数,将测试文本中所有实体的价值分数求和,得到测试文本的价值分数。本发明从多层次知识判别的角度提出了基于层级聚类和属性挖掘的可计算价值体系构建方法,按照由粗到细的粒度对输入文本进行价值计算。

主权项:1.一种基于层级聚类和属性挖掘的可计算价值体系构建方法,其特征在于,用于对网络中传播的文本的价值分数进行计算,具体包括以下步骤:步骤一,层级节点挖掘:将语料数据聚类为四个类别的语料,四个类别包括代表正向语料的类别Ae、代表中立语料的类别B、代表无关语料的类别C和代表负向语料的类别Ne;提取所有语料的关键词,将所有关键词汇总并去重后得到的N个关键词作为词节点,得到独立词节点集合,为第i个词节点,;将各词节点对应的关键词在每类语料的总词频和每类语料中语料实例总数的比值,输入到归一化函数,得到词节点的层级属性;层级属性中的每个维度表示对应的语料属于不同类别的概率;具体包括:将四个类别中的语料使用命名实体识别技术进行关键词提取,对于每个类别,将得到一个有重复元素的关键词集合,并且不同类别对应的关键词集合之间存在重叠的关键词;对所有关键词汇总并去重,将得到的N个关键词作为N个词节点,得到独立词节点集合;为每个词节点计算层级属性: ;其中,代表词节点的层级属性,代表第i个关键词在类别的语料中的总词频,代表类别中的语料实例的总数,softmax为归一化函数;层级属性中的每个维度表示对应的语料属于不同类别的概率,如果最大概率对应的类别为类别X,则将词节点划分至层级X,;步骤二,将一段语料切分为长度为的分词序列,其中第个分词,,并建立索引映射函数:;利用预训练的关系抽取模型处理分词,将具有语义关系的分词所对应的词节点组成节点对,得到节点对集合;基于所述节点对集合来构建用于表示词节点间的关系硬标签的硬关系矩阵;判断第m个词节点与第n个词节点组成的节点对,是否在节点对集合中,如是,则将中的元素置为1,如否,则元素置为0;对分词序列进行掩码处理,将掩码处理结果作为训练数据对BERT模型进行训练,BERT模型输出用于表示分词间的关系软标签的注意力分数矩阵;基于硬关系矩阵和注意力分数矩阵,得到融合关系矩阵;对按置信度进行加权平均来获取词节点间最终的关系矩阵r;具体包括:给定词节点个数N、一段语料的分词序列长度以及硬关系矩阵,初始化一个全零的矩阵,根据硬关系矩阵和分词阶段建立的索引映射函数,在全零矩阵对应的索引位置填入1;通过门控机制来融合矩阵和注意力分数矩阵,得到融合关系矩阵: ;其中,代表Sigmoid函数,、均为可学习参数,代表按元素乘积;BERT模型由L层Transformer编码器组成;取最后一层Transformer编码器输出的融合关系矩阵,融合关系矩阵中包含代表所有分词之间的关系分数的元素,需要按照分词到词节点的映射关系在中截取出词节点之间的关系矩阵,由于一个词节点对应的关键词会出现在语料中的多个位置,导致生成多个关系矩阵,需要根据BERT模型给出的置信度进行加权平均: ; 为截取矩阵操作,为按置信度加权平均,softmax为归一化函数,为词节点间最终的关系矩阵r;r中的元素表示两个词节点的关系分数;当两个词节点的关系分数高于阈值时,在两个词节点间建立一条以该关系分数为权值的边,进而得到节点价值图;节点价值图中包含多个词节点,每个词节点对应着层级属性或者关系属性,能够进行词节点层级的计算;步骤三,通过类别Ae的语料和类别Ne的语料来调整所述BERT模型,以二分类的任务形式使BERT模型具有区分输入的文本为正向价值文本或者负向价值文本的能力;将测试文本输入到调整后的BERT模型中,对测试文本进行初步价值划分:如果测试文本被分类为负向价值文本,则初始化测试文本的价值分数;如果测试文本被分类为正向价值文本,则初始化测试文本的价值分数为;提取测试文本中的实体,得到测试文本的实体序列;对于实体序列中的每个实体,在节点价值图中查询对应的词节点,根据实体对应的词节点的相邻词节点的层级属性,以及词节点间的边对应的权值,计算实体的价值分数;将测试文本中所有实体的价值分数求和,得到测试文本的价值分数,具体包括:使用命名实体识别技术提取测试文本中的实体,得到K个实体的序列;针对的第k个实体,,检索节点价值图,得到实体的层级属性,p为实体在节点价值图中对应的词节点的索引;在节点价值图中有q个词节点与词节点连接,则词节点的关系属性表示为关系分数的序列和邻接词节点的层级属性的序列,分别为词节点的q个邻接词节点在节点价值图中的索引,表示词节点与词节点之间的关系分数,为词节点的层级属性;则测试文本的价值分数为: ; ;其中,为实体的价值分数,tanh为激活函数,为加权向量。

全文数据:

权利要求:

百度查询: 中国科学技术大学 基于层级聚类和属性挖掘的可计算价值体系构建方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。