基于层级聚类和属性挖掘的可计算价值体系构建方法

导航：龙图腾网> 最新专利技术> 基于层级聚类和属性挖掘的可计算价值体系构建方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：中国科学技术大学

摘要：本发明涉及自然语言理解技术技术领域，公开了一种基于层级聚类和属性挖掘的可计算价值体系构建方法，包括：层级节点挖掘，将语料数据聚类为四个类别的语料，提取关键词，将所有关键词汇总并去重后得到的关键词作为词节点；基于软硬权重融合的节点关系属性构建；多层级综合知识匹配计算，初始化测试文本的价值分数，提取测试文本中的实体，根据实体对应的词节点的相邻词节点的层级属性，以及词节点间的边对应的权值，计算实体的价值分数，将测试文本中所有实体的价值分数求和，得到测试文本的价值分数。本发明从多层次知识判别的角度提出了基于层级聚类和属性挖掘的可计算价值体系构建方法，按照由粗到细的粒度对输入文本进行价值计算。

主权项：1.一种基于层级聚类和属性挖掘的可计算价值体系构建方法，其特征在于，用于对网络中传播的文本的价值分数进行计算，具体包括以下步骤：步骤一，层级节点挖掘：将语料数据聚类为四个类别的语料，四个类别包括代表正向语料的类别Ae、代表中立语料的类别B、代表无关语料的类别C和代表负向语料的类别Ne；提取所有语料的关键词，将所有关键词汇总并去重后得到的N个关键词作为词节点，得到独立词节点集合，为第i个词节点，；将各词节点对应的关键词在每类语料的总词频和每类语料中语料实例总数的比值，输入到归一化函数，得到词节点的层级属性；层级属性中的每个维度表示对应的语料属于不同类别的概率；具体包括：将四个类别中的语料使用命名实体识别技术进行关键词提取，对于每个类别，将得到一个有重复元素的关键词集合，并且不同类别对应的关键词集合之间存在重叠的关键词；对所有关键词汇总并去重，将得到的N个关键词作为N个词节点，得到独立词节点集合；为每个词节点计算层级属性：；其中，代表词节点的层级属性，代表第i个关键词在类别的语料中的总词频，代表类别中的语料实例的总数，softmax为归一化函数；层级属性中的每个维度表示对应的语料属于不同类别的概率，如果最大概率对应的类别为类别X，则将词节点划分至层级X，；步骤二，将一段语料切分为长度为的分词序列，其中第个分词，，并建立索引映射函数：；利用预训练的关系抽取模型处理分词，将具有语义关系的分词所对应的词节点组成节点对，得到节点对集合；基于所述节点对集合来构建用于表示词节点间的关系硬标签的硬关系矩阵；判断第m个词节点与第n个词节点组成的节点对，是否在节点对集合中，如是，则将中的元素置为1，如否，则元素置为0；对分词序列进行掩码处理，将掩码处理结果作为训练数据对BERT模型进行训练，BERT模型输出用于表示分词间的关系软标签的注意力分数矩阵；基于硬关系矩阵和注意力分数矩阵，得到融合关系矩阵；对按置信度进行加权平均来获取词节点间最终的关系矩阵r；具体包括：给定词节点个数N、一段语料的分词序列长度以及硬关系矩阵，初始化一个全零的矩阵，根据硬关系矩阵和分词阶段建立的索引映射函数，在全零矩阵对应的索引位置填入1；通过门控机制来融合矩阵和注意力分数矩阵，得到融合关系矩阵：；其中，代表Sigmoid函数，、均为可学习参数，代表按元素乘积；BERT模型由L层Transformer编码器组成；取最后一层Transformer编码器输出的融合关系矩阵，融合关系矩阵中包含代表所有分词之间的关系分数的元素，需要按照分词到词节点的映射关系在中截取出词节点之间的关系矩阵，由于一个词节点对应的关键词会出现在语料中的多个位置，导致生成多个关系矩阵，需要根据BERT模型给出的置信度进行加权平均：；为截取矩阵操作，为按置信度加权平均，softmax为归一化函数，为词节点间最终的关系矩阵r；r中的元素表示两个词节点的关系分数；当两个词节点的关系分数高于阈值时，在两个词节点间建立一条以该关系分数为权值的边，进而得到节点价值图；节点价值图中包含多个词节点，每个词节点对应着层级属性或者关系属性，能够进行词节点层级的计算；步骤三，通过类别Ae的语料和类别Ne的语料来调整所述BERT模型，以二分类的任务形式使BERT模型具有区分输入的文本为正向价值文本或者负向价值文本的能力；将测试文本输入到调整后的BERT模型中，对测试文本进行初步价值划分：如果测试文本被分类为负向价值文本，则初始化测试文本的价值分数；如果测试文本被分类为正向价值文本，则初始化测试文本的价值分数为；提取测试文本中的实体，得到测试文本的实体序列；对于实体序列中的每个实体，在节点价值图中查询对应的词节点，根据实体对应的词节点的相邻词节点的层级属性，以及词节点间的边对应的权值，计算实体的价值分数；将测试文本中所有实体的价值分数求和，得到测试文本的价值分数，具体包括：使用命名实体识别技术提取测试文本中的实体，得到K个实体的序列；针对的第k个实体，，检索节点价值图，得到实体的层级属性，p为实体在节点价值图中对应的词节点的索引；在节点价值图中有q个词节点与词节点连接，则词节点的关系属性表示为关系分数的序列和邻接词节点的层级属性的序列，分别为词节点的q个邻接词节点在节点价值图中的索引，表示词节点与词节点之间的关系分数，为词节点的层级属性；则测试文本的价值分数为：；；其中，为实体的价值分数，tanh为激活函数，为加权向量。

全文数据：

权利要求：

百度查询：中国科学技术大学基于层级聚类和属性挖掘的可计算价值体系构建方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：服务器拓展模组、服务器、配置方法、设备及介质

下一篇：一种防逆流烟道

相关技术

服务器拓展模组、服务器、配置方法、设备及介质

一种防逆流烟道

电池包

一种自动化的输出电机安装方法

新能源车辆故障检测装置

一种电子粉体材料解碎机

一种数据的处理方法、装置及设备

一种钠离子电池的化成方法

一种多端口变换器及其紧凑化设计方法

一种基于IP6加密生成地址系统

模型训练方法、影像分割方法、装置及电子设备

芯片封装结构及电子设备

计算相关技术

电机控制方法、装置、计算机设备和计算机可读存储介质_一汽解放汽车有限公司_202410869544.5

量子计算任务的通信方法、介质、量子计算系统及其节点_本源量子计算科技(合肥)股份有限公司_202410848059.X

游戏交互方法、装置、计算机设备及计算机可读存储介质_网易(杭州)网络有限公司_202410814841.X

一种神经网络专用计算阵列及其计算方法_南京宁麒智能计算芯片研究院有限公司_202010350549.9

目标跟踪方法、装置、计算机装置及计算机存储介质_平安科技(深圳)有限公司_201910064675.5

包裹分拣方法、设备、计算设备、存储介质及计算机程序产品_浙江菜鸟供应链管理有限公司_202410457949.8

基于边缘计算的虚拟现实体验增强方法及边缘计算系统_慧之安信息技术股份有限公司_202211277484.5

报表统计方法、装置、计算机设备和计算机程序产品_广州趣研网络科技有限公司_202410919776.7

细胞外液量计算装置和细胞外液量计算方法_尼普洛株式会社_201980054853.4

信息显示方法、装置、计算机设备及计算机可读存储介质_优猷信息科技(上海)有限公司_202311799528.5

挖掘相关技术

用于挖掘机无人作业的控制装置和挖掘机_爱克斯维智能科技(苏州)有限公司_202323587614.8

清洁装置及具有其的挖掘机_广东电网有限责任公司肇庆供电局_202410992540.6

一种可调式挖掘机斗齿_浙江坚韧机械有限公司_202420262745.4

一种浮箱式履带挖掘机_湖北昆河机械科技有限公司_202322902919.7

一种浅表土壤挖掘机构_扬州市益农机械有限公司_202420350205.1

基于关系挖掘的异构图嵌入方法及系统_江南大学_202311856289.2

基于云计算的医疗大数据关联解析挖掘方法_许占方_202410674332.1

基于物联网的用户行为数据挖掘方法及系统_成都乐超人科技有限公司_202410931430.9

企业关系挖掘方法、装置、终端设备及存储介质_深圳市因赛科技有限公司_202410851782.3

一种目标客户挖掘方法、装置及电子设备_平安银行股份有限公司_202410747364.X

价值相关技术

基于条件风险价值的供应链韧性优化与恢复方法及系统_山东大学_202410930941.9

一种基于语义认知的无人机区域侦察价值评估方法_中国电子科技集团公司第五十四研究所_202210084407.1

旅游公路的旅游价值确定方法、设备、介质及程序产品_四川省交通运输发展战略和规划科学研究院_202410713478.2

考虑条件风险价值的直流外送方法、装置、设备及介质_河海大学_202410911927.4

一种新能源汽车废旧动力蓄电池价值评估方法、系统_山东绿能环宇低碳科技有限公司_202410773828.4

产生纯化的生物柴油或同时回收有价值的化学品的方法_可更新能源集团_202411032290.8

基于大数据统计分析的品牌价值评价方法及系统_中汽信息科技(天津)有限公司_202411187732.6

一种基于价值体系驱动的主观评论价值编辑方法_中国科学技术大学_202411161518.3

一种基于智能投放的广告投放价值管理方法_东营市东网互联信息科技有限公司_202411195468.0

连接到电网的氢能的环境价值评估方法和系统_交叉信息核心技术研究院(西安)有限公司_202110817238.3

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于层级聚类和属性挖掘的可计算价值体系构建方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务