买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:重庆邮电大学
摘要:本发明涉及一种基于知识图谱词义消歧的书评文本分类方法,属于自然语言处理技术领域。该方法包括:S1:获取书评文本数据集;S2:将文本进行分段处理;S3:对分段后的文本进行聚类并标签化,每个文本片段对应各自的外部知识实体;S4:词级文本预处理;S5:计算词级文本间的语义相似度、余弦相似度、目标函数以及得分;S6:提取文本片段的特征;S7:利用层次注意力网络提取各文本片段的特征信息,再对文本片段的特征信息进行一次层次注意力网路的文本处理,最终得到的特征信息经归一化处理完成文本分类。本发明能有效处理篇章级别的长文本数据。
主权项:1.一种基于知识图谱词义消歧的书评文本分类方法,其特征在于,该方法具体包括以下步骤:S1:获取书评文本数据集;S2:将书评文本进行分段处理,分为词级文本、句级文本和篇章级文本;在对长文本数据进行分段处理时,将其分层次处理,并分别在词级、句级、篇章级信息处理之前将各级编码引入相对位置编码,最终得到精度更高的分类效果;S3:对分段后的书评文本进行聚类并标签化,每个文本片段对应各自的外部知识实体;S4:词级文本预处理:利用jieba分词器和HanLP分词器对文本片段进行分词得到各自的分词结果,保留相同的分词结果组成一个集合;对于不同的分词结果,利用知识图谱数据库计算某个词语与文本中其他词语的概念距离,选择概念距离和最小的词语作为最佳的分词结果,再将这些最佳的分词结果融入到相同分词结果的集合中,最终得到最佳整体上的分词结果;S5:计算词级文本间的语义相似度、余弦相似度、目标函数以及得分;具体包括:将通过外部知识构建的知识图谱得到的书评词级文本聚类信息分成n个簇,在每个簇中计算知识图谱中对应的层次关联程度,即词级文本在知识结构层当中的距离比例,作为文本间的语义相似度,结合文本的余弦相似度,得到每一个文本簇的目标函数;根据词级文本在各簇出现的次数及其在整个文本中出现的次数得到一个关于每个词级文本在当前簇中的得分,每个簇得分最高的词级文本作为当前文本簇的文本特征;S6:提取文本片段的特征:将词向量之间的余弦相似度和词汇之间在知识图谱中对应的层次关联程度相结合,提取词级文本、句级文本和篇章级文本的特征;S7:利用层次注意力网络提取各文本片段的特征信息,再对文本片段的特征信息进行一次层次注意力网路的文本处理,最终得到的特征信息经归一化处理完成文本分类。
全文数据:
权利要求:
百度查询: 重庆邮电大学 一种基于知识图谱词义消歧的书评文本分类方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。