买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:暨南大学
摘要:本发明公开了一种基于Transformer的多重特征中英文情感分类方法及系统,该方法步骤包括:对给定的文本数据进行预处理,包括划分文本、构造词典、获取数字形式的文本表示;建立模型的编码器网络:将预处理后的文本数据输入模型编码器部分的神经网络,依次经过嵌入层、多重自我注意力层、前馈层,提取并输出每个词语基于多重自我注意力机制的向量表示;建立模型的解码器网络:以编码器网络的输出作为值项和键项的输入,以文本序列的上下文向量作为查询项的唯一输入,经过解码器的多重自我注意力层和前馈层,输出文本基于自我注意力机制的向量表示。本发明以Transformer模型为基础架构,丰富了模型的特征输入中包含的信息,挖掘模型在原先应用领域之外的潜能。
主权项:1.一种基于Transformer的多重特征中英文情感分类方法,其特征在于,包括下述步骤:文本预处理:对给定的文本数据进行预处理,包括划分文本、构造词典、获取数字形式的文本表示;建立模型的编码器网络:将预处理后的文本数据输入模型编码器部分的神经网络,依次经过嵌入层、多重自我注意力层、前馈层,提取并输出每个词语基于多重自我注意力机制的向量表示;所述建立模型的编码器网络,具体步骤包括:所述嵌入层以预处理后的文本序列作为输入,将序列的每个下标转化成对应的唯一向量化表示,得到词向量;所述嵌入层以预训练的词向量为基础,将单词的次序信息、词性信息、情感信息一并编码进了词向量中;所述多重自我注意力层以输出的词向量作为输入,通过多重的自我注意力机制为词语提供多个向量表示,将其连接后进行转化,得到某一词语关联了序列中多处其它词语后的向量表示,作为提炼好的词向量;所述多重自我注意力层以输出的词向量作为输入,通过多重的自我注意力机制为词语提供多个向量表示,具体步骤包括:词向量通过与查询矩阵、键矩阵和值矩阵相乘得到词语在自我注意力机制中的查询项、键项和值项;将某一词语的查询项与序列所有词语的键项相乘,得到序列中所有词语对编码该词语的贡献度分布,然后对贡献度分布执行softmax运算,将贡献度分布转化为概率分布,使得序列中所有词语的贡献度之和为1;将贡献度分布与生成的各词语的值项相乘后求和,得到某一词语基于自我注意力机制的向量表示;通过多个不同的查询矩阵、键矩阵和值矩阵为词语提供多个向量表示,将多个词向量连接后通过一个全连接层重新整理信息,进而得到某一词语关联了序列中多处其他词语后的向量表示;所述前馈层将提炼好的词向量投影到更高维的空间,再投影回原来的空间,完成信息的提取;建立模型的解码器网络:以编码器网络的输出作为值项和键项的输入,以文本序列的上下文向量作为查询项的唯一输入,经过解码器的多重自我注意力层和前馈层,输出文本基于自我注意力机制的向量表示;所述建立模型的解码器网络,具体步骤包括:获取上下文向量:以输出的词向量序列作为输入,通过训练双向循环神经网络获取向量形式的文本序列的上下文信息;所述多重自我注意力层以上下文向量作为查询项的唯一输入,以提取的词向量作为键项和值项的输入,得到文本为序列中多处情感重点分配了更多权重的向量表示;所述前馈层输入为提炼好的文本向量,若本层是模型的最后一层,则通过全连接层输出情感分类的数值分布,再对结果采用softmax运算,转化为概率分布,概率较大者为情感分类的预测结果。
全文数据:
权利要求:
百度查询: 暨南大学 基于Transformer的多重特征中英文情感分类方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。