Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

整合长短期记忆网络和词嵌入的文本情感分析方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京珊瑚礁科技有限公司

摘要:本发明提供整合长短期记忆网络和词嵌入的文本情感分析方法及系统,涉及数据处理领域,该方法包括:建立文本情感分析模型,包括词嵌入单元、第一长短期记忆网络单元和第二长短期记忆网络单元;设置第一长短期记忆网络单元的初始参数和第二长短期记忆网络单元的初始参数,使用训练样本,调整第一长短期记忆网络单元的初始参数和第二长短期记忆网络单元的初始参数;使用词嵌入单元生成待识别文本对应的词向量序列;使用优化后的第一长短期记忆网络单元基于待识别文本对应的词向量序列,生成待识别文本的隐藏状态序列;使用优化后的第二长短期记忆网络单元基于待识别文本的隐藏状态序列,识别待识别文本的情感,具有提高文本情感分析的准确度的优点。

主权项:1.一种整合长短期记忆网络和词嵌入的文本情感分析方法,其特征在于,包括:建立文本情感分析模型,其中,所述文本情感分析模型至少包括词嵌入单元、第一长短期记忆网络单元和第二长短期记忆网络单元;设置所述词嵌入单元的参数,其中,所述词嵌入单元的参数包括词汇表中每个词的向量表示;设置第一长短期记忆网络单元的初始参数和第二长短期记忆网络单元的初始参数,其中,第一长短期记忆网络单元的初始参数包括第一长短期记忆网络单元的输入门、遗忘门、输出门和单元状态的权重和偏差,第二长短期记忆网络单元的初始参数包括第二长短期记忆网络单元的输入门、遗忘门、输出门和单元状态的权重和偏差;基于所述词嵌入单元,使用训练样本,调整所述第一长短期记忆网络单元的初始参数和第二长短期记忆网络单元的初始参数,得到优化后的第一长短期记忆网络单元和优化后的第二长短期记忆网络单元;使用词嵌入单元生成待识别文本对应的词向量序列;使用所述优化后的第一长短期记忆网络单元基于所述待识别文本对应的词向量序列,生成所述待识别文本的隐藏状态序列;使用所述优化后的第二长短期记忆网络单元基于所述待识别文本的隐藏状态序列,识别所述待识别文本的情感;其中,基于所述词嵌入单元,使用训练样本,调整所述第一长短期记忆网络单元的初始参数和第二长短期记忆网络单元的初始参数,得到优化后的第一长短期记忆网络单元和优化后的第二长短期记忆网络单元,包括:S1、使用词嵌入单元生成所述训练样本的样本文本对应的样本词向量序列;S2、执行前向传播,使用所述第一长短期记忆网络单元基于所述训练样本的样本文本对应的样本词向量序列,提取所述训练样本的样本文本对应的样本隐藏状态序列,具体的,将样本词向量序列通过词嵌入层转换为向量表示,然后输入到第一长短期记忆网络单元中,第一长短期记忆网络单元将样本词向量序列中的每个元素作为输入,并输出样本词向量序列的样本隐藏状态序列;S3、使用所述第二长短期记忆网络单元基于所述训练样本的样本文本对应的样本隐藏状态序列,识别所述训练样本的情感,具体的,通过注意力层计算样本隐藏状态序列的每个隐藏状态的注意力分数,基于所述样本词向量序列的样本隐藏状态序列和每个隐藏状态的注意力分数,生成上下文向量,所述上下文向量包含了整个样本隐藏状态序列的关键情感信息,用于判断整体情感倾向,第一长短期记忆网络单元通过门控机制逐步构建起整个序列的上下文表示,并在序列的最后一个时间步输出最终的隐藏状态,所述隐藏状态携带了整个文本序列的信息,被用于第二长短期记忆网络单元来预测文本的类别,注意力机制允许第二长短期记忆网络单元在处理输入序列时分配不同的权重,使得第二长短期记忆网络单元能够更加专注于对预测任务更为重要的部分,使得第二长短期记忆网络单元能够捕捉长距离的依赖关系,自适应地聚焦于最具信息量的序列部分;S4、根据所述第二长短期记忆网络单元识别的所述训练样本的情感和所述训练样本的标签,计算损失函数;S5、通过反向传播算法,调整所述第一长短期记忆网络单元的初始参数和第二长短期记忆网络单元的初始参数;S6、重复执行S1-S5,直至满足预设条件,得到优化后的第一长短期记忆网络单元和优化后的第二长短期记忆网络单元;基于以下公式计算隐藏状态序列中的每个隐藏状态的注意力分数: 其中,为第j个隐藏状态的注意力分数,W为注意力层的权重矩阵,为第j个隐藏状态,为归一化函数;基于以下公式生成上下文向量: 其中,为上下文向量,J为隐藏状态序列包括的隐藏状态的总数;基于以下参数调整函数,通过反向传播算法,调整所述第一长短期记忆网络单元的初始参数和第二长短期记忆网络单元的初始参数: 其中,为在时间步t+1的参数,为在时间步t的参数,为学习率,为在时间步t的一阶矩估计,为在时间步t的二阶矩估计,为常数;使用所述优化后的第一长短期记忆网络单元基于所述待识别文本对应的词向量序列,生成所述待识别文本的隐藏状态序列,包括:将所述待识别文本对应的词向量序列逐个时间步传入所述优化后的第一长短期记忆网络单元;在每个时间步,所述优化后的第一长短期记忆网络单元根据当前时间步的输入和前一时间步的隐藏状态计算门控制的激活值,并更新内部状态和隐藏状态;更新后的内部状态和隐藏状态被传递到下一个时间步,直到所述待识别文本对应的词向量序列的每个向量被处理完毕,所述待识别文本的隐藏状态序列;使用所述优化后的第二长短期记忆网络单元基于所述待识别文本的隐藏状态序列,识别所述待识别文本的情感,包括:计算所述待识别文本的隐藏状态序列中的每个隐藏状态的注意力分数;基于所述待识别文本的隐藏状态序列中的每个隐藏状态的注意力分数,对所述待识别文本的隐藏状态序列中的每个隐藏状态进行加权求和,生成上下文向量;基于所述上下文向量,识别所述待识别文本的情感。

全文数据:

权利要求:

百度查询: 北京珊瑚礁科技有限公司 整合长短期记忆网络和词嵌入的文本情感分析方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。