买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京理工大学
摘要:本发明涉及一种评论情感原因三元组抽取方法,属于自然语言处理中的情感分析及信息抽取技术领域。本方法综合了情感原因抽取技术、情感分析技术和信息抽取技术,同时抽取出情感句、原因句以及情感类型三元组,即情感原因三元组,并将其应用于评论场景。本方法克服了情感原因抽取结果实用性较低、应用场景受限的缺点,解决了现有情感原因抽取方法存在的错误传播、使用复杂、耗时等缺点,实现了情感原因三元组端到端的抽取。本方法改进了现有评论方式分类粒度较粗、信息过多等问题,可以很好的提高用户的使用体验。
主权项:1.一种评论情感原因三元组抽取方法,其特征在于,首先,提出情感-原因-情感类型的情感原因三元组:从文档中同时抽取出情感句、与情感句对应的原因句和情感类型;之后,利用深度学习模型和双仿射注意力机制建模情感句、原因句以及情感类型之间的联系,得到情感原因三元组的三维概率矩阵;根据三维概率矩阵训练模型,以任意文档作为输入,抽取出情感原因三元组;最后,将用户要表达情感的对象与所有情感原因三元组中的句子进行关键词匹配,若句子中存在对应关键词,则表示此情感原因三元组与关键词相关;步骤1:设计抽取情感原因三元组的模型,包括以下步骤:步骤1.1:输入数据集中的每个文档,输出标注情感原因三元组后的数据集;其中,数据集包括训练集和测试集;步骤1.2:从步骤1.1输出的数据集中,选择训练文档W;每个W中包含n个句子S,每个句子S中包含m个词C;其中,文档W个数的范围为1到K,共K个训练文档;步骤1.3:对步骤1.2得到的训练文档的句子进行编码,得到句向量sn;步骤2:利用双仿射注意力机制建模情感句、原因句和情感类型之间的联系,得到情感原因三元组的三维概率矩阵,包括以下子步骤:步骤2.1:利用两个全连接网络,对步骤1中得到的句向量sn进行维度压缩,除去冗余信息,分别得到情感句向量和原因句向量步骤2.2:利用双仿射注意力机制建模情感句向量原因句向量和情感类型之间的联系;采用式5得到一个三维的矩阵Up,q,r,三个维度分别表示情感句、原因句和情感类型: 其中,与为可训练参数,分别为第p个情感句向量、第q个原因句向量;T表示转置操作;矩阵Up,q,r中,每一位经过sigmoid函数后,输出0到1的值,表示此位是情感原因三元组的概率,sigmoid函数如式6所示: 其中,sigmoid·表示归一化,将矩阵U中每一位归一化为0到1的值,以此来表示概率;为最终得到的情感三维矩阵中第p个情感句、第q个原因句、第r个情感类型需要抽取的三元组的概率值;此处,设置一个阈值0.5,凡是大于该阈值的概率值,认为是需要抽取出的情感原因三元组,反之不需要抽取;步骤3:根据步骤2得到的三维概率矩阵训练模型,以任意文档作为输入,抽取出情感原因三元组,包括以下步骤:步骤3.1:采用二元交叉熵衡量真实概率Yp,q,r与模型预测概率之间分布的差异性,并以此为模型的目标函数L进行训练,如式7所示: 其中,真实概率Yp,q,r是指情感原因三元组标签的概率,是情感原因三元组则概率为1,否则为0;∑p,q,r表示对不同p、q、r二元交叉熵结果的加和;步骤3.2:使用批量随机梯度下降方法,对步骤3.1的目标函数进行优化,对训练集中的所有训练样本进行批量迭代训练,输出训练好的情感原因三元组抽取模型;步骤3.3:使用步骤3.2中训练好的抽取模型,输入任意文档,输出抽取出的情感原因三元组;步骤4:以用户要表达情感的对象的相关文档作为输入,利用该对象不同方面的关键词,匹配所有情感原因三元组中的句子;若句子中存在对应关键词,则表示此情感原因三元组与关键词相关。
全文数据:
权利要求:
百度查询: 北京理工大学 一种评论情感原因三元组抽取方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。