首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于反馈强化学习融合归因的事件极性分析方法_北京理工大学_202410093808.2 

申请/专利权人:北京理工大学

申请日:2024-01-23

公开(公告)日:2024-06-04

公开(公告)号:CN118133965A

主分类号:G06N5/04

分类号:G06N5/04;G06F18/21;G06N20/00

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.06.21#实质审查的生效;2024.06.04#公开

摘要:本发明涉及一种基于反馈强化学习融合归因的事件极性分析方法,属于强化学习和自然语言处理技术领域。本发明基于反馈强化学习,通过人类评估者提供的反馈来学习不同情境下的归因信息,将归因信息融合到事件极性分析任务中。本方法不仅仅关注于找出“正确”的答案,而是强调理解和解释事件背后的多维度信息。在事件极性分析的背景下,这意味着模型不仅能判断事件是否真实发生,而且能够理解事件发生的原因、背景和可能的影响,从而能够获取更佳的性能。

主权项:1.一种基于反馈强化学习融合归因的事件极性分析方法,其特征在于,包括以下步骤:步骤1:事件极性归因信息构造;步骤1.1:获取事件极性分析数据集,根据不同的极性类别以及对应事件的发生情况特点,找到符合的事件极性归因情况;步骤1.2:根据具体的上下文信息,判断事件极性归因的情况;步骤1.3:根据事件极性归因情况以及上下文信息,人工构造每条样本的事件极性归因信息;步骤2:事件极性归因信息融合学习;步骤2.1:构造提示词,要求模型输出样本的事件极性标签,并将提示词与样本进行拼接,将其作为输入,将事件极性标签作为输出,构造出事件极性分类训练数据;步骤2.2:构造提示词,要求模型输出样本的事件极性归因,并将提示词与样本进行拼接,将其作为输入,将事件极性归因作为输出,构造出事件极性归因训练数据;步骤2.3:将事件极性分类训练数据与事件极性归因训练数据进行打乱混合,以此为训练数据,同时对大语言模型进行监督微调训练;步骤3:事件极性归因信息反馈强化学习;步骤3.1:将步骤2.2中获得的事件极性归因训练数据输入到步骤2.3中获得的监督微调好的大语言模型中,对每条输入生成多条不同的归因信息;步骤3.2:对步骤3.1中的多条归因进行评分排序;评分角度包括正确性、理由合理性等;步骤3.3:使用步骤3.2中获得的排序数据,对另一个大语言模型进行监督微调训练,使模型对步骤3.2中排序靠前的归因信息评分高,对步骤3.2中排序靠后的归因信息评分低;监督微调训练完成后,获得奖励模型;步骤3.4:将步骤2.1中获得的事件极性分类训练数据以及步骤2.2中获得的事件极性归因训练数据的输入分别提取出来,打乱混合作为新的训练数据的输入;步骤3.5:将步骤3.4中获得的数据输入到步骤2.3中获得的模型中,获得模型输出;对于归因输出,使用步骤3.3中获得的奖励模型进行评分;对应极性标签输出,若输出标签正确为1分,错误则为0分;最后,对模型参数进行优化,得到最终训练好的大语言模型;利用该模型对语句中事件的极性进行分析,预测输出极性标签,判断事件的真实发生情况。

全文数据:

权利要求:

百度查询: 北京理工大学 一种基于反馈强化学习融合归因的事件极性分析方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。