首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于自动构建提示工程的自然语言理解方法及系统_佛山科学技术学院_202410170010.3 

申请/专利权人:佛山科学技术学院

申请日:2024-02-06

公开(公告)日:2024-06-21

公开(公告)号:CN117764054B

主分类号:G06F40/20

分类号:G06F40/20;G06F18/2415;G06N3/0442;G06N3/045;G06N3/092

优先权:

专利状态码:有效-授权

法律状态:2024.06.21#授权;2024.04.12#实质审查的生效;2024.03.26#公开

摘要:一种基于自动构建提示工程的自然语言理解方法及系统,属于文本数据处理、字符处理领域,为解决软‑硬提示技术中存在的无法自动调整提示工程结构的问题而提出。使用提示工程纠正机制模型的数据执行训练得到自动构建提示工程的模型,使用提示工程纠正机制模型将自然语言理解任务数据集合的数据信息结合预设提示工程的信息去纠正预设的提示工程,通过自然语言理解任务数据集合和纠正后的提示工程相结合,以预训练语言模型作为自然语言理解模型完成理解任务得到自然语言理解任务的性能,实现使得提示工程能根据自然语言理解任务调整其内容且在形式结构上进行调整,使得提示工程能够更加适合当前的自然语言理解任务,提高自然语言理解任务的整体性能。

主权项:1.一种基于自动构建提示工程的自然语言理解方法,所述方法包括以下步骤:S100、划分数据集合得到训练集合、校验集合,将所述训练集合划分为自然语言理解数据集合和提示工程纠正机制数据集合;自然语言理解数据集合用于训练自然语言理解模型,提示工程纠正机制数据集合用于训练提示工程纠正机制模型;S200、设置提示工程纠正机制模型的执行训练次数和自然语言理解模型的训练次数;S300、设立经验池,使用强化学习的方法对提示工程纠正机制模型执行训练直至达到步骤S200设置的训练次数,得到训练后的提示工程纠正机制模型;S400、使用训练后的提示工程纠正机制模型,纠正提示工程并与自然语言理解数据集合结合后输入到自然语言理解模型执行训练,得到训练后的自然语言理解模型;S500、将S400中获得的训练后的自然语言理解模型在校验集合上计算的结果并只保存性能最佳的自然语言理解模型,且判断执行S400的次数是否满足阈值,否则跳转到S300;在S300中设立经验池的具体过程为:经验池称为MemoryPool,而存储的情节episode为一个具有互异性的集合,情节是一个存储了奖励reward、动作actor和state状态的三元组,用于提示工程纠正机制模型的训练;经验池初始为空,并且经验池的大小为δ,表示它能够存储δ个情节episode;其中,在经验池添加情节episode的方法为:经验池中的每一个元素为一个情节,其中每个情节包含一个批次的奖励reward、一个批次的动作actor和一个批次的状态state;其中获得一个批次中的一个奖励reward、一个动作actor和一个状态state具体过程为:S301、设置预设的提示工程并与结合,获得T″={[A0:i],X,[Ai+1:m],y},[A0:i]和[Ai+1:m]表示一系列的具有实际的意义的人类能够理解的词语组成预设词元,由人为设计且待纠正的提示工程;其中m表示为提示工程的长度,而i表示第几个词元,其取值为:0≤im;T″表示的是模板,输入X为中的任意一条数据,由预设词元[A0:i]、[Ai+1:m]和y标签,和X组成;S302、获得状态state:将T″由固定的自然语言理解模型Mf进行编码,所述固定的自然语言理解模型Mf中的固定是指模型无法执行训练,但能够对输入数据集合进行计算,固定的自然语言理解模型Mf具有12层Transformer的BERT-base-cased,通过上述编码得到hT″={h[A0:i],hX,h[Ai+1:m],hy},其中h·表示的是对应Mf模型的最后一层输出,·表示的是任意的输入;并设立一个拼接函数为F[h[Ai];h[y]]=si,F[h[Ai];h[y]]表示拼接后的输出h[Ai],h[y]分别表示为预设词元的隐藏向量和标签的隐藏向量,si表示的是状态,用于提示工程纠正机制模型的隐藏向量,隐藏向量表示的是Mf的最后一层的输出,从而得到提示工程纠正机制模型的状态state,m表示的是提示工程的长度,i表示的是第几个词元,i取值为0≤im;S303、获得动作actor:将上一步得到的si送入到由线性层组成的提示工程纠正机制模型后,根据函数πWcγi|si=softmaxσFsi,WC进行采样得到动作γi,γi∈{0,1,2};其中si是环境状态,σ·是RELU激活函数,·表示的是任意的输入,WC是提示工程纠正机制模型中允许参与训练的模型参数;γi动作值表示的是有三个不同的动作;当γi=0的时候指示提示工程纠正机制模型将当前的词元进行删除,γi=1的时候指示提示工程纠正机制模型将当前的词元进行替换,当γi=2的时候指示提示工程纠正机制模型将当前的词元进行保留;此阶段的采样则是选取概率最大的动作作为当前提示工程纠正机制模型的最终动作,得到动作actor;S304、获得奖励reward:将提示工程纠正机制模型的输出γi对模板T″进行操作得到模板:T′={[P0:j],[A0:i-θ],X,[Ai+1:l],[Pj+1:k],y}其中[A0:i-θ][Ai+1:l]表示留下来的词元,而θ则是表示一共有θ个词元遭到了删除,l则表示一系列留下来的预设词元的总长度,k表示一系列被替换词元的总长度而i、j同样用于表示词元的位置,其中i取值为0≤il,j取值为0≤jk,[P0:j][Pj+1:k]表示将T″对应位置中的[A0:j][Aj+1:k]替换后的结果,为被替换词元;其中T′的一系列的被替换词元是由自然语言理解模型中的词表的倒数的l个词元组成的,被替换词元无法被人类直接理解;将获得的T′={[P0:j],[A0:i-θ],X,[Ai+1:l],[Pj+1:k],y}中的预设词元[A0:i-θ][Ai+1:l]使用自然语言理解模型的嵌入层进行编码,e表示的是的嵌入层,由具有12层Transformer的预训练语言模型BERT-base-cased组成,而被替换词元[P0:j][Pj+1:k]则是送到提示工程的编码器以生成其相应的嵌入,选择双向长短期记忆网络LSTM并使用ReLU激活的两层多层感知器MLP作为提示工程的编码器,得到模板eT′,如式eT′={e[P0:j],e[A0:i-θ],eX,e[Ai+1:l],e[Pj+1:k],ey};e·表示的是嵌入层的输出结果,·表示的是任意的输入;将eT′采用自然语言理解模型并结合用于计算每个标签概率的预测器模型得到决定器模型decider,来计算目标标签y,然后计算的结果与目标标签之间计算损失值即将的负数作为奖励即,获得奖励reward;其中的i表示的是第几个词元,此时i取值为0≤im,m为提示工程的总长度;S305、组合奖励reward、动作actor、状态state获得情节episode;将情节存入到经验池内;S306、跳转到S301直至经验池被情节episode填满;在S300中使用强化学习的方法对提示工程纠正机制模型执行训练直至达到步骤S200设置的训练次数,得到训练后的提示工程纠正机制模型,具体过程为:S307、根据公式对提示工程纠正机制模型执行训练然后结合经验池内的情节更新提示工程纠正机制模型;其中:N表示每个批次的大小,n表示N中的第几条训练数据,表示将批次中的每一条训练数据在公式:上得到的N个结果求和,表示的是批次中的其中一条训练数据中的每一个episode根据公式:得到的δ个结果求和,表示的是每一个episode中的每一个词元根据公式得到的m个结果求和;δ表示的是经验池能够存储多少个批次,t表示的是经验池中第几个情节episode,m表示提示工程的词元的总长度,i表示第几个词元,rewardi表示的是第i个词元对应的奖励,表示的是对提示工程纠正机制模型求偏导,πWcsi,γi表示的是提示工程纠正机制模型,其中他的输入是状态si和动作γi,β表示学习率,Wc表示提示工程纠正机制模型的参数;最后, 表示的是梯度上升公式,通过公式:的计算结果去更新Wc参数;S308、清空经验池;S309、训练α次提示工程纠正机制模型后并判断执行的α次是否超过阈值;满足则跳转到S400,否则跳转到S301继续运行;S400的具体实现过程为:S401、与S301相似设置预设的人工提示工程并与自然语言理解的训练数据结合获得T″={[A0:i],X,[Ai+1:m],y};S301使用的是提示工程纠正机制模型的数据而该步骤使用的是自然语言理解的训练数据;S402、将T″使用提示工程纠正机制模型进行纠正得:T′={[P0:j],[A0:i-θ],X,[Ai+1:l],[Pj+1:k],y};S403、与S304类似得到公式:eT′={e[P0:j],e[A0:i-θ],eX,e[Ai+1:l],e[Pj+1:k],ey}后将eT′采用自然语言理解模型与预测器组成的决定器模型decider来计算目标标签y,然后计算的结果与目标标签之间计算损失值,即得到i取值为0≤im;S304-2使用的是提示工程纠正机制模型的数据而该步骤使用的是自然语言理解的训练数据;S404、根据对提示工程纠正机制的模型执行训练。

全文数据:

权利要求:

百度查询: 佛山科学技术学院 一种基于自动构建提示工程的自然语言理解方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。