Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜北京计算机技术及应用研究所王斌获国家专利权

恭喜北京计算机技术及应用研究所王斌获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜北京计算机技术及应用研究所申请的专利一种基于情景适配的共情对话训练方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117689007B

龙图腾网通过国家知识产权局官网在2025-05-09发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311722366.5,技术领域涉及:G06N3/098;该发明授权一种基于情景适配的共情对话训练方法及系统是由王斌;郭青松;吴朝雄;吴桐;王哲设计研发完成,并于2023-12-14向国家知识产权局提交的专利申请。

一种基于情景适配的共情对话训练方法及系统在说明书摘要公布了:本发明涉及一种基于情景适配的共情对话训练方法及系统,属于人工智能技术领域。本发明的基于情景适配的共情对话训练方法及系统能够使参与方A和B共同训练一个对话生成模型,以生成个性化的医疗和旅行领域对话回复;通过联邦学习框架,保护了参与方的数据隐私和安全,提高了训练效率;模型参数的聚合和全局模型的下发和更新确保了模型在各参与方之间的知识共享和迭代优化,提高了对话生成模型的性能和适应性;同时,该方法具备广泛的应用前景,在其他领域的对话生成任务中同样适用,如客服对话、智能助理等。

本发明授权一种基于情景适配的共情对话训练方法及系统在权利要求书中公布了:1.一种基于情景适配的共情对话训练方法,其特征在于,包括以下步骤:步骤1:初始化全局模型,该全局模型为对话模型;在联邦学习开始之前,初始化一个全局模型,使用基于transformer的预训练模型gpt-2,利用多轮对话训练集对全局模型进行训练,首先输入文本经过词嵌入层,将每个词转换为对应的词向量表示,输入序列为X=[x1,x2,...,xn],其中xj表示第j个词的索引,n为输入序列中词的数量;词嵌入层将每个词的索引xj映射为一个d维的词向量得到输入序列的词嵌入表示E=[e1,e2,...,en];gpt-2使用多头自注意力机制来捕捉输入序列中的上下文关系,多头自注意力机制包括三个步骤:①查询、键和值的计算,输入序列的词嵌入表示E通过三个矩阵变换Q=E·WQ、K=E·WK、V=E·WV得到查询向量Q、键向量K和值向量V,其中WQ、WK和WV分别是可学习的参数矩阵;②注意力分数的计算,计算查询向量Q和键向量K之间的点积,再通过缩放因子dk进行缩放,得到注意力分数:softmax函数是归一化指数函数,将结果值转化为[0,1]之间的概率;③加权求和,将注意力分数与值向量V进行加权求和,得到自注意力的输出:Output=Attention·V;为了保留输入序列中的位置信息,gpt-2使用位置编码来为每个位置添加一个固定的向量表示,位置编码公式如下:其中,pos表示位置索引,i表示维度索引,d表示词向量的维度;在自注意力计算和位置编码之后,通过残差连接将输入序列与自注意力的输出Output相加;在每个注意力层之后,gpt-2还包含一个前馈神经网络层,用于对每个位置的特征进行非线性变换和映射,前馈神经网络层由两个线性变换和激活函数组成;gpt-2模型的最后一层是一个线性变换和softmax函数,用于将模型的最终输出映射到词汇表上的概率分布:output_probs=softmaxOutput·W2+b2,其中W2、b2分别是可学习的参数矩阵和偏置向量;步骤2:分发全局模型,将初始全局模型参数θg下发各个客户端{U1,U2,...,Um};步骤3:本地模型训练,将服务端在上一轮迭代中得到的全局模型参数下发给客户端,依据客户端将服务端下发的全局模型参数θg初始化本地模型参数θi及本地的参考模型参数θi′,每个客户端利用自己的本地数据集进行本地模型训练,数据集为对话数据集,所有客户端的数据集标记为{D1,D2,...,Dm};接下来,通过优化算法更新模型参数:θi←θi-η·▽Lθi,Di,其中,θi是第i个客户端的本地模型参数,η是学习率,Lθi,Di是损失函数;在本地模型训练中,基于强化学习近端策略优化PPO的调优方法优化gpt-2模型;步骤4:参数上传及聚合,每个客户端将经本地训练并更新后的模型参数上传到服务端,服务端收到参数后通过聚合算法将参数进行聚合,得到全局模型参数θg;步骤5:模型更新,服务端将聚合后的全局模型参数θg下发给所有客户端;客户端接收到全局模型参数后,将其用作下一轮的本地模型参数,将全局模型替换本地模型后,原本地模型参数作为参考模型参数,即θi=θg,θi′=θi-1;步骤6:迭代训练,重复步骤3到步骤5,直至满足预设的停止条件,即达到最大迭代轮数或模型收敛时则结束;优化gpt-2模型的具体流程如下:1初始化本地模型,θi=θg,同时,如果是首次接收服务端的全局模型,则利用全局模型参数初始化本地的参考模型参数θ′i=θg,否则,利用本地模型前一时刻的模型参数赋值θi′=θi-1;然后将本地数据集样本X'={x1',x2',...,xn'}输入本地模型中,执行动作a得到输出Y={y1,y2,...,yn},其中yi包含输入xi’;2将{y1,y2,...,yn}输入奖励模型中,采用情绪分析模型作为奖励模型来判别是否与上文情绪类似,得到分数ri;3将gpt-2模型的生成过程看作是一个策略网络,即将输入序列映射到输出序列的概率分布;使用当前策略网络生成一批本地数据集样本,并计算每个本地数据集样本的对数似然值;对于本地数据集样本X',策略网络生成的输出序列为Y,计算对数似然值:log_probs=logPY|X',θ,θ是策略网络的参数;为了利用PPO算法进行策略优化,计算每个样本的优势估计,衡量当前策略相对于旧策略的改进情况;优势估计使用基于值函数的方法GAE计算,GAE是多个价值估计的加权平均数,依据t+1时刻估计t时刻的优势估计值: 其中,是指t时刻的优势估计值,是在t+1时刻下样本的时序差分误差,γ是折扣因子,λ是GAE参数;使用近端策略优化惩罚方法优化目标函数,目标函数如下: 其中,st为状态,at为动作,是在t时刻π策略下采样状态st和动作at的期望值,pθat|st是在t时刻θ状态下动作的概率,pθ′at|st是在t时刻θ′状态下动作的概率,θ是待优化的策略网络的参数,θ′是指实际和环境互动产生样本的动作的参数采样数据,从中采样出状态st、动作at后,计算其优势估计Aθ′st,at,最终目的是利用θ′来调整θ;利用近端策略优化惩罚进行优化,如下式: 其中,β是惩罚项,KLθ,θ′是指θ和θ′的KL散度值,利用自适应KL惩罚动态调整β;如果KLθ,θ′<KLmax,增加β;如果KLθ,θ′>KLmax,减少β,KLmax是指设置的KL散度最大值;4策略优化,使用梯度下降法,对策略网络的参数θ进行优化,使得优化目标函数最大化;通过计算目标函数对θ的梯度更新策略网络的参数: 其中,α是学习率;5迭代优化,重复步骤1~4,进行多轮的策略评估和优化,在每一轮迭代中,通过生成新的样本和计算优势估计,更新策略网络的参数,并逐步改进模型的生成性能。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京计算机技术及应用研究所,其通讯地址为:100854 北京市海淀区永定路51号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。