首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

多轮对话管理方法、装置和计算机设备 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:平安科技(深圳)有限公司

摘要:本申请揭示了多轮对话管理方法,包括:接收输入的第一对话,并提炼出第一对话的结构化信息;根据第一对话的结构化信息,以及对话管理组件中的神经网络模型预先学习到的最优化参量,确定与第一对话匹配的推理参数信息QS,A;θ,其中,θ为训练优化得到的最优化参量,最优化参量根据预设专家知识训练得到,专家知识包括预设对话状态下的最优对话决策动作项,S表示对话状态,A表示与所述对话状态对应的对话决策动作项的奖励分布;根据推理参数信息,选择与第一对话的结构化信息匹配的第一对话决策动作项;控制第一对话决策动作项决策出与第一对话结构化信息匹配的第二对话,并输出第二对话。提高了训练过程的收敛速度和准确率。

主权项:1.一种多轮对话管理方法,其特征在于,包括:接收输入的第一对话,并提炼出所述第一对话的结构化信息,其中,所述结构化信息包括对话所属领域、对话动作和对话参数信息;根据所述第一对话的结构化信息,以及对话管理组件中的神经网络模型预先学习到的最优化参量,确定与所述第一对话匹配的推理参数信息QS,A;θ,其中,θ为训练优化得到的最优化参量,所述最优化参量根据预设专家知识训练得到,所述专家知识包括预设对话状态下的最优对话决策动作项,S表示对话状态,A表示与所述对话状态对应的对话决策动作项的奖励分布;根据所述推理参数信息,选择与所述第一对话的结构化信息匹配的第一对话决策动作项,其中,所述第一对话决策动作项为预存的多个对话决策动作项中的任一对话决策动作项;控制所述第一对话决策动作项决策出与所述第一对话结构化信息匹配的第二对话,并输出所述第二对话;所述接收输入的第一对话,并提炼出所述第一对话的结构化信息的步骤之前,包括:获取初始参数并锁定目标神经网络;将所述初始参数输入评价神经网络,并根据最小化差量进行参数优化训练得到第一优化参数,其中,所述最小化差量为Lθ=ES,A~ρ·[reward+gamma·{q,St+1,At+1∈{S,A}最优; ,ES,A~ρ·表示平均值,reward是第t+1轮对话的奖励,gamma是折现因子常量,表示第t+1轮对话的对话状态和对话决策动作项属于专家知识中的元素,q为初始化常量;maxQtargetSt+1,At+1;θ表示目标神经网络根据专家知识拟合得到St+1,At+1∈{S,A}最优的最大Q值,QevaluateSt,At;θ表示t轮对话的平均Q值;将所述第一优化参数输入所述目标神经网络,并锁定所述评价神经网络,根据最小化差量进行参数优化训练得到第二优化参数;将所述第二优化参数输入所述评价神经网络,并在锁定所述目标神经网络的条件下,再次根据所述最小化差量进行参数优化训练得到第三优化参数;根据所述目标神经网络和所述评价神经网络的参数优化的循环过程,优化至所述评价神经网络优化收敛,得到所述最优化参量;所述对话管理组件中的神经网络模型由双向LSTM和两层网络构成,所述接收输入的第一对话,并提炼出所述第一对话的结构化信息的步骤之前,包括:获取三个连续的对话轮回,包括位于当前时刻之前的前对话、当前时刻对应的当前对话以及位于当前时刻之后的后对话;将所述当前时刻之前的前对话、当前时刻对应的当前对话以及位于当前时刻之后的后对话中的对话状态,通过LSTM层进行序列化编码;将通过LSTM层进行序列化编码后的编码数据,输入至MLP网络进行编码全连接,形成全连接编码,并通过指定函数输出所述全连接编码相对各对话决策动作项的奖励;所述将所述当前时刻之前的前对话、当前时刻对应的当前对话以及位于当前时刻之后的后对话中的对话状态,通过LSTM层进行序列化编码的步骤,包括:根据所述前对话的对话状态输出的隐变量以及所述当前对话的对话状态,分别得到对话信息的遗忘程度和对话信息的输入程度;根据所述对话信息的遗忘程度和对话信息的输入程度,通过得到当前对话的信息记忆和前对话的信息遗忘的综合结果,其中,Wc表示可学习的记忆信息参数矩阵系数,bc表示可学习的记忆信息参数矩阵的常量,表示当前对话的信息记忆程度,ht-1表示所述前对话的对话状态输出的隐变量,St表示所述当前对话的对话状态,tanh表示tanh函数;根据所述当前对话的信息记忆和前对话的信息遗忘的综合结果,通过ht=ot·tanhCt,得到所述当前对话的信息过滤后的输出结果,其中,ot=σWc·[ht-1,St]+bc,ht-1表示所述前对话的对话状态输出的隐变量,St表示所述当前对话的对话状态,Wc表示可学习的输出信息参数矩阵系数,bc表示可学习的输出信息参数矩阵的常量,ot表示当前对话的信息输出,ht表示当前对话的信息过滤后的输出结果。

全文数据:

权利要求:

百度查询: 平安科技(深圳)有限公司 多轮对话管理方法、装置和计算机设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。