首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种智能客服模型的训练方法和系统_杭州宇谷科技股份有限公司_202311736324.7 

申请/专利权人:杭州宇谷科技股份有限公司

申请日:2023-12-18

公开(公告)日:2024-06-21

公开(公告)号:CN117436551B

主分类号:G06N20/00

分类号:G06N20/00;G06N3/0895;G06N5/04;G06F18/214;G06F18/23213;G06F16/332;G06F16/33;G06F16/35

优先权:

专利状态码:有效-授权

法律状态:2024.06.21#授权;2024.02.09#实质审查的生效;2024.01.23#公开

摘要:本申请涉及一种智能客服模型的训练方法和系统,其中,该方法包括:通过初步训练后的智能客服模型得到未标注样本的预测答案;若预测答案为错误答案,则对错误答案对应的未标注样本进行人工标注,得到第一标注样本;若预测答案为正确答案,则基于标准问题库对未标注样本进行自动标注,得到第二标注样本;基于第一标注样本和第二标注样本,完成智能客服模型的最终训练。通过本申请,解决了如何训练精准度高且成本低的智能客服模型的问题,实现了通过初步训练的智能客服模型对未标注样本进行有针对性的筛选标注,降低训练样本标注的成本,基于筛选标注后的样本完成智能客服模型的最终训练,有效提高模型精度。

主权项:1.一种智能客服模型的训练方法,其特征在于,所述方法包括:构建标准问题库;若标准问题库中的己标注样本的样本量小于预设阈值,则根据己标注样本,完成对基于传统机器学习算法的智能客服模型的初步训练;若标准问题库中的己标注样本的样本量大于等于预设阈值,则根据已标注样本,完成对基于深度学习算法的智能客服模型的初步训练;通过初步训练后的智能客服模型得到未标注样本的预测答案;对于所述预测答案,若返回的是转接人工客服的请求,则所述预测答案为错误答案,若没有返回转接人工客服的请求则所述预测答案为正确答案;若所述预测答案为错误答案,则基于所述错误答案的预测分数,计算得到对应的未标注样本的不确定性分数;对所述错误答案对应的未标注样本进行样本聚类,基于所述样本聚类的结果,计算得到每个未标注样本的代表性分数;基于所述不确定性分数和所述代表性分数,计算得到所述未标注样本的样本信息量;从所述未标注样本中取出所述样本信息量最高的B个未标注样本进行人工标注,得到第一标注样本;若所述预测答案为正确答案,则通过自定义语义相似度算法计算标准问题库的问题与所述未标注样本之间的相似度;确定与所述未标注样本相似度最大的标准问题库的问题,通过所述标准问题库的问题对所述未标注样本进行自动标注,得到第二标注样本;自定义语义相似度算法阶段一:输入一个句子对sentence1,sentence2;使用jieb分词工具分别对两个句子进行分词,得到分词结果cut_s1和cut_s2;将两个句子的分词结果进行合并和去重,得到tow_s;对tow_s进行遍历:当词在cut_s1中,将该词的向量添加到空列表s1_vecter中,当词不在cut_s1中,将该词和cut_s1作为参数传入自定义语义相似度算法阶段二中,将返回的结果添加到s1_vecter中;当词在cut_s2中,将该词的向量添加到空列表s2_vecter中,当词不在cut_s2中时,将该词和cut_s2作为参数传入自定义语义相似度算法阶段二中,将返回的结果添加到s2_vecter中,返回s1_vecter和s2_vecter的平均绝对误差MAE,即标准问题库中的已标注样本与未标注样本之间的相似度;自定义语义相似度算法阶段二:输入是一个字符串str1和一个分词后的列表list1;将字符串str1放入集合中,得到完全分词的不重复集合set1;将列表list1中的词放入集合得到set2,逐一计算每个set1与set2相同字的个数common_chars,在空列表ssim中添加common_chars和对应set1的商,返回ssim的最大值和list1的长度的商,即标准问题库中的已标注样本与未标注样本之间的相似度;基于所述第一标注样本和所述第二标注样本,完成所述智能客服模型的最终训练。

全文数据:

权利要求:

百度查询: 杭州宇谷科技股份有限公司 一种智能客服模型的训练方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。