首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于ASR语音识别的客服工单录入方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:成都丰窝科技有限公司

摘要:本申请属于工单录入技术领域,更具体地说,涉及基于ASR语音识别的客服工单录入方法;本发明通过语音识别大幅度减少人工操作时间,提高工单生成效率,并且通过多层次降噪、语音特征提取、上下文校正和意图识别技术,显著提高了识别和生成的准确性,降低人为错误;通过自动化和智能化的处理步骤简化了客服代表的工作流程,提升了操作的边界性和准确性,从而改善了整体用户的体验。

主权项:1.基于ASR语音识别的客服工单录入方法,其特征在于,包括以下步骤:步骤1:采集电话系统的语音信号,对语音信号应用自适应滤波器和深度学习降噪模型清理噪声和回声,得到清晰的语音信号;步骤2:使用基于能量阈值和频谱特征的算法,结合深度神经网络进行语音活动检测,分割出语音段落;所述步骤2包括以下步骤:步骤2.1:将得到的清晰语音信号分割为30ms的短时帧,每帧之间重叠10ms,以获取信号的局部特征;步骤2.2:对每一帧短时帧,计算能量作为初步的语音活动检测指标: 式中:Em表示第m帧的能量;yframem,t表示第m帧中第t个采样点的语音信号值;N表示每帧的采样点数;将Em与审定的能量阈值θE进行比较,若EmθE,则判断该短时帧包含语音活动;步骤2.3:基于快速傅里叶变换计算每帧的频谱特征: 式中:Sm,f表示第m帧在频率分量f处的频谱强度;表示快速傅里叶变换中的复指数函数;j表示虚数单位,满足j2=-1;f表示第f个频率分量;N表示每帧的采样点数;步骤2.4:将能量和频谱特征结合,输入到训练好的卷积神经网络中,进行语音活动检测,得到语音活动概率,若预测语音活动概率大于预设的语音活动阈值,则判定第m帧包含语音活动,得到语音活动帧;所述卷积神经网络包括卷积层1、卷积层2、卷积层3、全连接层以及输出层;所述卷积层1包括32个过滤器,卷积核大小为3,3,采用same填充方式,激活函数为Relu激活函数,并对输入进行批量归一化;所述卷积层2包括64个过滤器、卷积核大小为3,3,采用same填充方式,激活函数为Relu激活函数,并对输入进行批量归一化,最大池化窗口大小为2,2;所述卷积层3包括128个过滤器、卷积核大小为3,3,采用same填充方式,激活函数为Relu激活函数,并对输入进行批量归一化,最大池化窗口大小为2,2;所述全连接层包括全连接层和Relu激活函数,其中全连接层包括64个单元;前连接层通过展平操作将多维数据展平成一维;输出层包括全连接层和激活函数Sigmoid,其中全连接层包含1个单元;步骤2.5:采用连续语音活动帧的时间段作为语音段落,进行语音段落的分割,若连续K帧满足预测语音活动概率大于预设的语音活动阈值,则判定开始语音段落;若连续K帧满足预测语音活动概率小于等于语音活动阈值,则结束语音段落,其中K为预设的阈值;步骤2.6:基于语音段落的分割结果,移除过短的段落或合并过短的静音段落,得到分割出的语音段落;步骤3:基于分割出的语音段落提取梅尔频率倒谱系数以及线性倒谱系数,并将提取的系数进行拼接,得到语音特征向量;步骤4:基于训练好的Transformer架构的声学模型对语音特征向量进行特征到文本的转换,得到初步的文字转录;并通过预训练的语言模型对初步的文字转录进行上下文分析和文本校正,得到校正后的文字转录;步骤5:基于Transformer的意图分类模型对校正后的文字转录进行识别,识别出用户需求和请求,得到意图标签;并基于命名实体识别模型,抽取校正后的文字转录后的关键信息,最终得到结构化的实体信息;步骤6:基于结构化的实体信息,根据预定义的工单模板自动填充生成工单内容,并利用生成对抗网络优化生成过程;得到生成后的工单;步骤7:基于可视化的界面,通过人工对工单进行快速检查和修正,并将修正后的工单反馈给语音识别系统用于模型优化。

全文数据:

权利要求:

百度查询: 成都丰窝科技有限公司 基于ASR语音识别的客服工单录入方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。