首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种用于智能语音助手的对话短文本语句匹配方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:联通沃悦读科技文化有限公司

摘要:本发明涉及一种用于智能语音助手的对话短文本语句匹配方法,属于人工智能技术领域。该方法包括:S1:对智能语音助手对话系统中的文本数据进行向量化,使用堆叠CNN和并行CNN提取文本的短语特征;S2:使用堆叠的BiLSTM提取上下文特征,再经过新的句内自注意力机制,提取文本内部的关键特征;S3:使用句间注意力机制提取交互特征,并通过压缩函数将多个交互特效进行聚合压缩,得到文本的匹配特征;S4:将匹配特征输入MLP中,预测出文本的标签并进行后处理。本发明可以有效地对智能语音助手的对话文本进行语句匹配,预测两个文本是否属于同一语义。

主权项:1.一种用于智能语音助手的对话短文本语句匹配方法,其特征在于,该方法具体包括以下步骤:S1:对智能语音助手对话系统中的文本数据进行向量化,使用堆叠CNN和并行CNN提取文本的短语特征;S2:使用堆叠的BiLSTM提取上下文特征,再经过新的句内自注意力机制,提取文本内部的关键特征;S3:使用句间注意力机制提取交互特征,并通过压缩函数将多个交互特效进行聚合压缩,得到文本的匹配特征;S4:将匹配特征输入MLP中,预测出文本的标签并进行后处理;步骤S1中,使用堆叠CNN和并行CNN提取文本的短语特征,具体包括以下步骤:S111:获取文本的词向量和句法特征向量,句法特征向量由词性标注的one-hot向量和二进制精确匹配特征向量组成;最终的文本向量w表示为:w=[dword;dpos;dem]其中,dword为词向量,dpos为词性标注向量,dem为精确匹配特征向量;S112:使用堆叠的CNN来捕获长度为k的短语级表示,每层的卷积核大小都为k,假设共有n个卷积层,每层的输出表示为: 其中,每层的输入为上一层的输出,为w,最终提取到的是长度为k的短语特征为pd;S113:使用并行的CNN来提取不同长度的短语级表示,每个卷积层具有不同的卷积核大小,假设有n个卷积层,则卷积核大小分别为k、k+1、…、k+n-1,最终提取到的不同长度的短语特征为其中,为卷积核大小为k的卷积层的输出,依此类推;S114:将所有的短语特征拼接起来,最终短语特征p表示为: S115:通过两层全连接层对短语特征向量进行降维,降维公式为:pl=max0,pl-1W1+b1W2+b2,l=1,2其中,W1、W2为连接权重矩阵,b1、b2为偏置项;pl为第l层的输出,p0=p,最终得到尺寸为[batch_size,seq_len,hidden_size]的向量,其中batch_size为样本数量,seq_len为样本长度,hidden_size为BiLSTM隐藏层大小;步骤S2中,提取上下文特征和关键特征,具体包括以下步骤:S21:使用n层BiLSTM提取上下文特征,每层的输出表示为:th=BiLSTMhth-1,h=1,…,n其中,每一层的输入为上一层的输出,第一层的输入t0=p2,p表示短语特征;S22:采用BiLSTM+attention的模型来计算句内自注意力匹配权重,匹配计算采用双线性函数方法,公式如下: 其中,c为第l层BiLSTM编码的最后一个时刻单元的状态值,与中间每一个时刻的输出h进行匹配计算,M为权重参数,b为偏执项,匹配结果进行softmax分类,得到语句内每个词的句内自注意力权重w,根据计算得到的权重加权求和得到句内关键特征向量为t*;S23:将BiLSTM最后一层的输出tn和关键特征向量t*拼接作为下一层的输入t,t的尺寸为:[batch_size,seq_len,hidden_size*2+1]其中,batch_size为样本数量,seq_len为样本长度,hidden_size为BiLSTM隐藏层大小;步骤S3中,提取交互特征并压缩包括:S31:使用四种句间注意力机制:concatattention、bilinearattention、dotattention以及minusattention提取交互特征,分别得到xc、xb、xd和xm四个交互特征向量;S32:将交互特征进行聚合,通过以下方式将交互特征向量聚合起来:fc=F[t;x]fm=F[t⊙x]fs=Ft-x其中,t为BiLSTM最后一层的输出tn和关键特征向量t*拼接得到的向量,x为四种交互特征向量,F·为压缩函数,其计算公式如下: 其中,N为特征维度;将xc、xb、xd和xm以及t分别输入到三个聚合函数中,分别得到12个标量;S33:将t和12个标量拼接到一起,得到匹配特征z,z表示为: 其中,为fc=F[t;xc]的输出结果,依此类推;步骤S31中,得到四个交互特征向量,具体包括:使用四种句间注意力机制的计算方式来计算两个句子中的单词对的相似度,构建相似度矩阵,归一化后作为权重,并通过权重以及另一个句子的各个词向量,结合起来得到词的交互特征向量。

全文数据:

权利要求:

百度查询: 联通沃悦读科技文化有限公司 一种用于智能语音助手的对话短文本语句匹配方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。