首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于规则意图表决器的D-S证据理论多模态融合人机交互方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京工业大学

摘要:本发明公开了基于规则意图表决器的D‑S证据理论多模态融合人机交互方法,机器人听觉系统采集音频信息,调整自身姿态并进行硬件降噪,视觉系统使用双层网络来对动态手势进行检测和识别,对手势动作进行分类;对语音和手势的识别网络添加全连接层,输出机器人对于交互对象的意图理解。让两种模式以并行协助的方式来实现人机交互的通信过程,能够接受更多信息,做出准确的意图理解,视觉和听觉更容易被人接受,并在交互机制上做出改进。将不同模态对当前信息输入的输出判断结果。这样的合成结果更为关注深层次的信息之间的联系,解决多模态之间的融合,也能适应不同模态之间的证据冲突问题,并且关注于标签中的单一结果,更适用于的人机交互工作。

主权项:1.基于规则意图表决器的D-S证据理论多模态融合人机交互方法,其特征在于:首先,机器人听觉系统采用六麦环形阵列采集音频信息,利用MUSIC算法确定声源方位;然后,调整自身姿态并进行硬件降噪,经过MFCC的语音特征预处理,利用端对端门控CNN识别语音结果;视觉系统使用双层网络来对动态手势进行检测和识别,识别器和分类器以滑动窗口法,步幅s=1作用在视频帧上,使用3DCNN和LSTM的深度CNN框架来处理时序信息,对手势动作进行分类;最后,对语音和手势的识别网络添加全连接层,进行归一化处理,并进行基于规则意图表决器的D-S证据理论算法对不同模态进行融合,输出机器人对于交互对象的意图理解;语音采集装置为六麦环形阵列,对音频的输入增加了空间域和时域属性,判断语音对象方位角的同时可以实现硬件降噪,对语音输入信号加强;确认方位角采用高分辨率谱估计法,麦克风之间的距离为d,空间中信号的波长为λ,第k个源信号到第m个麦克风的波前信号为fkt,每个麦克风接收到的噪声为nm,m=1,2,…,Μ,则第m个麦克风接收到的信号表示为:式中其中θk为k个信号源的方向;ak为第m个麦克风对信号k的响应;麦克风阵列接收到的信号写成向量形式为:Xt=AFt+Nt,因为麦克风阵列之间的噪声不相关,接收数据Xt的协方差矩阵表示为:S=E{XtX*t},式中*表示共轭转置,麦克风阵列获取的信号是由源信号和噪声构成的,将bg个最小特征向量所组成的子空间称之为噪声子空间,而与其正交的子空间则是信号子空间,为:span{vK+1,vK+2,…,vM}⊥span{aθ1…aθK},对于在方向θK的信号利用正交的信号子空间和噪声子空间,构造空间谱函数进行谱峰搜索: 空间谱函数极大值所对应的θ就是信号源方向的估计值,即声源定位的结果;最初六个麦克风的权重相同:Vx=α0·x0+α1·x1+…+α5·x5,Vx为麦克风阵列作用的总输出音频信号,α为每个麦克风的权重,且满足{α0+α1+…+α5=1},此时每个麦克风之间只有相对空间位置,对应着音频输入信号的时序关系,满足{α0=α1=…=α5};当解析麦克风的相关矩阵确定声源的位置方向{θ},声源方向对应的麦克风xi权重加强,其他方位角的音频信号被抑制,即使用梅尔倒谱系数MFCC对语音输入信号进行滤波,降低噪声的影响,基于预处理,分帧,加窗和快速傅里叶变换,并经过三角带通滤波器滤波后得到的功率归一化音频的频谱图作为语音识别网络模型的输入,每个三角带通滤波器输出的信号能量能够作为信号的特征,送入到语音识别网络模型中;专注于语音识别的速度,基于Wav2letter设计一个完全基于CNN的端对端网络架构,共有12层卷积结构,模型第一层提取经MFCC滤波后的语音关键特征,全网络看作一个非线性卷积,核宽为31280,步长为320,使用门控线性单元GLU作为激活函数,并将损失函数设为CTC,网络在预测模型时不需要预先对数据做语音对齐工作;对声觉和视觉的网络输出都加上全连接层,并进行归一化处理,得到对所有标签的置信度{labeli,ConVi},{labelj,ConAj},i,j=0,1,…,n,设计基于规则的意图表决器,包括互补性和冲突性,将两个网络的结果输出到基于规则的意图表决器中,在T中每组数据都包含一个标签和对应的手势或者语音置信度:S={labeli,j,ConVi,ConAj},i,j=0,1,…,nT为设计存储数据的容器,同一标签下两种模态输出结果相对应;设置上下阈值ULN和UCL,能够体现出模型对事件的预测强度,分别设置为80%和20%,设立标志位flag表明两个模态之间的信息联系情况,意图表决器对当前两个模态的预测结果进行逻辑运算,并输出flag值来表示当前两个模态之间的联系;共有无模态响应flag=0,单一模态flag=1,双模态相互补充flag=2,两个模态冲突flag=3四种情况;无模态响应时即视觉和听觉系统都没有检测到对应模态的输入信号只有label0有确切数值,而其他标签label对应的输出置信度小于UCL,此时机器人无相应动作: 单一模态是说只存在一种模态,视觉或者听觉作用,而另外一种模态并没有检测到输入交互信号,此时机器人运行到单一模态机制,输出结果即为此模态识别结果: 双模态相互补充即为多模态的应用情况,视觉和听觉同时对相同label的输入信号进行识别和检测,能加强对交互对象的意图理解: 两个模态冲突,是多模态融合机制中的不确定事件,此时两种模态预测结果为不同的标签值; 根据标志位flag当前的值来判断机器人当前工作的模式以及两种模态的联系,当flag=0时,表示并没有输入,或输入的信号不在机器人的理解范围内,此时对应的机器人无动作,当flag=1,2时,为单一模态工作模式以及多模态工作模式下的信息具有互补性,此时意图表决器会输出唯一确切值,当flag=3时,表示工作在多模态机制下,不同模态的识别结果具有冲突性;设立的标签label都是相互独立的,满足D-S证据理论的先验条件,label的所有值构成识别框架Θ,当出现不确定事件的时候,视觉和听觉的输出归一化处理为基本概率分配,简称BPA,{ConVi,ConAj}转化为{mvi,mAj};独立标签组合中加入了标签预测概率之间差距极小的并集labeli,j+1:{labeli,labelj}满足{|Coni-Conj|≤ε=0.2}i,j=1,2,…n,并在标签中加入初始标签的并集{label1,label2…,labeln},满足所有的标签种类{nsumlabel2n};在识别框架Θ上的BPA满足于:且其中mA0的A称为焦元;在识别框架Θ上基于BPA的信任函数Bel和似然度函数Pl为: 信任函数BelA1和似然函数PlA1组成信任区间[BelA1,PlA1],用以表示对预设的确认程度;证据理论合成公式对多个基本概率分配函数进行正交和运算的合成,组合规则如下: 其中,K为归一化常数,表现出不同证据中的冲突程度: 对Dempster合成规则进行了改进,当所有的焦元都是单个假设集,且这些焦元都满足Bayes独立条件时,Dempster证据合成公式就退化为Bayes公式,所以当在合成规则时只关注于识别框架中的单一元素,忽略其他多个假设组成的子集,并将单个元素使用mass函数的Bayes近似来计算更新:如果是其他假设则直接为0,重新更新mass函数值后再由Dempster来计算合成结果,输出所有标签的融合输出概率,指导机器人行动。

全文数据:

权利要求:

百度查询: 北京工业大学 基于规则意图表决器的D-S证据理论多模态融合人机交互方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。