买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于视觉的行人召车行为识别方法_大连理工大学_202111362421.5 

申请/专利权人:大连理工大学

申请日:2021-11-17

公开(公告)日:2024-04-26

公开(公告)号:CN113989495B

主分类号:G06V10/25

分类号:G06V10/25;G06V40/16;G06V40/20;G06V10/764;G06V10/82;G06V10/40;G06N20/20;G06N3/042;G06N3/0464;G06N3/048;G06N5/04;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.04.26#授权;2022.02.18#实质审查的生效;2022.01.28#公开

摘要:本发明公开了一种基于视觉的行人召车行为识别方法,包括以下步骤:图像预处理和意图推理。本发明采用计算机视觉的方法从图像中准确高效的识别出具有召车行为的行人,实现自动驾驶出租车更高效的发现乘客,提高了自动驾驶出租车的使用效率,也提高了乘客的出行效率。本发明采用了空间推理网络实现对行人召车行为的推理,减少了对时间维度信息的依赖,与传统的行为识别算法相比,减少了时间特征提取的过程,能够简化网络,提高行为推理的实时性。本发明采用了一套具有逻辑上可解释的融合规则,实现随机森林和图卷积网络的融合,逻辑上可解释的特性能够提高算法的环境适应性和行为识别的精度,实现融合算法对行人召车意图更稳定准确的推理。

主权项:1.一种基于视觉的行人召车行为识别方法,其特征在于:包括以下步骤:A、图像预处理采用目标检测算法和人体关键点提取算法实现对图像的预处理,得到行人的检测框D以及每个检测框内所对应的行人的关键点参数K,在召车行为推理的过程中,人体的面部注意力是判断其是否具有召车意图的关键线索,在真实的场景中,行人召车的过程,行人将会对出租车具有高度的注意力;对面部注意力的推理,从两个方面进行,首先利用人体关键点检测中所检测到的面部关键点进行推理,以左耳关键点和右耳关键点的横坐标之差hp为基准,以σ为放大系数,形成一个边长为σhp的正方形框S作为面部区域;当左耳关键点和鼻关键点的横向距离hf大于hp,意味着行人的面部以相对侧面的角度正对出租车,即行人对车辆的注意力较小;当hf小于hp,将面部区域S输入到面部注意力深度网络中计算行人的面部注意力概率;面部注意力深度网络包括前部网络和后部网络,前部网络为特征提取网络,采用Resnet50作为基准网络,提取面部特征;后部网络为由全连接层组成的特征连接网络,实现将前部网络所提取的面部特征连接,得到全局特征,输出为面部注意力概率ρf;B、意图推理采用随机森林算法和图卷积网络相结合进行行人的意图推理,具体步骤如下:B1、采用随机森林算法推理人体关键点之间的连接角度和行人意图的关系,随机森林的输入是人体关键点的连接角度,为了防止出现过拟合的现象,选取一些与行人召车关系较强的关键点角度作为随机森林的输入,包括以颈关键点、左肩关键点、右肩关键点、左肘关键点、右肘关键点为顶点的连接角度,随机森林的输出为行人具有召车意图的概率ρr;B2、采用图卷积网络推理人体关键点位置与行人意图的关系,图卷积网络的输入为人体图模型Gv,e,其中,v为人体图模型的节点,即人体关键点,节点特征为关键点的坐标,e为人体图模型的边,即节点之间的连接;由于目标检测所获取的检测框D的尺寸不固定,为了降低检测框尺寸对意图推理的影响,采用坐标转换实现将人体关键点的图像坐标转化为以人体颈部关键点为原点的关联坐标: 其中,xinew和yinew为第i个人体关键点转换后的横坐标和纵坐标;ui与vi为第i个人体关键点的转换前的横坐标和纵坐标;u1与v1为颈部关键点的横坐标和纵坐标;图卷积网络的过程为: 其中,A是人体图模型的邻接矩阵;是人体图模型的度矩阵;Hl是第l层图卷 积的输出特征,Hl+1为第l+1层图卷积的输出特征;Wl为第l层图卷积的参数矩阵; 是激活函数;Z是图卷积网络的输出,即行人具有召车意图的概率ρg;Hz是最后一层图卷积 的特征矩阵;Wz是最后一层图卷积的参数矩阵;readout·是由全连接层组成的图读出 网络,实现将人体图模型中的所有节点特征聚合连接; B3、算法融合通过随机森林和图卷积网络,分别得到行人具有召车意图的概率随机森林输出概率ρr和图卷积网络输出概率ρg,为了得到更稳定准确的意图推理,提出一套具有逻辑上可解释的融合规则实现将随机森林和图卷积网络融合,融合规则如下: 其中,p是融合后行人具有召车意图的概率;当pg>0.5且pr>0.5或者pg<0.5且pr<0.5时,意味着随机森林算法和图卷积网络算法具有相同的推理结果,则融合概率p为当pg>0.5且pr<0.5时,则意味着随机森林算法和图卷积网络算法具有不同的推理结果,图卷积网络的推理结果为行人具有召车意图,随机森林的推理结果为行人没有召车意图,为了得到一个更准确的推理结果,面部注意力概率pf作为动态权重对pg和pr实现动态加权平均,即,当pf>0.5,意味着行人具有较高的召车概率,则赋予图卷积网络的输出一个更高的权重,而随机森林的输出赋予一个较低的权重;当pf<0.5时,则赋予随机森林的输出一个更高的权重,而赋予图卷积网络的输出一个更低的权重;当pg<0.5且pr>0.5时,则意味着另一种随机森林算法和图卷积网络算法具有不同的推理结果的情况,图卷积网络的推理结果为行人没有召车意图,而随机森林的推理结果为行人具有召车意图,当pf>0.5时,意味着随机森林的推理结果有更高的概率为正确的结果,则随机森林的输出赋予更高的权重,而图卷积网络的输出赋予更低的权重;反之,当pf<0.5时,则图卷积网络的输出赋予更高的权重,而随机森林的输出赋予更低的权重。

全文数据:

权利要求:

百度查询: 大连理工大学 一种基于视觉的行人召车行为识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。