首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】目标视听数据生成方法、装置、电子设备和可读介质_北京航空航天大学_202410489415.3 

申请/专利权人:北京航空航天大学

申请日:2024-04-23

公开(公告)日:2024-05-28

公开(公告)号:CN118092671A

主分类号:G06F3/01

分类号:G06F3/01;G06F16/45;G06F16/48;G06F18/213;G06F18/24;G06F18/25;G06N3/0455;G06N3/0464;G06N3/048;G06N3/08

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.06.14#实质审查的生效;2024.05.28#公开

摘要:本公开提出了一种目标视听数据生成方法、装置、电子设备和可读介质。包括:获取当前音视数据序列和视听注视点定位数据集;基于视听注视点定位数据集,生成注视点类激活图集;基于视听注视点定位数据集和注视点类激活图集,对初始多模态注视点预测模型进行训练,以及确定为多模态注视点预测模型;确定音视时短期特征序列和音视时长期特征序列;将音视时短期特征序列和音视时长期特征序列输入多模态注视点预测模型,得到目标注视点区域图像;将当前音视数据序列和目标注视点区域图像输入视听内容生成模型,得到下一视频帧数据序列和下一音频数据序列;生成目标视听数据。该实施方式可以及时生成用户感兴趣的目标视听数据,提高用户的视听体验。

主权项:1.一种目标视听数据生成方法,包括:获取当前音视数据序列和视听注视点定位数据集,其中,所述当前音视数据序列为待用于生成下一视听片段的当前视听片段的音视数据序列,所述当前音视数据序列中的每个当前音视数据包括视频帧数据和音频数据,所述视听注视点定位数据集中的每个视听注视点定位数据包括标签数据和视听数据;基于所述视听注视点定位数据集,生成注视点类激活图集;基于所述视听注视点定位数据集和所述注视点类激活图集,对初始多模态注视点预测模型进行训练,以及将训练完成后的初始多模态注视点预测模型确定为多模态注视点预测模型;确定所述当前音视数据序列对应的音视时短期特征序列和音视时长期特征序列;将所述音视时短期特征序列和所述音视时长期特征序列输入所述多模态注视点预测模型,得到与所述当前视听片段对应的目标注视点区域图像;将所述当前音视数据序列和所述目标注视点区域图像输入预先训练完成的视听内容生成模型,得到下一视频帧数据序列和下一音频数据序列,其中,所述视听内容生成模型是对初始视听内容生成模型进行训练得到的,所述初始视听内容生成模型包括预处理层、视频编码器、视频解码器、音频编码器、音频解码器和变换网络层;基于所述下一视频帧数据序列和所述下一音频数据序列,生成目标视听数据,其中,所述目标视听数据为所述下一视听片段的视听数据。

全文数据:

权利要求:

百度查询: 北京航空航天大学 目标视听数据生成方法、装置、电子设备和可读介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。