一种基于扩散模型和跨模态协同的视听舞蹈生成方法和系统

导航：龙图腾网> 最新专利技术> 一种基于扩散模型和跨模态协同的视听舞蹈生成方法和系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：浙江大学;上海人工智能创新中心

摘要：本发明公开了一种基于扩散模型和跨模态协同的视听舞蹈生成方法和系统，属于生成式人工智能领域。所述方法包括：获取舞蹈视频和对应的背景音乐组合作为训练集，分别通过跨模态双向协同表征变分自编码器获取低维嵌入特征向量序列；构建并训练基于Transformer架构的扩散模型以学习视听舞蹈数据的数据分布；利用训练好的模型再结合提出的无分类器引导采样生成对应的低维嵌入特征向量序列；最后通过对应的解码器实现视听舞蹈生成任务。本发明通过引入在低维嵌入空间的跨模态协同表征学习和改进的以注意力机制为主架构的扩散模型，实现了高质量、高匹配度、长序列的视听舞蹈生成。

主权项：1.一种基于扩散模型和跨模态协同的视听舞蹈生成方法，其特征在于，包括如下步骤：1获取舞蹈视频和与舞蹈视频对应的音频数据，针对音频数据提取音频梅尔频谱序列；针对舞蹈视频中的每帧图像，提取人体姿态运动关节点，组成姿态运动序列；2构建音频部分的变分自编码器和姿态运动部分的变分自编码器，所述变分自编码器均由编码器和解码器构成；3将音频梅尔频谱序列输入音频部分的变分自编码器，通过变分自编码器重构损失训练音频部分的变分自编码器，固定训练好的变分自编码器；4将音频梅尔频谱序列输入训练好的音频部分的变分自编码器，姿态运动序列输入姿态运动部分的变分自编码器，分别输出姿态运动序列的低维嵌入特征和音频梅尔频谱序列的低维嵌入特征，对两个模态的低维嵌入特征进行跨模态知识协同对比学习以实现对齐，根据对齐后的低维嵌入特征计算对比学习损失函数；通过变分自编码器重构损失以及对比学习损失函数训练姿态运动部分的变分自编码器；5构建基于Transformer架构的扩散模型；利用训练好的两个变分自编码器获取姿态运动序列的低维嵌入特征和音频梅尔频谱序列的低维嵌入特征，利用获取的低维嵌入特征训练基于Transformer架构的扩散模型；6基于训练好的基于Transformer架构的扩散模型，结合无分类器引导采样策略实现基于人体运动姿态的音频生成或基于音频的人体运动姿态生成。

全文数据：

权利要求：

百度查询：浙江大学上海人工智能创新中心一种基于扩散模型和跨模态协同的视听舞蹈生成方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种热管理系统及其控制方法、五通装置

下一篇：一种焦化废水深度处理装置

相关技术

一种热管理系统及其控制方法、五通装置

一种焦化废水深度处理装置

一种芯片去层方法

计算机程序产品、信息处理装置、信息处理方法以及计算机可读存储介质

一种桥壳加强圈翻转焊接设备

一种汽车零部件生产表面检测装置

具有红外吸收器的像素单元、像素阵列以及实现这种像素阵列的相机

内窥镜管路的堵塞判定装置及堵塞判定方法

用于检测青光眼的系统和方法

一种催化反应滤膜及其制备方法和应用

一种水库质检用摄像无人机及其使用方法

旋转电机的定子

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于扩散模型和跨模态协同的视听舞蹈生成方法和系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务