恭喜成都开心音符科技有限公司肖杰获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜成都开心音符科技有限公司申请的专利音频和视频生成方法、电子设备和计算机可读存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119316678B 。
龙图腾网通过国家知识产权局官网在2025-03-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411835274.2,技术领域涉及:H04N21/81;该发明授权音频和视频生成方法、电子设备和计算机可读存储介质是由肖杰设计研发完成,并于2024-12-13向国家知识产权局提交的专利申请。
本音频和视频生成方法、电子设备和计算机可读存储介质在说明书摘要公布了:本申请提供一种音频和视频生成方法、电子设备和计算机可读存储介质,该方法包括:获取目标文本,其中,目标文本包括目标文本特征;将目标文本输入预先训练完成的音视频生成扩散模型,获得音视频生成扩散模型输出的目标视频特征以及目标音频特征;对目标视频特征以及目标音频特征分别进行解码,获得目标文本对应的目标视频以及目标音频,由于音视频生成扩散模型在生成目标音频特征的扩散变换过程中将视频特征作为扩散考虑条件,音视频生成扩散模型在生成目标视频特征的时空扩散变换过程中将音频特征作为扩散考虑条件,因此,生成的目标音频特征与视频特征实现关联,使得本方案生成的目标视频和音频同步性高,进而使得音画同步性和质量更高。
本发明授权音频和视频生成方法、电子设备和计算机可读存储介质在权利要求书中公布了:1.一种音频和视频生成方法,其特征在于,所述方法包括:获取目标文本,其中,所述目标文本包括目标文本特征;将所述目标文本输入预先训练完成的音视频生成扩散模型,获得所述音视频生成扩散模型输出的目标视频特征以及目标音频特征,其中,所述目标视频特征通过音视频生成扩散模型根据初始视频特征、初始音频特征以及目标文本特征进行时空扩散变换生成,所述目标音频特征通过音视频生成扩散模型根据初始音频特征、初始视频特征以及目标文本特征进行扩散变换生成,所述初始视频特征通过音视频生成扩散模型根据第一高斯噪声和目标文本特征进行时空扩散变换生成,所述初始音频特征通过音视频生成扩散模型根据第二高斯噪声和目标文本特征进行扩散变换生成;对所述目标视频特征以及目标音频特征分别进行解码,获得目标文本对应的目标视频以及目标音频;所述音视频生成扩散模型的训练过程,包括:获取训练集,其中,所述训练集包括多个样本,每个样本包括文本样本特征以及文本样本特征对应的视频样本特征以及音频样本特征;对每个样本的视频样本特征进行时空切分并加入第一高斯噪声,获得每个样本的视频噪声的隐空间特征;对每个样本的音频样本特征进行时空切分并加入第二高斯噪声,获得每个样本的音频噪声的隐空间特征;获取目标扩散步数;根据文本样本特征以及视频噪声的隐空间特征进行时空扩散变换实现噪声去除,得到初始视频噪声去除特征,并根据文本样本特征以及音频噪声的隐空间特征进行扩散变换噪声去除,得到初始音频噪声去除特征;判断扩散步数是否达到预设扩散步数;若扩散步数达到预设扩散步数,则根据初始视频噪声去除特征、初始音频噪声去除特征以及文本样本特征进行时空扩散变换实现噪声去除,获得初始视频交互特征,并根据初始视频噪声去除特征、初始音频噪声去除特征以及文本样本特征进行扩散变换实现噪声去除,获得初始音频交互特征;判断扩散步数是否达到目标扩散步数;若扩散步数达到目标扩散步数,则根据初始视频交互特征、视频样本特征、初始音频交互特征与音频样本特征计算预设扩散模型的损失值;判断预设扩散模型的损失值是否达到目标损失值;若预设扩散模型的损失值达到目标损失值,则获得音视频生成扩散模型。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人成都开心音符科技有限公司,其通讯地址为:610000 四川省成都市高新区天府三街199号B区16层B3-2、B4、B5、B6单元;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。