恭喜腾讯科技(深圳)有限公司唐梓轩获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜腾讯科技(深圳)有限公司申请的专利动作视频生成方法、相关装置和介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119229218B 。
龙图腾网通过国家知识产权局官网在2025-03-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411731901.8,技术领域涉及:G06V10/764;该发明授权动作视频生成方法、相关装置和介质是由唐梓轩;何琨;姜衔;谢经纬;周敏;谢后齐;王朗;陈万顺;安东岳;陈祺;杜楠;李小龙设计研发完成,并于2024-11-29向国家知识产权局提交的专利申请。
本动作视频生成方法、相关装置和介质在说明书摘要公布了:本公开实施例公开了一种动作视频生成方法、相关装置和介质,该方法通过获取与目标虚拟角色关联的目标音频,将目标音频编码为目标音频特征;获取与目标虚拟角色关联的目标引导内容,将目标引导内容和预设提示文本输入到预设的大语言模型进行文本预测,生成至少一个用于描述目标虚拟角色的语义标签,将语义标签编码为语义标签特征;利用扩散模型根据目标音频特征和语义标签特征对预设噪声特征进行去噪,得到目标动作序列;基于目标动作序列生成目标虚拟角色的目标动作视频。本公开能够生成更为契合虚拟角色自身特点的动作数据,提高所生成的动作数据的精细度和准确度,能够广泛地应用在虚拟角色建模、虚拟角色驱动等场景。
本发明授权动作视频生成方法、相关装置和介质在权利要求书中公布了:1.一种动作视频生成方法,其特征在于,包括:获取与目标虚拟角色关联的目标音频,将所述目标音频编码为目标音频特征;获取与所述目标虚拟角色关联的目标引导内容,将所述目标引导内容和预设提示文本输入到预设的大语言模型进行文本预测,生成至少一个用于描述所述目标虚拟角色的语义标签,将至少一个所述语义标签编码为语义标签特征,所述预设提示文本用于提示所述大语言模型基于所述目标引导内容生成所述语义标签;利用扩散模型根据所述目标音频特征和所述语义标签特征对预设噪声特征进行去噪,得到目标动作序列,所述目标动作序列包括待生成的目标动作视频中所述目标虚拟角色各个动作帧的动作数据;基于所述目标动作序列生成所述目标虚拟角色的所述目标动作视频;其中,所述扩散模型通过以下方式训练:获取样本虚拟角色的样本动作序列、与所述样本虚拟角色关联的样本音频和与所述样本音频关联的样本引导内容,所述样本动作序列包括所述样本虚拟角色在多个动作帧中的动作数据;将所述样本音频编码为样本音频特征,将所述样本引导内容和预设提示词输入到大语言模型进行文本预测,生成用于描述所述样本虚拟角色的样本标签;依次在多个时间步中对所述样本动作序列进行加噪,直至所述时间步达到所述时间步最大值,得到样本噪声序列,将在每个所述时间步中添加到所述样本动作序列的噪声特征确定为所述时间步对应的参考噪声特征;将所述样本标签编码为样本标签特征,利用所述扩散模型根据所述样本音频特征、所述样本标签特征对每个所述时间步中的所述样本噪声序列进行去噪,确定每个所述时间步中预测得到的预测噪声特征,所述预测噪声特征是在所述时间步的去噪过程中从所述样本噪声序列中去除的噪声;基于每个所述时间步对应的所述参考噪声特征和所述预测噪声特征之间的差异,确定第一损失函数值,基于所述第一损失函数值进行反向传播,以优化所述扩散模型的参数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人腾讯科技(深圳)有限公司,其通讯地址为:518000 广东省深圳市南山区高新区科技中一路腾讯大厦35层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。