首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种电影场景内镜头视频排序系统及方法_之江实验室_202210460469.8 

申请/专利权人:之江实验室

申请日:2022-04-28

公开(公告)日:2024-05-31

公开(公告)号:CN115022711B

主分类号:H04N21/44

分类号:H04N21/44;H04N21/845;G06N3/0464;G06N3/0455;G06N3/084

优先权:

专利状态码:有效-授权

法律状态:2024.05.31#授权;2022.09.23#实质审查的生效;2022.09.06#公开

摘要:本发明属于视频制作领域,公开了一种电影场景内镜头视频排序系统及方法,包括电影数据预处理模块、镜头特征提取模块、镜头排序模块;电影数据预处理模块包括镜头检测与分割,用于将输入的整个电影按照镜头进行切分;镜头特征提取模块用于提取单个镜头的多个关键帧图像的内容特征;镜头排序模块,用于将一个场景下的图像时序特征进行组合为一组特征图,多个场景的多组特征图进行输入;选定一个视频片段作为初始片段,预测出下一个视频片段是其中的哪一个镜头,直至完成所有视频片段的排序。本发明可实现以每一个分镜的多个镜头作为输入,自动的从中选择一个最符合此视频风格的镜头并将其串联成一个完整的视频。

主权项:1.一种电影场景内镜头视频排序系统的视频排序的方法,所述系统包括电影数据预处理模块、镜头特征提取模块、镜头排序模块;所述电影数据预处理模块包括镜头检测与分割,用于将输入的整个电影按照镜头进行切分;所述镜头特征提取模块用于提取单个镜头的多个关键帧图像的内容特征;所述镜头排序模块,用于将一个场景下的图像时序特征进行组合为一组特征图,多个场景的多组特征图进行输入;选定一个视频片段作为初始片段,预测出下一个视频片段是其中的哪一个镜头,直至完成所有视频片段的排序;其特征在于,所述方法包括如下步骤:步骤101:通过TransNet模型对输入的电影进行分割:基于TransNet方法对完整的电影视频进行镜头边界帧的识别,并按照镜头边界帧的时间节点,实现对电影视频的切分,得到多个镜头片段;将电影视频输入TransNet模型进行边界帧判别并按照边界帧对电影视频进行切分;电影视频通过TransNet模型中的4个DDCNN单元进行处理,4个DDCNN单元具有相同的卷积核大小和不同的扩张率,将经过4个卷积操作之后分别得到的4个输出进行拼接,再经过1层池化层和2层全连接层,最终输出对电影视频中的每一帧的判别,即该帧是否为边界帧,由此得到边界帧的时间节点;然后根据得到的边界帧时间节点对电影视频进行切分,从而获取每一个镜头的视频;TransNet的输入为N帧长的电影视频,输出为预测得到的视频边界帧,TransNet共有4个DDCNN单元,其中4个单元的卷积运算均为3×3×3,每个单元的扩张率分别为1、2、4、8,输入的视频先经过4个DDCNN,将4个DDCNN得到的4个输出拼接起来,再经过1层池化层与2层全连接层,输出每一帧的判别结果;训练时,网络的输入为长度为N的完整电影视频,且被统一调整大小为N×W×H×3,其中W表示图像的宽度,H表示图像的高度,N帧序列视频帧通过4个DDCNN单元,再经过1层池化层和两层全连接层,最后输出N×2维向量,表示对每一帧图像是否为边界帧的判别,TransNet的模型的训练具体为:训练集为N个编码向量图像帧的视频序列,通过随机梯度下降反向传播算法降低cross-entropy损失函数的损失值,具体loss函数如下: 训练:采用Adam优化器,初始学习率为0.001;预测:对于按照上述步骤训练完成的TransNet,输入任意电影Mtest全部帧,判断每一帧是否是镜头边界,进而得到边界帧,通过边界帧对视频进行划分进而获取每一个镜头的视频,用于步骤102;步骤102:使用TransNet对步骤101中得到的镜头视频片段提取多帧图片:基于TransNet方法提取每个镜头片段的第一帧、中间关键帧、结尾转场帧;对校验后的镜头视频片段进行提取多帧图片,需要提取的内容包含第一帧、中间关键帧、结尾转场帧,将步骤101中的得到的每一镜头的边界帧分别作为该镜头片段的第一帧和结尾转场帧,中间关键帧为镜头片段中经过TransNet之后的帧表征向量与其他帧表征向量计算平均余弦相似度,其中余弦相似度最大的作为关键帧;将每个视频片段提取的帧进行拼接,用于表示该片段;以此组合成一个新的时序视频序列;余弦相似度的计算公式如下: 其中θ表示视频片段特征向量集合,A表示进行平均余弦相似度计算的视频片段特征向量,B表示视频片段集合θ中非A的视频片段的视频片段特征,m为集合θ的大小,n为单个特征向量的维度;步骤103:基于ResNet50对多图像进行特征提取并拼接获得视频片段特征:基于ResNet50方法对每个镜头片段的第一帧、中间关键帧、结尾转场帧的图像进行特征提取,并将得到的特征向量进行拼接,作为代表该镜头片段的特征向量;选定一个镜头作为起始镜头,将开始图像Istrat,中间关键帧图像Imiddle1...n,结尾转场图像Iend送入ResNet50预训练模型中,进行图像特征向量提取,然后经过concat操作连接第一帧、中间关键帧、结尾转场帧的特征向量,获得该镜头片段的特征向量Fnembedding,重复以上步骤,提取当前电影视频下所有镜头的特征向量;为了获得镜头视频片段的特征向量Fnembedding,使用预训练模型ResNet50对图像进行特征提取,再将同一片段的图像特征进行拼接得到片段特征,其中ResNet50的基本结构描述如下:ResNet50模型由5个阶段组成,第1阶段是1个卷积操作,其余4个阶段都由Bottleneck组成,第2至5阶段分别包含3、4、6、3个Bottleneck;第1个阶段:输入为N,H,W,C,其中N表示批量样本个数,H表示高度、W表示宽度、C表示通道数,H=224,W=224,C=3;该阶段包括4个先后操作:卷积,卷积核大小为7×7;BatchNormalization;ReLU和MaxPooling,输出大小为N,112,112,64;第2个阶段由3个Bottleneck模块组成,每个Bottleneck中经过三个卷积操作,卷积核大小分别为1×1,3×3,1×1,输入大小为N,112,112,64,输出大小为N,56,56,256;第3个阶段由4个Bottleneck模块组成,每个Bottleneck中经过三个卷积操作,卷积核大小分别为1×1,3×3,1×1,输入大小为N,55,55,256,输出大小为N,28,28,512;第4个阶段由6个Bottleneck模块组成,每个Bottleneck中经过三个卷积操作,卷积核大小分别为1×1,3×3,1×1,输入大小为N,28,28,512,输出大小为N,14,14,1024;第5个阶段由3个Bottleneck模块组成,每个Bottleneck中经过三个卷积操作,卷积核大小分别为1×1,3×3,1×1,输入大小为N,14,14,1024,输出大小为N,7,7,2048;训练:使用ResNet50预训练模型;预测:输入为步骤102中得到的每个镜头片段中包含的图像,通过对ResNet50中第5阶段得到的特征向量进行提取,提取之后将每个片段所包含的图像的特征向量进行拼接,拼接之后得到片段的特征向量Fnembedding;步骤104:使用Transformer模型对电影片段进行预测分类:随机选出初始镜头片段,基于Transformer方法将代表镜头片段的特征向量作为输入,通过时序分类的方法预测下一个镜头片段,然后根据开端选定的镜头特征和已预测的镜头特征,继续进行预测下一镜头,直至将其串联成一个完整的视频。

全文数据:

权利要求:

百度查询: 之江实验室 一种电影场景内镜头视频排序系统及方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。