首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种生成式多模态互利增强视频语义通信方法_南京邮电大学_202310687966.6 

申请/专利权人:南京邮电大学

申请日:2023-06-12

公开(公告)日:2023-10-24

公开(公告)号:CN116939320A

主分类号:H04N21/80

分类号:H04N21/80;H04N21/233;H04N21/234;H04N21/2343;H04N21/2383;H04N21/439;H04N21/44;H04N21/4402;H04N21/438;G06F18/25;G06N3/048;G06N3/0475;G06N3/0499;G06N3/0464;G06N3/0455;G06N3/09

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.09#实质审查的生效;2023.10.24#公开

摘要:本发明公开了一种生成式多模态互利增强视频语义通信方法,称为MME‑SC。该方法建立在条件生成对抗网络CGAN的基础上,旨在使用文本作为主要传输载体,利用不同模态之间的互利增强来实现目标语义信息的精准提取,从而完成视频传输任务。在多模态互利增强网络的帮助下,我们从视频的关键帧图像和音频中提取语义信息,并进行差值处理,以确保提取的文本以更少的比特传达准确的语义信息,从而提高系统的容量。此外,本发明设计了一个多帧语义检测模块,以督促视频生成过程中的语义过渡。仿真结果表明,本发明出的框架在复杂噪声环境中对视频的传输具有较高的鲁棒性,特别是在低信噪比条件下,显著提高了视频通信中语义传输的准确性和符号传输速率。

主权项:1.一种生成式多模态互利增强视频语义通信方法,其特征在于,所述方法包括如下步骤:步骤1:发送端视频片段语义信息提取;步骤1-1:视频关键帧判别选择;步骤1-2:关键帧图像音频模态信息提取文本语义信息;步骤2:建立多模态互利增强网络模型;步骤2-1:输入单帧图像文本音频信息并分别编码;步骤2-2:设计语义差分处理,文本模态以预训练CGAN为基础生成图像音频;步骤2-3:进行语义信息差分处理;步骤3:建立通信编解码模块:步骤3-1:建立语义通信编解码模块,设定语义网络集合引入语义相似度其中B·代表基于转换器的句子-双向编码器BERT的预训练模型,语义相似度ξ是一个在0和1之间的连续值,s代表传输原句,代表接收端恢复语句,·T代表转置;步骤3-2:建立语义编解码模块;步骤3-3:建立信道编解码模块;步骤4:接收端视频恢复;步骤4-1:接收端基于条件生成对抗网络CGAN实现文本语义及辅助信息图像音频还原;步骤4-2:多帧信息匹配性纠错,确保信息的一致性和逻辑性,最终恢复出完整的视频。

全文数据:

权利要求:

百度查询: 南京邮电大学 一种生成式多模态互利增强视频语义通信方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。