首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于改进PEGASUS模型的多模态的课堂纪要自动生成方法与系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:华中师范大学

摘要:本发明公开了基于改进PEGASUS模型的多模态的课堂纪要自动生成方法与系统,属于自然语言处理领域。本发明利用基于注意力机制的多模态融合层来合并视觉信息,在多头注意力映射中,视觉模态的信号被转换成键、值对,并与文本模态进行查询交互。同时,通过并行计算两个模态间的亲和矩阵,学习到模态联合表征信息,进一步提升预训练模型的文本生成能力。本发明在模态融合前,将图像与文本在语义层面进行对齐,通过计算文本与图像之间的语义相似度,图像中的重要内容应该由文本覆盖,尽可能弥合文本和图像之间的语义差距,即匹配文本和图像,在语义层面实现多模态对齐。实现最大化信息交互,解决模态之间语义偏差问题。

主权项:1.基于改进PEGASUS模型的多模态的课堂纪要自动生成方法,其特征在,包括:将课堂视频关键帧转化为图像数据,将课堂音频转化为课堂记录文本,图像数据和课堂记录文本对齐后,一起输入至训练好的改进PEGASUS模型,得到自动生成课堂纪要;所述改进PEGASUS模型包括:文本特征提取模块、文本Transformerencoder模块、视觉特征提取模块、图像Transformerencoder模块、多模态融合模块和Transformerdecoder模块;所述文本特征提取模块,用于从输入文本中提取带位置信息的文本特征向量;所述文本Transformerencoder模块,用于对带位置信息的文本特征向量进行编码;所述视觉特征提取模块,用于从输入图像中提取带位置信息的图像特征向量;所述图像Transformerencoder模块,用于对带位置信息的图像特征向量进行编码;所述多模态融合模块,用于融合带位置信息的文本特征编码和带位置信息的图像特征编码,得到多模态融合特征编码;所述Transformerdecoder模块,用于对多模态融合特征编码解码,得到课堂纪要。

全文数据:

权利要求:

百度查询: 华中师范大学 基于改进PEGASUS模型的多模态的课堂纪要自动生成方法与系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。