哈尔滨工业大学;招商银行股份有限公司吕姚嘉获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉哈尔滨工业大学;招商银行股份有限公司申请的专利基于多关系图模型的多模态对话问答生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115712709B 。
龙图腾网通过国家知识产权局官网在2025-06-13发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211451009.5,技术领域涉及:G06F16/3329;该发明授权基于多关系图模型的多模态对话问答生成方法是由吕姚嘉;朱文轩;刘铭;徐洁馨;李秋霞;秦兵设计研发完成,并于2022-11-18向国家知识产权局提交的专利申请。
本基于多关系图模型的多模态对话问答生成方法在说明书摘要公布了:基于多关系图模型的多模态对话问答生成方法,涉及一种多模态对话问答生成方法。本发明为了解决现有的多模态对话系统仅考虑场景序列化信息而导致现有模型效果一般的问题。本发明首先将视频序列化切分为多个视频片段,对于每个片段获取该片段的色彩特征、光流特征和音频特征,并拼接起来,再加入位置信息和模态信息得到各个视频片段的序列表示;将每个视频片段视作顶点,构建基于全联通关系的视频图并输入图卷积神经网络,得到视频隐藏层序列以及与原视频序列的融合表示;然后利用相似的方式处理基于视听场景标题和对话历史对应的词向量得到各自对应的文本隐藏层序列以及与原文本序列的融合表示;最后利用神经网络模型生成回答。
本发明授权基于多关系图模型的多模态对话问答生成方法在权利要求书中公布了:1.一种基于多关系图模型的多模态对话问答生成方法,其特征在于,包括以下步骤: S1、使用固定大小的滑动窗口将视频序列化切分为多个视频片段,对于每个片段,获取该片段的色彩特征和光流特征以及音频特征 将色彩特征光流特征和音频特征拼接起来得到再加入位置信息和模态信息得到各个视频片段的序列表示Vt;表达式为: 其中,位置信息中使用数字指代每个视频片段出现的次序,模态信息中使用标识符[video]统一标识视频特征,在实际计算时将其转换成固定维度的向量; S2、针对视听场景表示V=V1,V2,...,Vm,V1,V2,...,Vm即为各个视频片段的序列表示,将每个视频片段视作顶点,构建基于全联通关系的视频图其中 是有向依赖边的集合,对于每条有向依赖边Vi,Vj,lij,lij表示从Vi到Vj的依赖关系,且设置为1; 将视频图输入图卷积神经网络,输出视频隐藏层序列GV; S3、将视频隐藏层序列GV和原视频序列表示V输入线性层得到视频的融合表示并作为后续基于GPT-2架构的多层TRANSFORMER模型的部分输入; S4、基于视听场景标题C和对话历史H得到对应的词向量表示Cfeature和Hfeature;将标题词向量Cfeature和对话历史词向量Hfeature拼接起来,再加入位置信息Tpos和模态信息Tmod得到文本序列表示T;表达式为: Tfeature=[Cfeature,Hfeature], T=Tfeature+Tmod+Tpos, 其中,位置信息Tpos中使用数字指代标题和每个问答对中单词出现的次序,Tpos中使用标识符[cap]统一标识视听场景标题,标识符[usr1]标识提问者,标识符[usr2]标识回答者,在实际计算时分别将其转换成固定维度的向量; S5、将S4得到的文本序列表示T中的每个词向量视作顶点,构建基于句子级依存关系的图结构和或基于完整对话共指关系的图结构 然后将句子级依存关系的图结构和或基于完整对话共指关系的图结构分别输入图卷积神经网络,得到各自对应的文本隐藏层序列; S6、将句子级依存关系的图结构和或基于完整对话共指关系的图结构对应的文本隐藏层序列和原文本序列表示T输入线性层得到文本的融合表示并作为后续基于GPT-2架构的多层TRANSFORMER模型的部分输入; S7、将和拼接获得增强多模态输入,并将增强多模态输入基于GPT-2架构的多层Transformer模型生成回答。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人哈尔滨工业大学;招商银行股份有限公司,其通讯地址为:150001 黑龙江省哈尔滨市南岗区西大直街92号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。