买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:东南大学
摘要:本发明公开了一种基于层次图神经网络的表格文本问答方法,该方法首先通过稀疏检索器快速召回与问题关联的文本证据信息,并将这些证据信息填充到表格中;接着利用表格行选择模型对表格行打分排序,从而找到最有可能包含答案的答案行;然后对答案行以及关联文本融合编码得到特征向量表示,进而使用基于表格行的层次图神经网络对问题、单元格、短文进行图推理,以捕捉表格特有的半结构化信息;最后,通过三个相互关联的子任务求解得到问题对应的答案。本发明能够有效地解决表格和文本相互补充场景下的多跳问答问题。
主权项:1.一种基于层次图神经网络的表格文本问答方法,其特征在于,包括如下步骤:1关键信息检索:使用一个稀疏检索检索器和一个最长子串匹配器在表格和短文中寻找与答案最可能相关的支持证据标记为SE,SupportEvidence,检索器会计算单元格以及短文句子与问题之间的相似度,同时会选择相似度小于0.8的相关证据信息进行标记;2表格行选择:使用TaPas作为表格编码模型,将包含SE信息的表格行用TaPas进行预编码,然后将所有检索到的SE信息填充到table中来得到整张表的向量表示,通过一个表格行选择器;3长文本编码:使用一个长编码模型来对表格行以及该表格行的外链文本进行编码,以此来获取输入的特征向量表示;4层次图推理:本发明设计并构建一种名为row-HGN的层次图神经网络模型,用row-HGN对三种类型的节点,问题,单元格,短文进行建模,然后在三种节点之间做图推理,以捕捉半结构化信息;5多任务答案抽取:一种混合的损失作为模型反向传播的函数,通过单元格选择,答案定位选择以及答案位置定位三个子任务来最终定位答案;其中,步骤5中多任务答案抽取,具体如下:本发明经过图推理之后,获得了图节点的特征向量G′={Q′,C′,P′},G′∈Rn*d,n=1+nc+np,Q′,C′,P′分别是经过图推理之后得到的问题、单元格、短文节点特征向量,该步骤构造三个不同的子任务来最终定位答案的最终位置,分别是:答案分类,answerclassition、单元格选择,cellselection、片段定位,spanlocation,首先,对于第一个子任务,分类依据的信息是经过图推理之后得到Q′节点的特征向量,该过程用公式描述为: 其次,对于在单元格中的答案,需要执行一个单元格选择的子任务,用公式描述为: 最终,对于段落中的答案,需要精确抽取答案的片段开始位置与结束位置,将通过图推理得到的P′和长编码得到的初始特征E进行级联拼接,之后计算答案的开始和结束位置如下: 上述公式中,OutputLayer是一个混合输出层,主要由两层线性层和一层BertBorm层构成,最终,本发明使用一种混合的loss函数作为模型反向传播的函数,总的Lmix结合了单元格选择,答案定位选择以及答案位置定位三个子任务的loss,计算如下:Lmix=βLlocation+αLcell+γLspan15其中,α、β、γ是超参数,Llocation、Lcell、Lspan分别对应三个子任务的损失值。
全文数据:
权利要求:
百度查询: 东南大学 一种基于层次图神经网络的表格文本问答方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。