买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:杭州海康威视数字技术股份有限公司
摘要:本申请实施例提供了一种答案确定方法、装置、电子设备及存储介质。方法包括:得到目标图像中存在的各原始文本、各原始文本的多模态特征;从多个原始文本中确定属于目标问题的答案的文本作为备选文本;在各原始文本中确定目标文本对应的上下文文本;根据目标文本对应的各上下文文本的多模态特征、目标文本的语义特征,预测得到目标文本的目标概率,并预测得到目标图像中目标文本的位置处的文本,作为目标文本对应的预测文本;确定目标概率满足预设低概率条件的目标文本,并将其替换为对应的预测文本,将替换后的备选文本作为目标问题的答案。可以提高了视觉问答预测出的目标问题的答案的准确性。
主权项:1.一种答案确定方法,其特征在于,所述方法包括:通过OCR识别得到目标图像中存在的各原始文本,并获取各所述原始文本的多模态特征,其中,所述多模态特征中包括所述原始文本的语义特征、用于表示所述原始文本在所述目标图像中所处位置的位置特征;根据各所述原始文本的多模态特征,从多个所述原始文本中确定属于目标问题的答案的文本,作为备选文本;针对所述备选文本中的各目标文本,在各所述原始文本中确定位置与所述目标文本的位置存在关联关系的文本,作为所述目标文本对应的上下文文本,所述目标文本为任意的所述备选文本;针对各所述目标文本,根据所述目标文本对应的各上下文文本的多模态特征、所述目标文本的语义特征,预测得到所述目标文本为准确识别得到的文本的概率,作为所述目标文本的目标概率;针对各所述目标文本,根据所述目标文本对应的各上下文文本的多模态特征,预测得到所述目标图像中所述目标文本的位置处的文本,作为所述目标文本对应的预测文本;在所述备选文本中,确定所述目标概率满足预设低概率条件的目标文本,并将确定出的目标文本替换为对应的预测文本,得到替换后的备选文本,作为所述目标问题的答案;所述针对各所述目标文本,根据所述目标文本对应的各上下文文本的多模态特征、所述目标文本的语义特征,预测得到所述目标文本为准确识别得到的文本的概率,作为所述目标文本的目标概率,包括:根据非备选文本对应的上下文文本的多模态特征,确定初始的当前上下文特征,并根据所述非备选文本的语义特征、所述非备选文本对应的上下文文本的多模态特征以及所述非备选文本的隐状态,确定初始的当前隐状态;根据当前目标文本的语义特征、当前上下文特征、当前隐状态,确定新的当前隐状态,其中,所述当前目标文本初始时为位置位于所述备选文本第一位的目标文本;根据所述当前目标文本对应的各上下文文本的多模态特征,确定所述当前目标文本的上下文特征,作为新的当前上下文特征;根据所述新的当前上下文特征、所述新的当前隐状态、所述当前目标文本的语义特征,预测得到所述当前目标文本为准确识别得到的文本的概率,作为所述当前目标文本的目标概率;以位置位于所述当前目标文本后一位的目标文本作为新的当前目标文本,返回执行所述根据当前目标文本的语义特征、当前上下文特征、当前隐状态,确定新的当前隐状态的步骤。
全文数据:
权利要求:
百度查询: 杭州海康威视数字技术股份有限公司 一种答案确定方法、装置、电子设备及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。