买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:思必驰科技股份有限公司
摘要:本发明公开一种开放关系抽取方法、电子设备和存储介质,其中方法包括:将与源语言文本对应的英文翻译文本输入预设工具进行开放关系抽取,获取输出的与所述英文翻译文本对应的至少一个英文关系元组集合;使用预设短语对齐模型对所述英文关系元组集合和所述源语言文本进行中英文短语对齐得到源语言关系元组集合。本发明实施例通过使用预设短语对齐模型对英文关系元组集合和源语言文本进行中英文短语对齐可以得到源语言关系元组集合,该方法适用于所有语言种类,且不需要构建大规模翻译数据集,也不需要构建大规模开放关系抽取数据集,只需做一些简单的短语对齐,便能够实现整体功能。
主权项:1.一种开放关系抽取方法,包括:将与源语言文本对应的英文翻译文本输入预设工具进行开放关系抽取,获取输出的与所述英文翻译文本对应的至少一个英文关系元组集合,其中,所述预设工具包括OpenIE5.1工具,每次以单句进行输入和关系抽取;使用预设短语对齐模型对所述英文关系元组集合和所述源语言文本进行中英文短语对齐得到源语言关系元组集合,其中,所述预设短语对齐模型的输入为所述源语言文本和所述英文关系元组集合中的每一英文短语文本,所述预设短语对齐模型的输出为与所述每一英文短语文本对应的每一源语言短语文本,所述源语言关系元组由所述每一源语言短语文本组成,所述预设短语对齐模型的预期输入为一句中文文本以及一段英文短语文本,已知所述英文短语文本一定与中文文本中某一短语所对应,所述预设短语对齐模型的输出为所述英文短语文本所对应的中文短语文本;所述预设短语对齐模型包括使用以下步骤进行短语对齐:将输入的所述源语言文本和需要对齐的英文短语文本分别进行标记化处理得到源语言标记化结果和英文短语标记化结果;将所述源语言标记化结果和所述英文短语标记化结果的拼接结果输入至预训练的语言表征模型进行编码;获取所述预训练语言表征模型的输出特征矩阵,所述输出特征矩阵分别对应所述英文短语标记化结果在所述源语言标记化结果中的起始位置和结束位置;基于所述起始位置和所述结束位置输出与所述英文短语文本对应的源语言短语文本。
全文数据:
权利要求:
百度查询: 思必驰科技股份有限公司 开放关系抽取方法、电子设备和存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。