买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:支付宝(杭州)信息技术有限公司
摘要:本说明书公开了一种语言模型的预训练方法、装置、介质及电子设备,可获取第一样本文本,第一样本文本为结构化文本,并提取第一样本文本中的各字段。针对提取出的每个字段,根据该字段的属性以及属性值,确定该字段对应的标识符,并根据确定出的各字段对应的标识符,得到第一样本文本对应的标识符序列。将标识符序列输入语言模型,得到标识符序列对应的文本特征,以根据文本特征以及预设的训练任务,对语言模型中的编码端进行预训练。通过使用标识符去对结构化文本中的字段进行替换,进而使用结构化文本对应的标识符序列去训练语言模型,使得训练得到的语言模型可以学习到结构化文本中的特征的关联关系以及潜在关系,提高了语言模型的准确度。
主权项:1.一种语言模型的预训练方法,语言模型包括:编码端;所述方法包括:获取第一样本文本;所述第一样本文本为结构化文本;提取所述第一样本文本中的各字段;针对提取出的每个字段,根据该字段的属性以及属性值,确定该字段对应的标识符;根据确定出的各字段对应的标识符,得到所述第一样本文本对应的标识符序列;将所述标识符序列输入所述语言模型,得到所述标识符序列对应的文本特征;根据所述文本特征以及预设的训练任务,对所述语言模型中的编码端进行预训练。
全文数据:
权利要求:
百度查询: 支付宝(杭州)信息技术有限公司 一种语言模型的预训练方法、装置、介质及电子设备
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。