首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

文本处理方法、装置、产品、设备和介质 

申请/专利权人:腾讯科技(深圳)有限公司

申请日:2024-04-28

公开(公告)日:2024-06-25

公开(公告)号:CN118095210B

主分类号:G06F40/126

分类号:G06F40/126;G06F40/216;G06F40/35;G06F16/332;G06F16/34

优先权:

专利状态码:有效-授权

法律状态:2024.06.25#授权;2024.06.14#实质审查的生效;2024.05.28#公开

摘要:本申请公开了一种文本处理方法、装置、产品、设备和介质,该方法包括:获取第一文本,并调用文本编码器对第一文本进行特征编码处理,生成第一文本的目标编码特征;调用N个文本解码器从N个特征解码维度分别对目标编码特征进行解码处理,得到每个文本解码器各自的特征解码信息;基于每个文本解码器各自的特征解码信息,获取每个文本解码器分别针对目标编码特征的特征解码偏差;基于获取到的N个特征解码偏差修正文本编码器的模型参数,得到训练好的文本编码器;训练好的文本编码器用于生成输入文本的稠密编码特征。采用本申请,可提升对文本编码器的训练效果,从而提升对文本所生成的编码特征的准确性。

主权项:1.一种文本处理方法,其特征在于,所述方法包括:获取第一文本,并调用文本编码器对所述第一文本进行特征编码处理,生成所述第一文本的目标编码特征;所述第一文本是对原始文本进行掩码处理后得到的;调用N个文本解码器从N个特征解码维度分别对所述目标编码特征进行解码处理,得到每个文本解码器各自的特征解码信息;N为正整数,一个文本解码器用于从对应的一个特征解码维度对所述目标编码特征进行解码处理;所述N个文本解码器包括文本重建解码器,所述文本重建解码器的特征解码信息为第二掩码文本针对第二对照文本的重建概率,所述第二掩码文本包含于第二文本中,所述第二文本是对所述原始文本进行掩码处理后得到的,所述第二掩码文本是所述第二文本中对所述原始文本的局部文本进行掩码替换后得到的,所述第二对照文本是所述原始文本中所述第二掩码文本对应的局部文本;所述第二掩码文本针对第二对照文本的重建概率是调用所述文本重建解码器基于所述目标编码特征和所述第二文本,对所述第二掩码文本进行重建处理后所生成的;基于所述每个文本解码器各自的特征解码信息,获取所述每个文本解码器分别针对所述目标编码特征的特征解码偏差;所述第二掩码文本和所述第二对照文本均包含一个或多个字符,所述第二掩码文本中的每个字符与所述第二对照文本中的每个字符一一对应,所述第二掩码文本中的一个字符针对所述第二对照文本中的对应字符具有一个重建概率;所述文本重建解码器针对所述目标编码特征的特征解码偏差,是对所述第二掩码文本中每个字符分别对应的特征解码子偏差进行加和处理所得到的;所述第二掩码文本中每个字符分别对应的特征解码子偏差,是基于所述第二掩码文本中的每个字符分别针对所述第二对照文本中对应字符的重建概率所生成的;基于获取到的N个特征解码偏差修正所述文本编码器的模型参数,得到训练好的文本编码器;所述训练好的文本编码器用于生成输入文本的稠密编码特征。

全文数据:

权利要求:

百度查询: 腾讯科技(深圳)有限公司 文本处理方法、装置、产品、设备和介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。