首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

用于为预训练的语言模型处置长文本的系统和技术 

申请/专利权人:甲骨文国际公司

申请日:2022-11-16

公开(公告)日:2024-06-28

公开(公告)号:CN118265981A

主分类号:G06F40/131

分类号:G06F40/131;G06F40/295

优先权:["20211122 US 63/282,146","20220520 US 17/750,240"]

专利状态码:在审-公开

法律状态:2024.06.28#公开

摘要:在一些方面,一种计算设备可以在数据处理系统处接收一组话语,用于训练命名实体识别器或利用命名实体识别器进行推断,以向一组话语中的每个词元片段指配标签。计算设备可以确定该组中的每个话语的长度,并且当话语的长度超过词元片段的预定阈值时:将话语划分成多个重叠的词元片段词块;为词块中的每个词元片段指配标签以及置信度得分;通过合并两个置信度得分来为每个词元片段词块确定最终标签和相关联的置信度得分;至少基于合并两个置信度得分来确定话语的最终带注释标签;以及将最终带注释标签存储在存储器中。

主权项:1.一种方法,包括:在数据处理系统处接收一组话语,用于训练命名实体识别器或与所述命名实体识别器交互,以向所述一组话语中的每个词元片段指配标签;确定所述一组话语的长度;当所述一组话语的所述长度超过词元片段的预定阈值时:将所述一组话语划分成多个重叠的词元片段词块;为词块中的每个词元片段指配标签以及置信度得分;通过合并两个置信度得分来为所述多个重叠的词元片段词块中的每个词块确定最终标签和相关联的置信度得分,所述两个置信度得分中的一个置信度得分来自第一词块,并且另一个置信度得分来自第二词块;至少基于所述合并所述两个置信度得分来确定所述一组话语的最终带注释标签;以及将所述最终带注释标签存储在存储器中。

全文数据:

权利要求:

百度查询: 甲骨文国际公司 用于为预训练的语言模型处置长文本的系统和技术

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。