申请/专利权人:掌阅科技股份有限公司
申请日:2019-06-18
公开(公告)日:2024-05-31
公开(公告)号:CN112101026B
主分类号:G06F40/295
分类号:G06F40/295;G06F40/216
优先权:
专利状态码:有效-授权
法律状态:2024.05.31#授权;2021.01.05#实质审查的生效;2020.12.18#公开
摘要:本发明公开了一种语料样本集合的构建方法、计算设备及计算机存储介质。其中方法包括:步骤S1,对语料库的语料进行识别,得到初始的语料样本集合以及利用初始的语料样本集合训练得到的语料识别模型;步骤S2,利用语料识别模型对书籍语料进行识别,得到书籍语料样本;步骤S3,将书籍语料样本添加入语料样本集合;步骤S4,利用更新后的语料样本集合对语料识别模型进行训练;重复执行上述步骤S2至步骤S4,直至更新后的语料样本集合满足第一预设条件。本方案最初的数据来源的语料库,实现了零样本的语料构建与学习,构建出的语料样本集合适用于电子书领域,并且语料样本兼具多样性和准确性的特点。
主权项:1.一种语料样本集合的构建方法,包括:步骤S1,对语料库的语料进行识别,得到初始的语料样本集合以及利用初始的语料样本集合训练得到的语料识别模型;步骤S2,利用语料识别模型对书籍语料进行识别,得到书籍语料样本;步骤S3,将书籍语料样本添加入语料样本集合,得到更新后的语料样本集合;步骤S4,利用更新后的语料样本集合对语料识别模型进行训练,以更新所述语料识别模型;重复执行上述步骤S2至步骤S4,直至更新后的语料样本集合满足第一预设条件;其中,所述语料为语句,对语料进行识别具体为:对语句中的命名实体进行识别,得到命名实体名称、命名实体类型和命名实体位置;所述对语料库的语料进行识别,得到初始的语料样本集合具体为:利用命名实体识别工具对语料库的语料进行识别,得到初始的语料样本集合;所述步骤S1还包括:步骤S11,从语料库中提取语料;步骤S12,利用语料识别模型对语料进行识别;步骤S13,将语料识别模型对语料的识别结果与命名实体识别工具对语料的识别结果进行校验,若校验一致,则在初始的语料样本集合中保留该语料对应的语料样本;若校验不一致,则在初始的语料样本集合中去除该语料对应的语料样本;重复执行上述步骤S11至步骤S13,直至初始的语料样本集合满足第二预设条件;在所述步骤S2和步骤S3之间,所述方法还包括:利用命名实体识别工具对书籍语料进行识别;将语料识别模型对书籍语料的识别结果与命名实体识别工具对书籍语料的识别结果进行校验,若校验一致,则执行步骤S3;若校验不一致,丢弃该书籍语料对应的书籍语料样本。
全文数据:
权利要求:
百度查询: 掌阅科技股份有限公司 语料样本集合的构建方法、计算设备及计算机存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。