【发明授权】语料样本集合的构建方法、计算设备及计算机存储介质_掌阅科技股份有限公司_201910528366.9

申请/专利权人：掌阅科技股份有限公司

申请日：2019-06-18

公开（公告）日：2024-05-31

公开（公告）号：CN112101026B

主分类号：G06F40/295

分类号：G06F40/295;G06F40/216

优先权：

专利状态码：有效-授权

法律状态：2024.05.31#授权;2021.01.05#实质审查的生效;2020.12.18#公开

摘要：本发明公开了一种语料样本集合的构建方法、计算设备及计算机存储介质。其中方法包括：步骤S1，对语料库的语料进行识别，得到初始的语料样本集合以及利用初始的语料样本集合训练得到的语料识别模型；步骤S2，利用语料识别模型对书籍语料进行识别，得到书籍语料样本；步骤S3，将书籍语料样本添加入语料样本集合；步骤S4，利用更新后的语料样本集合对语料识别模型进行训练；重复执行上述步骤S2至步骤S4，直至更新后的语料样本集合满足第一预设条件。本方案最初的数据来源的语料库，实现了零样本的语料构建与学习，构建出的语料样本集合适用于电子书领域，并且语料样本兼具多样性和准确性的特点。

主权项：1.一种语料样本集合的构建方法，包括：步骤S1，对语料库的语料进行识别，得到初始的语料样本集合以及利用初始的语料样本集合训练得到的语料识别模型；步骤S2，利用语料识别模型对书籍语料进行识别，得到书籍语料样本；步骤S3，将书籍语料样本添加入语料样本集合，得到更新后的语料样本集合；步骤S4，利用更新后的语料样本集合对语料识别模型进行训练，以更新所述语料识别模型；重复执行上述步骤S2至步骤S4，直至更新后的语料样本集合满足第一预设条件；其中，所述语料为语句，对语料进行识别具体为：对语句中的命名实体进行识别，得到命名实体名称、命名实体类型和命名实体位置；所述对语料库的语料进行识别，得到初始的语料样本集合具体为：利用命名实体识别工具对语料库的语料进行识别，得到初始的语料样本集合；所述步骤S1还包括：步骤S11，从语料库中提取语料；步骤S12，利用语料识别模型对语料进行识别；步骤S13，将语料识别模型对语料的识别结果与命名实体识别工具对语料的识别结果进行校验，若校验一致，则在初始的语料样本集合中保留该语料对应的语料样本；若校验不一致，则在初始的语料样本集合中去除该语料对应的语料样本；重复执行上述步骤S11至步骤S13，直至初始的语料样本集合满足第二预设条件；在所述步骤S2和步骤S3之间，所述方法还包括：利用命名实体识别工具对书籍语料进行识别；将语料识别模型对书籍语料的识别结果与命名实体识别工具对书籍语料的识别结果进行校验，若校验一致，则执行步骤S3；若校验不一致，丢弃该书籍语料对应的书籍语料样本。

全文数据：

权利要求：

百度查询：掌阅科技股份有限公司语料样本集合的构建方法、计算设备及计算机存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种适用于复杂环境的氮氧化物监测仪表_山东创宇能源科技股份有限公司_202410668041.1

下一篇：一种核壳超晶格场效应晶体管器件及其制备方法_中国科学院上海微系统与信息技术研究所_202410207647.5

相关技术

一种适用于复杂环境的氮氧化物监测仪表_山东创宇能源科技股份有限公司_202410668041.1

一种核壳超晶格场效应晶体管器件及其制备方法_中国科学院上海微系统与信息技术研究所_202410207647.5

酸化改造用酸液及其制备方法_中国石油化工股份有限公司石油勘探开发研究院_202410669072.9

衣物处理设备_无锡美芝电器有限公司_202311119350.5

一种切片染色装置及使用方法_遵义医科大学附属医院_202410609032.5

使用过渡金属氧化物将塑料废物转化为烃_博里利斯股份公司_202280075285.8

有利于减少溶血的经皮循环支持系统_波士顿科学国际有限公司_202280076167.9

一种营销用广告展示设备及方法_深圳市叁柒无限网络科技有限公司_202410581326.1

显示基板、显示装置及母板_京东方科技集团股份有限公司_202280003751.1

一种差压式管路气密检测设备用固定装置_青岛宏展科技发展有限公司_202410108762.7

一种风电场箱式变压器拆卸辅助装置_华能荣成风力发电有限公司_202410188166.4

一种基于时空避障的多任务AGV调度方法、设备及存储介质_成都飞机工业(集团)有限责任公司_202410686975.8

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明授权】语料样本集合的构建方法、计算设备及计算机存储介质_掌阅科技股份有限公司_201910528366.9

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务