【发明授权】文本阅读模型的预训练方法、装置、设备及存储介质_平安国际智慧城市科技股份有限公司_202210238396.8

申请/专利权人：平安国际智慧城市科技股份有限公司

申请日：2022-03-10

公开（公告）日：2024-04-30

公开（公告）号：CN114625851B

主分类号：G06N3/096

分类号：G06N3/096;G06N5/04;G06N3/0464;G06N3/0455;G06N3/0499;G06F16/332;G06F40/284;G06F40/289;G06F18/27

优先权：

专利状态码：有效-授权

法律状态：2024.04.30#授权;2022.07.01#实质审查的生效;2022.06.14#公开

摘要：本发明涉及人工智能技术，揭露一种文本阅读模型的预训练方法，包括：从语料文本中选取问题语句及与问题语句对应的答案语句集；通过对语句的分词及词性标注处理，获取答案语句集中的答案语句与问题语句的共同词性，并将共同词性连接在语料文本的结尾，得到新语料文本；将答案语句、问题语句、新语料文本分别按照预设正序表以及预设反序表进行排序处理，以分别确定正序训练数据和反序训练数据；分别将正序训练数据和反序训练数据作为输入数据对文本阅读模型进行深度学习预训练处理。本发明还涉及区块链技术，语料文本存储于区块链中。本发明能够解决现有技术中在模型使用过程中需要对模型参数进行压缩，从而导致模型的阅读能力降低等问题。

主权项：1.一种文本阅读模型的预训练方法，应用于电子装置，其特征在于，所述方法包括：基于预设的语句提取规则，从语料文本中选取问题语句及与所述问题语句对应的答案语句集；其中，所述答案语句集中至少包括一个正确的答案语句；通过对语句的分词及词性标注处理，获取所述答案语句集中的答案语句与所述问题语句的共同词性，并将所述共同词性连接在所述语料文本的结尾，得到新语料文本；其中，得到新语料文本的步骤包括：将所述答案语句集中的每个答案语句分别与所述问题语句组成问答语句；分别对所述问答语句中的问题语句和答案语句进行分词处理，分别得到问题分词集和答案分词集；分别对所述问题分词集中的分词和所述答案分词集中的分词进行词性标注处理，分别得到所述问题分词集对应的问题词性集和所述答案分词集对应的答案词性集；从所述问题词性集和所述答案词性集中获取相同的词性，作为所述答案语句与所述问题语句中的共同词性，并将所述共同词性连接在所述语料文本的结尾，得到新语料文本；将所述答案语句、所述问题语句和所述新语料文本分别按照预设正序表以及预设反序表进行排序处理，以分别确定正序训练数据和反序训练数据；分别将所述正序训练数据和所述反序训练数据作为输入数据对文本阅读模型进行深度学习预训练处理，当对所述文本阅读模型的预训练达到预设要求时，完成对所述文本阅读模型的预训练；其中，所述文本阅读模型的预训练的步骤包括：分别对所述正序训练数据和所述反序训练数据进行编码处理，分别得到正序编码数据和反序编码数据；分别将所述正序编码数据和所述反序编码数据作为输入数据，对所述文本阅读模型进行深度学习预训练处理，分别得到正序输出和反序输出；其中，所述正序输出和所述反序输出均包括答案语句和所述答案语句的输出概率；分别从所述正序输出中获取正确的答案语句的输出概率作为正序准确率和从所述反序输出中获取正确的答案语句的输出概率作为反序准确率；计算所述正序准确率和所述反序准确率的平均值，作为所述文本阅读模型的输出准确率；当所述文本阅读模型的输出准确率大于等于预设准确率阈值时，完成对所述文本阅读模型的预训练。

全文数据：

权利要求：

百度查询：平安国际智慧城市科技股份有限公司文本阅读模型的预训练方法、装置、设备及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种RISC-V架构芯片快速测试加速单元的方法及装置_山东浪潮科学研究院有限公司_202410162392.5

下一篇：一种设备锁定方法、装置及电子设备_联想(北京)有限公司_202410116925.6

相关技术

一种RISC-V架构芯片快速测试加速单元的方法及装置_山东浪潮科学研究院有限公司_202410162392.5

一种设备锁定方法、装置及电子设备_联想(北京)有限公司_202410116925.6

一种脑膜炎球菌发酵培养基及其制备方法和应用_成大生物(本溪)有限公司_202410343870.2

无机人造石脱模剂及其制备方法和无机人造石的制备方法_深圳市润丰新材料科技有限公司_202410151462.7

热解油提质为BTEX的两级催化方法_沙特阿拉伯石油公司_202280065181.9

数据标注方法、电子设备和计算机可读存储介质_浙江大华技术股份有限公司_202311671122.9

一种异性粘结磁粉制备用原料筛选设备_天长市中德电子有限公司_202410411084.1

一种新型射灯天线_摩比天线技术(深圳)有限公司_202410125372.0

国际运价发布系统、方法及相关装置_中国民航信息网络股份有限公司_202410316119.3

一种吊具点测方法、装置、系统和存储介质_一汽丰田汽车有限公司_202410173152.5

一种靶向性介孔聚多巴胺纳米颗粒及其制备方法和应用_中国药科大学_202410163612.6

一种热升华水性油墨及其制备方法_广东睿智环保科技股份有限公司_202410410854.0

龙图腾网&IPTOP

【发明授权】文本阅读模型的预训练方法、装置、设备及存储介质_平安国际智慧城市科技股份有限公司_202210238396.8

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务