买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】文本阅读模型的预训练方法、装置、设备及存储介质_平安国际智慧城市科技股份有限公司_202210238396.8 

申请/专利权人:平安国际智慧城市科技股份有限公司

申请日:2022-03-10

公开(公告)日:2024-04-30

公开(公告)号:CN114625851B

主分类号:G06N3/096

分类号:G06N3/096;G06N5/04;G06N3/0464;G06N3/0455;G06N3/0499;G06F16/332;G06F40/284;G06F40/289;G06F18/27

优先权:

专利状态码:有效-授权

法律状态:2024.04.30#授权;2022.07.01#实质审查的生效;2022.06.14#公开

摘要:本发明涉及人工智能技术,揭露一种文本阅读模型的预训练方法,包括:从语料文本中选取问题语句及与问题语句对应的答案语句集;通过对语句的分词及词性标注处理,获取答案语句集中的答案语句与问题语句的共同词性,并将共同词性连接在语料文本的结尾,得到新语料文本;将答案语句、问题语句、新语料文本分别按照预设正序表以及预设反序表进行排序处理,以分别确定正序训练数据和反序训练数据;分别将正序训练数据和反序训练数据作为输入数据对文本阅读模型进行深度学习预训练处理。本发明还涉及区块链技术,语料文本存储于区块链中。本发明能够解决现有技术中在模型使用过程中需要对模型参数进行压缩,从而导致模型的阅读能力降低等问题。

主权项:1.一种文本阅读模型的预训练方法,应用于电子装置,其特征在于,所述方法包括:基于预设的语句提取规则,从语料文本中选取问题语句及与所述问题语句对应的答案语句集;其中,所述答案语句集中至少包括一个正确的答案语句;通过对语句的分词及词性标注处理,获取所述答案语句集中的答案语句与所述问题语句的共同词性,并将所述共同词性连接在所述语料文本的结尾,得到新语料文本;其中,得到新语料文本的步骤包括:将所述答案语句集中的每个答案语句分别与所述问题语句组成问答语句;分别对所述问答语句中的问题语句和答案语句进行分词处理,分别得到问题分词集和答案分词集;分别对所述问题分词集中的分词和所述答案分词集中的分词进行词性标注处理,分别得到所述问题分词集对应的问题词性集和所述答案分词集对应的答案词性集;从所述问题词性集和所述答案词性集中获取相同的词性,作为所述答案语句与所述问题语句中的共同词性,并将所述共同词性连接在所述语料文本的结尾,得到新语料文本;将所述答案语句、所述问题语句和所述新语料文本分别按照预设正序表以及预设反序表进行排序处理,以分别确定正序训练数据和反序训练数据;分别将所述正序训练数据和所述反序训练数据作为输入数据对文本阅读模型进行深度学习预训练处理,当对所述文本阅读模型的预训练达到预设要求时,完成对所述文本阅读模型的预训练;其中,所述文本阅读模型的预训练的步骤包括:分别对所述正序训练数据和所述反序训练数据进行编码处理,分别得到正序编码数据和反序编码数据;分别将所述正序编码数据和所述反序编码数据作为输入数据,对所述文本阅读模型进行深度学习预训练处理,分别得到正序输出和反序输出;其中,所述正序输出和所述反序输出均包括答案语句和所述答案语句的输出概率;分别从所述正序输出中获取正确的答案语句的输出概率作为正序准确率和从所述反序输出中获取正确的答案语句的输出概率作为反序准确率;计算所述正序准确率和所述反序准确率的平均值,作为所述文本阅读模型的输出准确率;当所述文本阅读模型的输出准确率大于等于预设准确率阈值时,完成对所述文本阅读模型的预训练。

全文数据:

权利要求:

百度查询: 平安国际智慧城市科技股份有限公司 文本阅读模型的预训练方法、装置、设备及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。