【发明公布】一种针对金融领域行政处罚文本自动标注模型的生成方法_盛宝金融科技有限公司_202311620261.9

申请/专利权人：盛宝金融科技有限公司

申请日：2023-11-29

公开（公告）日：2024-02-23

公开（公告）号：CN117592440A

主分类号：G06F40/169

分类号：G06F40/169;G06N3/0455;G06N3/08

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.03.12#实质审查的生效;2024.02.23#公开

摘要：本发明涉及自然语言处理领域，公开了一种针对金融领域行政处罚文本自动标注模型的生成方法，S1：挑选包括格式违法信息的段落，将其作为显式训练例进行训练，训练的模型作为显式文本标注模型；S2：使用行业语料，通过语义对比训练，得到语义编码器；S3：将行政处罚文本输入到显式文本标注模型中，将匹配度高于90％的格式违法信息段落作为匹配对比例，其余段落为匹配训练例；S4：将匹配训练例输入到语义编码器进行语义匹配，与匹配训练例匹配度最高的匹配对比例段落作为非显式文本的违法行为段落；S5：将非显式文本的违法行为段落作为非显示训练例，得到识别非显式文本的标注模型；使用本方案，可以解决人工获取生成式任务的标注数据困难的技术问题。

主权项：1.一种针对金融领域行政处罚文本自动标注模型的生成方法，其特征在于：包括以下步骤:S1：将包括“格式违法信息”的行政处罚文本定义为违法显式文本，未包括“格式违法信息”的行政处罚文本定义为非显式文本，从若干个行政处罚文本中任意挑选出50个违法显式文本，再筛选出违法显式文本中包括格式违法信息的段落，选择大于50个包括格式违法信息的段落作为显式训练例，将显式训练例输入到BERT神经网络中进行训练，训练后的序列标注模型作为识别违法显式文本标注模型，所述识别违法显式文本标注模型用于提取显示文本中的违法行为；S2：将所有金融领域的行业内语料作为语义训练例，将语义训练例输入到语义匹配神经网络模型中，通过语义对比训练，将训练后的语义匹配神经网络模型作为语义编码器；S3：将所有行政处罚文本输入到违法显式文本标注模型中，将匹配度高于90％的行政处罚文本中的“格式违法信息”所在段落作为匹配对比例，将匹配度低于90％的行政处罚文本所有段落作为匹配训练例；S4：将匹配训练例输入到语义编码器中进行语义匹配，与匹配训练例匹配度最高的匹配对比例段落作为非显式文本的违法行为段落；S5：将非显式文本的违法行为段落作为非显示训练例，输入到自动标注模型中，当输出结果与源数据匹配度达到99％，停止训练，得到识别非显式文本的标注模型。

全文数据：

权利要求：

百度查询：盛宝金融科技有限公司一种针对金融领域行政处罚文本自动标注模型的生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

相关技术

相关技术

相关技术

相关技术

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明公布】一种针对金融领域行政处罚文本自动标注模型的生成方法_盛宝金融科技有限公司_202311620261.9

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务