买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:山东大学
摘要:本发明涉及一种智能行政执法案例信息抽取和案由认定方法,包括:A、数据集的构建;B、语料转换:C、抽取数据预处理及向量化:D、基于DGCNN的抽取模型的训练:E、基于UniLM的短文本生成,训练生成模型;F、输入执法文书文本进行预测:将需要转化的行政执法文书通过步骤A至步骤C处理后,将得到的处理结果输入训练后的抽取模型,生成抽取结果并保存,抽取结果进一步输入训练后的生成模型,得到适合下游其他任务分析的短文本。本发明通过采用DGCNN作为抽取模型,利用其非序列化的神经网络结构特点进行文本数据的信息抽取,大大减少了所耗费的时间资源和计算资源,提升了抽取的准确性。
主权项:1.一种智能行政执法案例信息抽取和案由认定方法,其特征在于,包括步骤如下:A、数据集的构建:爬取行政处罚决定书,提取其中的文本内容,对文本内容中的短文本进行标注;B、语料转换:将行政执法文书中所有长句按照标点符号分割为短句;将步骤A数据集中标注的短文本根据标点符号进行分句;在短文本中找到最长的短句,把这个最长的短句作为标准,从行政处罚文书中找出与这个最长的短句相似的句子,提取并保存,递归执行直到短文本中所有的语句都被执行过一次;C、抽取数据预处理及向量化:步骤B在行政执法文书中抽出了与标签即短文本相似的语句;对抽取出的文本进行过滤,将文本转换成以空格分割的句子序列;将句子序列编码索引;对得到的文本数据进行全局平均池化之后再引入全词Mask的BERT预训练中文模型,补充平均池化,把分割的句子序列转换为句子向量;D、基于DGCNN的抽取模型的训练:将步骤B中在行政执法文书中抽出的与标签即短文本的句子向量当作标签,将行政执法文书整个文本生成的句子向量作为输入,训练抽取模型;E、基于UniLM的短文本生成:将通过训练后的抽取模型抽取出来的行政执法文书的关键语句作为输入,人工标注的短文本作为标签,训练生成模型;F、输入执法文书文本进行预测:将需要转化的行政执法文书通过步骤A至步骤C处理后,将得到的处理结果输入训练后的抽取模型,生成抽取结果并保存,抽取结果进一步输入训练后的生成模型,得到适合下游其他任务分析的短文本,最终得到抽取结果和适合下游其他任务分析的短文本;步骤D的具体实现过程如下:将步骤C得到的行政执法文书文本对应的句子向量当作抽取模型的输入,通过一层的DGCNN提取特征,将提取的特征输入Attention层来完成对序列信息的整合,包括将行政执法文书的句子向量序列编码为一个总的行政执法文书文本向量,将标注短文本的句子向量编码为一个总的标注短文本向量,Attention层如式2所示: 式2中,α,W都为可训练参数,而Act为激活函数,取tanch;xi是编码前的序列,x是编码完成后的向量,λi是计算时的权重,softmaxi是激活函数函数,又称归一化指数函数;之后,把步骤C得到的总的行政执法文书文本对应的句子向量X作为输入,将抽取出的最相似句子向量Y作为对应的标签,输入5层DGCNN,之后连接一层全连接层;采用Sigmoid激活函数激活之后,与指定的阈值进行比较,大于阈值的句子向量保存为列表,小于阈值的向量丢弃,之后将句子向量解码为原文本最终得到信息抽取结果;DGCNN是膨胀门卷积神经网络,其搭建方式如下:首先,给普通的一维卷积加个门,公式表示如式3所示: 式3中,其中,X表示输入序列,Y表示输出序列,Conv1D1和Conv1D2是两个一维卷积;接下来,使用膨胀卷积;具体是指:先将输入X通过一层全连接层提取特征后输入扩张率为1的膨胀门卷积层,再将输出输入到扩张率为2的膨胀门卷积层;之后再连接一层扩张率为4的膨胀门卷积层和一层扩张率为8的膨胀门卷积层;最后连接两层扩张率为1的膨胀门卷积层后,通过sigmoid激活的全连接层后输出结果Y。
全文数据:
权利要求:
百度查询: 山东大学 一种智能行政执法案例信息抽取和案由认定方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。