首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种行政处罚决定书的信息抽取方法_山东大学_202111201811.4 

申请/专利权人:山东大学

申请日:2021-10-15

公开(公告)日:2024-05-28

公开(公告)号:CN113918706B

主分类号:G06F16/335

分类号:G06F16/335;G06F16/35;G06F16/951;G06F40/205;G06N3/045;G06N3/08;G06N3/084;G06N5/04

优先权:

专利状态码:有效-授权

法律状态:2024.05.28#授权;2022.01.28#实质审查的生效;2022.01.11#公开

摘要:本发明涉及一种行政处罚决定书的信息抽取方法,包括:步骤一:从行政处罚文书网爬取获取各省的行政处罚决定书;步骤二:提取html标签内步骤一中获取的行政处罚决定书的文本内容,构建原始数据集;步骤三:根据行政处罚决定书书写的规范性规则,利用正则表达式对待处理的行政处罚决定书进行数据预处理,构建数据集;步骤四:将步骤三构建的数据集输入利用步骤二构建的原始数据集训练好的信息抽取模块,输出行政处罚文书信息抽取结果。本发明提出一种对行政处罚决定书的信息抽取的方法,可以精确的获得决定书的结构化信息,便于对行政处罚决定书的理解以及类案检索、类案推荐、判决预测等下游任务的实施。

主权项:1.一种行政处罚决定书的信息抽取方法,其特征在于,包括:步骤一:爬取获取行政处罚决定书;步骤二:提取步骤一中获取的行政处罚决定书的文本内容,构建原始数据集;步骤三:根据行政处罚决定书书写的规范性规则,利用正则表达式对待处理的行政处罚决定书进行数据预处理,构建数据集;步骤四:将步骤三构建的数据集输入利用步骤二构建的原始数据集训练好的信息抽取模块,输出行政处罚文书信息抽取结果;信息抽取模块包括依次包括预训练语言模块、上下文信息获取模块、权重分配模块及特征分类模块;所述预训练语言模块包括滑动窗口注意力机制和全局注意力机制;滑动窗口自注意力机制将在文本信息序列上使用固定大小为ω×ω的窗口自注意力机制,通过窗口滑动获取不同位置文本信息序列,将滑动得到的多个窗口自注意力机制组合产生一个大的感受野,构建局部上下文信息序列;全局注意力机制获取完整文本信息序列,构建包括整个输入文本信息序列的表示;所述上下文信息获取模块包括前向神经网络、后向神经网络和隐藏层;输入文本信息序列通过前向神经网络输入至隐藏层,计算未来文本信息序列;输入文本信息序列通过后向神经网络进行时间反向传播,先计算出输出文本信息序列,再返送至隐藏层,获得历史文本信息序列;所述权重分配模块利用GFCI算法计算上下文因果关系,GFCI算法结合了基于约束和评分的算法,以未来文本信息序列和历史文本信息序列为输入,用贪婪算法搜索文本信息序列之间的因果关系,通过快速因果推理算法对因果关系进行计算,并用ATE衡量因果强度,计算出文本信息序列的因果强度,为因果关系分配权重;所述特征分类模块对文本信息序列和输出序列进行条件概率计算,对文本信息序列提取的结果进行检验校正,输入Viterbi译码器进行文本信息序列解码,输出文本信息,获得信息抽取的结果;步骤四中,包括步骤如下:将步骤三构建的数据集输入至所述预训练语言模块,根据行政处罚决定书文本特点,通过滑动窗口自注意力机制获取短文本信息序列,包括决定书文号、当事人、主体资格证照名称、统一社会信用代码、住所、法定责任人、身份证件号码;通过滑动窗口自注意力机制和全局注意力机制组合获取案件来源及调查经过、案件事实、证据证明、违法行为性质定性、处罚依据、自由裁量的事实和理由、行政处罚的履行方式和期限、救济途径和期限的长文本信息序列,数据集内文本内容经预训练语言模块后构建词级文本向量矩阵X={x1,x2,…,xN}作为输出,xi表示行政处罚决定书提取的特征向量,i∈N;将词级文本向量矩阵X={x1,x2,…,xN}输入上下文信息获取模块,通过前向神经网络将输入文本向量输入到向前的隐藏层,隐藏层获取文本向量的未来文本信息向量Y={y1,y2,…,yN},yi表示未来文本信息的特征向量;后向神经网络将输入文本向量通过时间反向传播,先计算输出向量后返送至隐藏层获取文本向量的历史文本信息向量Z={z1,z2,...,zN},zi表示未来文本信息的特征向量;权重分配模块根据文本因果信息为未来文本信息向量Y={y1,y2,…,yN}和历史文本信息向量Z={z1,z2,...,zN}计算分配不同权重;经权重归一化后,进行加权计算,获得输出向量W={ω1,ω2,…,ωN};特征分类模块根据条件概率计算输入向量W={ω1,ω2,…,ωN}和经特征分类模块输出的输出向量β={β1,β2,...,βN},输入Viterbi译码器进行文本信息序列解码,输出文本信息,获得信息抽取的结果。

全文数据:

权利要求:

百度查询: 山东大学 一种行政处罚决定书的信息抽取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。