首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种面向法院电子卷宗的案情信息自动抽取方法 

申请/专利权人:太极计算机股份有限公司

申请日:2020-11-30

公开(公告)日:2023-06-23

公开(公告)号:CN112417880B

主分类号:G06F40/295

分类号:G06F40/295;G06F40/216;G06F40/242;G06F40/30;G06F16/335;G06Q50/18

优先权:

专利状态码:有效-授权

法律状态:2023.06.23#授权;2021.03.16#实质审查的生效;2021.02.26#公开

摘要:本发明公开了一种面向法院电子卷宗的案情信息自动抽取方法,该方法包括:创建案情信息抽取框架,对各类案件电子卷宗文件中案情要素进行统计分析,构建基本案情本体;根据案情本体和电子卷宗文件版面特点,定制基本案情信息抽取策略;基于XML的跨领域信息抽取工具TZIE,构建案情信息抽取框架;基于多粒度语义的法律文书构建NER模型及训练,多粒度语义单元的结合方式,采用Word2vec的Skip‑gram模型和LDA主题模型,分别训练得到司法领域词向量模型和字向量模型,结合BiLSTM‑Attention‑CRF模型的领域实体识别,在基准模型BiLSTM‑CRF中增加了Attentio机制,预测每个语义单元属于不同标签的概率,辅助优化的模型训练方式,以人工标注语料训练模型作为主任务,以人工和自动标注语料训练模型作为辅助任务。

主权项:1.一种面向法院电子卷宗的案情信息自动抽取方法,其特征在于,该方法包括以下步骤:S1创建案情信息抽取框架,进一步包含:S1.1对各类案件电子卷宗文件中案情要素进行统计分析,构建基本案情本体;S1.2根据案情本体和电子卷宗文件版面特点,定制基本案情信息抽取策略;S1.3基于XML的跨领域信息抽取工具TZIE,自定义抽取领域要素信息,构建案情信息抽取框架,提供领域词典、规则及现有模型组合配置;S2基于多粒度语义的法律文书构建NER模型及训练,进一步包含:S2.1多粒度语义单元的结合方式,采集一个包含400多万份裁判文书的中文语料集,采用Word2vec的Skip-gram模型和LDA主题模型,分别训练得到司法领域含有主题语义的词向量模型和字向量模型,另外,不同案件类型的裁判文书中,使用LDA主题模型的向量模型,获取更大粒度上的语义信息;S2.2结合BiLSTM-Attention-CRF模型的领域实体识别,在基准模型BiLSTM-CRF中增加了Attentio机制,预测出每个语义单元属于不同标签的概率,在BiLSTM模型上接入CRF模型,使得BiLSTM模型在计算最优标签序列时合理体现CRF模型转移矩阵;S2.3基于辅助优化的模型训练方式,以人工标注语料训练模型作为主任务,以人工和自动标注语料训练模型作为辅助任务,后者向前者共享BiLSTM模型层的输出。

全文数据:

权利要求:

百度查询: 太极计算机股份有限公司 一种面向法院电子卷宗的案情信息自动抽取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。