【发明授权】一种面向庭审阅卷的案件画像挖掘方法_中国电子科技集团公司第十五研究所_202110451235.2

申请/专利权人：中国电子科技集团公司第十五研究所

申请日：2021-04-26

公开（公告）日：2024-06-11

公开（公告）号：CN113220850B

主分类号：G06F16/332

分类号：G06F16/332;G06F16/33;G06F40/295

优先权：

专利状态码：有效-授权

法律状态：2024.06.11#授权;2021.08.24#实质审查的生效;2021.08.06#公开

摘要：本发明公开了一种面向庭审阅卷的案件画像挖掘方法，使用基于规则的方法和基于统计学习的自然语言处理想结合的方法来提取案件画像信息，首先会获取大量真实案件的卷宗并对卷宗文件进行预处理，然后根据宪法、刑法等法律相关知识构建出需要提取的信息也即空的案件画像树，之后基于提炼的规则和模型提取画像树所需要的信息，仅仅需要少量有标注数据就可以进行训练，最后根据提取的信息生成完整的案件画像树，可以实现计算机自动化的阅卷，将卷宗信息提取出来方便法官快速的了解案件信息和后续自动化判案。

主权项：1.一种面向庭审阅卷的案件画像挖掘方法，其特征在于，包括如下步骤：步骤1、获取庭审卷宗数据，对卷宗数据进行清洗去除脏数据，并按照罪名的不同对数据进行分类形成原始的数据集；步骤2、定义案件画像树模型；步骤3、抽取信息，具体包括如下步骤：步骤31、采用步骤1获得的卷宗数据对BERT语言模型进行训练，将文本段落分成个人信息、案件事实和其它三个类别；然后对待识别的各个段落，采用训练好的BERT语言模型识别各段落的类别；步骤32、对于被分类为个人信息的段落，提取其中的个人信息，提取嫌疑人的犯罪历史信息；对于被分类为案件事实的段落，提取其中的案件事实信息；步骤4、根据步骤3获得的个人信息和案件事实信息，将提取的案件信息与案件画像树上定义的案件要素进行关联，填充步骤2的案件画像树模型，得到案件画像树；其中，所述步骤31具体方法为：选取卷宗数据中文书对段落进行标注，一共分为三个类：个人信息、案件事实和其它，每个类含有若干个段落样本，作为训练数据集；利用训练数据集对BERT语言模型进行训练；使用训练后BERT语言模型计算所有训练数据集中各段落样本的输出，并计算每个类的样本输出的均值，分别定义为：s1、s2、s3；在预测阶段，先得到预测样本的BERT模型输出，然后分别计算该输出与s1、s2、s3的欧式距离，最后将需要预测的样本归类到欧式距离最小的类别；其中，对BERT语言模型进行训练后，再采用度量学习对其进行调整，然后用调整后的BERT语言模型预测样本输出；其中，使用度量学习对预训练BERT语言模型进行调整的方法，包括：采用欧式距离度量两个样本的相似性，具体的损失函数为： f表示BERT预训练模型，xi1和xi2是训练数据集中来源于不同类别的训练数据，训练时使用随机梯度下降算法最大化这个损失函数；所述步骤32中，提取犯罪嫌疑人的案件事实信息的方法为：讯问笔录中选择被类别为案件事实的段落；遍历所有选择的段落，在问句中匹配“犯罪过程”四个字，匹配成功的段落即为案件事实的描述段落；受害人的案件事实提取基于受害人的讯问笔录，提取方法与犯罪嫌疑人的一致；嫌疑人的犯罪历史信息的提取方法为：对于被分类为个人信息的段落，找到个人信息的问答对，然后将嫌疑人的回答按照句号分割；遍历分割后的句子，python语言下使用正则表达式“.*？因.*？被.*？法院判处.*？”对句子进行匹配，能够成功匹配的句子即为嫌疑人的历史犯罪信息。

全文数据：

权利要求：

百度查询：中国电子科技集团公司第十五研究所一种面向庭审阅卷的案件画像挖掘方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种聚丙烯复合材料及其制备方法和应用_广东聚石化学股份有限公司_202211721781.4

下一篇：一种馍片生产的输送带自清洁装置_晋城市丰昇源面业股份有限公司_202410231905.3

相关技术

一种聚丙烯复合材料及其制备方法和应用_广东聚石化学股份有限公司_202211721781.4

一种馍片生产的输送带自清洁装置_晋城市丰昇源面业股份有限公司_202410231905.3

一种诱导阴地蕨孢子萌发、有效培养原叶体的培养基及方法_毕节市中药研究所_202310551441.X

一种大型铜套离心铸造方法及铸造设备_扬州市雪龙铜制品有限公司_202210381652.9

耐拉伸航空用电缆_广东南缆电缆有限公司_202410436836.X

一种基于草料的饲料制造用粉碎方法_张向红_202210570360.X

印制绕组式轻量化电磁能量采集装置_中国农业大学_202211249050.4

基于学生T过程的微带天线优化方法和优化系统_江苏科技大学_202111415452.2

老旧小区改造电梯加装用施工吊篮_四川华奥电梯有限公司_202210866326.7

一种智能机械抓手_陇芯微(西安)电子科技有限公司_202111591327.7

一种弯管内壁自动行走激光堆焊增材设备_广东博盈特焊技术股份有限公司_202410354772.9

一种破碎硐室系统工程施工方法_湖南科技大学_202210657216.X

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明授权】一种面向庭审阅卷的案件画像挖掘方法_中国电子科技集团公司第十五研究所_202110451235.2

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务