买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国司法大数据研究院有限公司
摘要:本发明公开了一种复杂案件下多被告涉案金额提取方法及装置,属于深度学习技术在量刑业务上的具体应用。该方法将含有涉案金额的描述文本输入训练完成的深度学习模型;通过所述深度学习模型判断涉案金额中对应某一被告人的有效金额和无效金额;将所有有效金额进行叠加求和,得到对应某一被告人的涉案总金额。本发明对BERT模型进行改进,改进后的模型包括输入层、中间层和输出层三部分,不仅能够结合上下文语义,而且能够抽取涉案金额的归属关系。本发明还提出提出枚举组合求和算法,能够迅速批量生成可供训练使用的标注数据,不依赖人工标注,生成训练数据速度快,并且生成的训练数据质量高、纯净。
主权项:1.一种复杂案件下多被告涉案金额提取方法,其特征在于,包括以下步骤:将含有涉案金额的描述文本输入训练完成的深度学习模型;通过所述深度学习模型判断涉案金额中对应某一被告人的有效金额和无效金额;将所有有效金额进行叠加求和,得到对应某一被告人的涉案总金额;所述深度学习模型为改进的BERT模型,包括输入层、中间层和输出层;输入层由四部分构成,分别为input_ids、input_mask、segment_ids、input_mask_money;input_ids由两部分拼接,分别为犯罪事实的文本描述和正欲提取涉案金额的被告人名字;segment_ids为二值向量,0对应input_ids中的犯罪事实的文本描述,1对应被告人名字;input_mask同为二值向量,input_ids中所有金钱描述的文本在input_mask中对应的值是1,input_ids中非金钱描述的文本在input_mask中对应的值是0;input_mask_money与input_mask对应,将input_mask中的非0值替换为具体的金额数值;input_ids的生成步骤包括:用正则表达式提取犯罪事实文本描述中的所有金额描述,并将所有金额描述统一替换成字符串“[MASK]”;将犯罪事实文本描述和被告人名字进行拼接,先将犯罪事实文本描述首尾拼接“[CLS]”和“[SEP]”,再将被告人名字末尾拼接“[SEP]”,最后再将处理过的犯罪事实文本描述和被告人名字进行拼接,如果长度不够,再在末尾拼接字符“[PAD]”;利用事先准备好的词典,完成从文本向索引的映射,从而得到input_ids。
全文数据:
权利要求:
百度查询: 中国司法大数据研究院有限公司 一种复杂案件下多被告涉案金额提取方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。