首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

自动判案方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:科大讯飞股份有限公司

摘要:本发明公开了一种自动判案方法及系统,该方法包括:获取待判案件相关资料;对所述待判案件相关资料进行分词及向量化处理,得到待判案件的文本向量;对预先构建的先验知识库中的信息进行向量化处理,得到先验知识向量;将所述先验知识向量及所述待判案件的文本向量输入预先构建的判案模型,根据所述判案模型的输出得到判案结果。利用本发明,可以提高判案效率,避免司法人员知识背景等主观因素的影响,提高判案的公正性和权威性。

主权项:一种自动判案方法,其特征在于,包括:获取待判案件相关资料;对所述待判案件的描述信息进行分词及向量化处理,得到待判案件的文本向量;对预先构建的先验知识库中的信息进行向量化处理,得到先验知识向量;将所述先验知识向量及所述待判案件的文本向量输入预先构建的判案模型,根据所述判案模型的输出得到判案结果。

全文数据:自动判案方法及系统技术领域[0001]本发明涉及深度学习领域,具体涉及一种自动判案方法及系统。背景技术[0002]现有的司法判案大多还是由司法相关人员主导的判案,如基于专家规则的判案方法,大致流程:对每种案件如盗窃、抢劫等),人工定义影响判案的各个要素,在实际判案过程中,需填写每一个要素信息,最后根据要素信息得到对应的判案结果。[0003]发明内容[0004]本发明实施例提供一种自动判案方法及系统,以解决现有判案方法存在的人力耗费大,公正性、权威性易受办案人员主观影响的问题。[0005]为此,本发明提供如下技术方案:[0006]—种自动判案方法,包括:[0007]获取待判案件相关资料;[0008]对所述待判案件的描述信息进行分词及向量化处理,得到待判案件的文本向量;[0009]对预先构建的先验知识库中的信息进行向量化处理,得到先验知识向量;[0010]将所述先验知识向量及所述待判案件的文本向量输入预先构建的判案模型,根据所述判案模型的输出得到判案结果。[0011]优选地,按以下方式构建先验知识库:[0012]收集大量针对不同判案任务的相关语料;[0013]抽取所述语料中的关键词构建先验知识库。[0014]优选地,构建判案模型的过程包括:[0015]确定判案模型的拓扑结构,所述判案模型的拓扑结构包括:输入层、表示层、全连接层和输出层,所述输入层包括文本输入层和知识输入层,所述表示层包括文本表示层和知识表示层;[0016]收集训练数据,所述训练数据包括历史案件描述信息及对应的案件判案结果;[0017]对所述历史案件描述信息进行分词及向量化处理,得到历史案件的文本向量;[0018]对所述先验知识库中的信息进行向量化处理,得到先验知识向量;[0019]根据所述历史案件的文本向量、所述先验知识向量、以及所述案件判案结果,训练得到模型参数。[0020]优选地,所述对所述历史案件描述信息进行分词及向量化处理还包括:[0021]人名处理:对所述历史案件描述信息中的被告人和被害人的姓名进行识别,并将识别到的姓名用通用描述主体替代;和或[0022]数字处理:对所述历史案件描述信息中的数值信息进行归一化处理,然后将归一化处理后的数字转化为词向量。[0023]优选地,所述将归一化处理后的数字转化为词向量包括:[0024]将归一化处理后的数字和设置的偏置量组成二维向量;[0025]利用多层感知器将所述二维向量转换为词向量。[0026]优选地,所述构建判案模型的过程还包括:[0027]在对所述历史案件描述信息进行分词及向量化处理之前,提取所述历史案件描述信息中的案情要素,并将所述案情要素依次拼接作为所述历史案件描述信息。[0028]优选地,所述方法还包括:[0029]在对所述待判案件的描述信息进行分词及向量化处理之前,提取所述待判案件相关资料中的案情要素,并将所述案情要素依次拼接作为所述待判案件的描述信息。[0030]优选地,所述对所述待判案件的描述信息进行分词及向量化处理还包括:[0031]人名处理:对所述待判案件的描述信息中的被告人和被害人的姓名进行识别,并将识别到的姓名用通用描述主体替代;和或[0032]数字处理:对所述待判案件的描述信息中的数值信息进行归一化处理,然后将归一化处理后的数字转化为词向量。[0033]一种自动判案系统,包括:[0034]资料获取模块,用于获取待判案件相关资料;[0035]预处理模块,用于对所述待判案件相关资料进行分词及向量化处理,得到待判案件的文本向量;[0036]先验知识处理模块,用于对所述先验知识库中的信息进行向量化处理,得到先验知识向量;[0037]判案模块,用于将所述先验知识向量及所述待判案件的文本向量输入所述判案模型,根据所述判案模型的输出得到判案结果。[0038]优选地,所述系统还包括:[0039]先验知识库构建模块,用于收集大量针对不同判案任务的相关语料,抽取所述语料中的关键词构建先验知识库。[0040]优选地,所述系统还包括:判案模型构建模块,用于构建判案模型;所述判案模型构建模块包括:[0041]结构设计单元,用于确定判案模型的拓扑结构,所述判案模型的拓扑结构包括:输入层、表示层、全连接层和输出层,所述输入层包括文本输入层和知识输入层,所述表示层包括文本表示层和知识表示层;[0042]数据收集单元,用于收集训练数据,所述训练数据包括历史案件描述信息及对应的案件判案结果;[0043]预处理单元,用于对所述历史案件描述信息进行分词及向量化处理,得到历史案件的文本向量;[0044]先验知识处理单元,用于对所述先验知识库中的信息进行向量化处理,得到先验知识向量;[0045]训练单元,用于根据所述历史案件的文本向量、所述先验知识向量、以及所述案件判案结果,训练得到模型参数。[0046]优选地,所述预处理单元包括:[0047]人名处理子单元,用于对所述历史案件描述信息中的被告人和被害人的姓名进行识别,并将识别到的姓名用通用描述主体替代;和或[0048]数字处理子单元,用于对所述历史案件描述信息中的数值信息进行归一化处理,然后将归一化处理后的数字转化为词向量。[0049]优选地,所述数字处理子单元将归一化处理后的数字和设置的偏置量组成二维向量,利用多层感知器将所述二维向量转换为词向量。[0050]优选地,所述判案模型构建模块还包括:[0051]信息处理单元,用于提取所述历史案件描述信息中的案情要素,并将所述案情要素依次拼接作为所述历史案件描述信息。[0052]优选地,所述系统还包括:[0053]信息处理模块,用于提取所述待判案件相关资料中的案情要素,并将所述案情要素依次拼接作为所述待判案件的描述信息。[0054]优选地,所述预处理模块包括:[0055]人名处理子模块,用于对所述待判案件的描述信息中的被告人和被害人的姓名进行识别,并将识别到的姓名用通用描述主体替代;和或[0056]数字处理子模块,用于对所述待判案件的描述信息中的数值信息进行归一化处理,然后将归一化处理后的数字转化为词向量。[0057]本发明实施例提供的自动判案方法及系统,预先构建先验知识库和判案模型,在进行判案时,根据所述先验知识库及待判案件相关资料,基于所述判案模型得到判案结果。本发明方案不仅提高了判案效率,减轻了司法相关工作人员的工作量,而且避免了司法人员知识背景等主观因素的影响,提高了判案的公正性和权威性。此外,利用先验知识辅助判案,解决了端到端建模存在的因训练数据量不足导致效果不佳的问题。附图说明[0058]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。[0059]图1是本发明实施例中构建先验知识库的流程图;[0060]图2是本发明实施例中构建判案模型的流程图;[0061]图3是本发明实施例中判案模型的拓扑结构示意图;[0062]图4是本发明实施例中数字向量化模型结构示意图;[0063]图5是本发明实施例自动判案方法的流程图;[0064]图6是本发明实施例自动判案系统的一种结构示意图;[0065]图7是本发明实施例中判案模型构建模块的一种具体结构示意图;[0066]图8是本发明实施例自动判案系统的另一种结构示意图。具体实施方式[0067]为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。[0068]针对现有技术中人工主导的办案方式存在的诸多问题,本发明实施例提供一种自动判案方法及系统,预先构建先验知识库和判案模型,对于待判案件,基于所述先验知识库中的信息和判案模型,自动得到判断结果。[0069]如图1所示,是本发明实施例中构建先验知识库的流程图,包括以下步骤:[0070]步骤101,收集大量针对不同判案任务的相关语料。[0071]步骤102,抽取所述语料中的关键词构建先验知识库。[0072]如针对刑期预测任务,收集《刑法》、各地区《量刑指导意见》等语料,抽取语料中的关键词构建先验知识库。[0073]需要说明的是,关键词的抽取可以采用自动方式或者人工的方式,对此本发明实施例不做限定。[0074]为了便于描述及后续对先验知识库中信息的使用,所述先验知识库具体可以采用Key-Value对的形式表示,其中Key是一个或多个词语的形式,表示案情文本中出现的关键词,Value表示出现key情况下的预测结果。[0075]例如,先验知识库中的信息如下表所示:[0077]当然,所述先验知识库也可以采用其它形式表示,对此本发明实施例不做限定。[0078]另外,在实际应用中,可以针对不同的判案任务,构建与该判案任务相对应的先验知识库,这样,可以使所述先验知识库更具针对性,可以进一步提高判案结果的准确性。[0079]基于上述先验知识库,并收集大量训练数据,训练得到判案模型。[0080]如图2所示,是本发明实施例中构建判案模型的流程图,包括以下步骤:[0081]步骤201,确定判案模型的拓扑结构。[0082]如图3所示,是本发明实施例中判案模型的拓扑结构示意图。所述判案模型包括:输入层、表示层、全连接层和输出层,所述输入层包括文本输入层和知识输入层,所述表示层包括文本表示层和知识表示层。其中:[0083]文本输入层:输入为训练文本的词向量二维矩阵,如限定文本长度为500个词,每个词向量维度为100,那么输入就是500,100的二维矩阵。[0084]知识输入层:输入为知识库中的Key-Value对应的向量。假设共有150个Key-Value对,那么知识输入层的Key部分为(150,100的二维矩阵,Value部分为(150,100的二维矩阵。[0085]文本表示层:主要用于对文本输入向量矩阵进行抽象,得到更深层次的文本信息。可以用常见的CNN卷积神经网络或者RNN循环神经网络作为该层,以CNN为例,将训练文本的词向量二维矩阵转化为一个100维向量表示。[0086]知识表示层:主要用于计算先验知识与训练文本相似度关系,得到与训练文本相似度较尚的先验知识ί目息。该层的输入为训练文本向量矩阵和先验知识向量矩阵,将先验知识中的Key部分和训练文本的词向量进行相似度计算,进而得到Key-Value的150维权重向量;用150维的权重向量将Value部分的(150,100的二维矩阵加权求和得到一个最终基于知识的100维表示向量。[0087]Key部分和训练文本的词向量的相似度计算方法,是一个100维向量和(500,100的二维矩阵之间进行计算,可以将100维Key向量和500个词向量计算内积,得到500个权重值,再将这500个数值求和或取最大值,得到一个相似度数值。150个Key得到150个相似度数值,即一个150维的权重向量。[0088]全连接层:将100维的知识表示和100维的文本表示拼接在一起,成为200维的表示向量,在通过具有多层的全连接层,得到100维最终的表示向量。该层的主要作用是将文本表示和相关性较高的知识表示融合在一起,提取更高层次的特征表示。[0089]输出层:可以根据不同的判案任务,选择合适的输出层,如进行罪名分类任务,其输出层为常见的softmax,输出为每个罪名的概率值。[0090]需要说明的是,如果预先知道案件的类型,也可以采用上述拓扑结构构建针对这种类型案件的判案模型,只是输出层的输出需要根据实际案件类型做适应性调整。比如对于刑事案件,输出层需要输出是否有罪、以及服刑期限等;对于民事纠纷案件,输出层需要输出是否赔偿、以及赔偿金额等。当然,在针对特定类型案件的情况,可以利用针对该类型案件的先验知识库,可以提高判案结果的准确性。[0091]步骤202,收集训练数据,所述训练数据包括历史案件描述信息及对应的案件判案结果。[0092]步骤203,对所述历史案件描述信息进行分词及向量化处理,得到历史案件的文本向量。[0093]分词及向量化处理可采用现有技术实现,在此不再赘述。[0094]需要说明的是,在历史案件描述信息中,通常会涉及到一些人名和或数字,对这两类信息,本发明实施例还可以采用一些特殊处理,以避免其由于数据稀疏对判案结果产生不利影响,下面对此分别进行详细说明。[0095]1对于人名的处理[0096]在判案过程中,被告人和被害人的行为直接影响判案结果,而在案情描述资料中多是以被告人和被害人姓名作为主体描述,为了避免模型因主体理解有误导致判案结果偏差较大的情况发生,在本发明实施例中,对案件描述信息中被告人和被害人的姓名进行识别,并将识别到的姓名用通用描述主体替代。具体识别方法可采用现有的CRF条件随机场或者LSTM循环神经网络)等模型自动预测,当然也可以采用人工标注的方式进行识别及替换。[0097]2对数字的处理[0098]案件中出现的一些金额、重量、浓度等数值信息,对判案结果影响较大,但这些信息往往因出现频次较少导致训练数据稀疏问题。对此,本发明实施例中,可以先对所述历史案件描述信息中的数值信息进行归一化处理,如将各国币种均归一化为人民币,然后将归一化处理后的数字转化为词向量。[0099]在对归一化处理后的数据进行向量化时,可以采用现有的一些数字向量化方法,也可以采用本发明实施例提供的基于模型的方法:即将归一化处理后的数字和设置的偏置量组成二维向量,然后利用MLP多层感知器)将所述二维向量转换为词向量。所述MLP是一种前馈人工神经网络模型,其将输入的多个数据集映射到单一的输出的数据集上。[0100]例如图4所示,数字“100”先经过公式⑴归一化,转化为0-1之间的标量数字,其中X为输入数字,MAX_NUMBER为案情描述中的最大数字,y为归一化处理后的数字。[0102]对归一化处理后的数字增加一个偏置量,使其成为一个维度为2的向量[y,1],将该向量作为输入,经过MPL后,转化为一个维度为100的词向量。[0103]通过上述方式将数字转化为词向量,既保证了相近数字的相似度,又体现了不同数字的差异性,使转化后的词向量具有丰富的表示能力。[0104]进一步地,由于一个案件的资料通常其描述信息会很长,特别是对累犯、多案合并等案件。如果将所有案件描述信息均输入到判案模型,由于模型通常会有输入长度限定,因此会对案情描述信息进行截断,这样会导致一些重要信息遗失,使判案结果出现较大偏差。针对这种情况,在本发明方法另一实施例中,在步骤203之前,还可以先对案件描述信息进行一些自动精简操作,减小案情描述的长度,将对判案影响重要的一些信息抽取出来。具体地,首先提取所述历史案件描述信息中的案情要素,并将所述案情要素依次拼接作为历史案件描述信息,然后再执行步骤203的操作,对所述历史案件描述信息进行分词及向量化处理,得到历史案件的文本向量。[0105]提取所述历史案件描述信息中的案情要素可以采用自动提取文档摘要的算法,比如Extractive抽取式、Abstractive概要式等。[0106]案情要素的提取需要首先识别出案情要素,是一个序列标注任务,可以采用常见的CRF条件随机场或者LSTM长短期记忆网络等模型自动预测,或者通过模式匹配的方法来识别。[0107]需要说明的是,上述对案情要素的提取不仅应用于案件描述信息的分词数量超过设定值的情况下,即使在案件描述信息较短的情况,也同样适用。[0108]步骤204,对所述先验知识库中的信息进行向量化处理,得到先验知识向量。[0109]步骤205,根据所述历史案件的文本向量、先验知识向量、以及所述案件判案结果,训练得到模型参数。[0110]具体地,将所述历史案件的文本向量及先验知识向量作为模型的输入,将案件的判案结果作为输出标准,基于现有常见的模型训练算法,如BP反向传播算法,训练得到模型参数。[0111]基于上述判案模型,本发明实施例提供的自动判案方法的流程如图5所示,包括以下步骤:[0112]步骤501,获取待判案件相关资料。[0113]步骤502,对所述待判案件的描述信息进行分词及向量化处理,得到待判案件的文本向量。[0114]具体的分词及向量化处理可采用现有技术实现,在此不再赘述。[0115]另外,对待判案件相关资料中的人名和或数字也可进一步按照前面介绍的方法进行向量化处理。其中,对人名处理具体为对所述待判案件的描述信息中的被告人和被害人的姓名进行识别,并将识别到的姓名用通用描述主体替代;对数字处理具体为对所述待判案件的描述信息中的数值信息进行归一化处理,然后将归一化处理后的数字转化为词向量。[0116]而且,为了使得到的待判案件的文本向量能够更准确地描述案情,并避免案情信息过长造成重要信息丢失,进而影响判案结果的问题,在本发明方法另一实施例中,还可以在步骤502之前,先提取所述待判案件相关资料中的案情要素,并将所述案情要素依次拼接作为所述待判案件的描述信息。[0117]步骤503,对预先构建的先验知识库中的信息进行向量化处理,得到先验知识向量。[0118]需要说明的是,上述步骤503和之前的步骤501至步骤502,没有先后顺序关系,也就是说,可以先执行步骤501至步骤502,再执行步骤503;也可以先执行步骤503,再执行步骤501至步骤502。[0119]步骤504,将所述先验知识向量及所述待判案件的文本向量输入预先构建的判案模型,根据所述判案模型的输出得到判案结果。[0120]具体地,将案件的向量化信息和先验知识的向量化信息作为判案模型的输入,通过判案模型分别提取深层抽象案件信息、与案件相关性较大的先验知识信息,再基于上述两类信息得到判案结果。[0121]本发明实施例提供的自动判案方法,预先构建先验知识库和判案模型,在进行判案时,根据所述先验知识库及待判案件相关资料,基于所述判案模型得到判案结果。本发明方案不仅提高了判案效率,减轻了司法相关工作人员的工作量,而且避免了司法人员知识背景等主观因素的影响,提高了判案的公正性和权威性。此外,利用先验知识辅助判案,解决了端到端建模存在的因训练数据量不足导致效果不佳的问题。[0122]相应地,本发明实施例还提供一种自动判案系统,如图6所示,是该系统的一种结构示意图。[0123]在该实施例中,所述系统包括:[0124]资料获取模块601,用于获取待判案件相关资料;[0125]预处理模块602,用于对所述待判案件相关资料进行分词及向量化处理,得到待判案件的文本向量;[0126]先验知识处理模块603,用于对所述先验知识库中的信息进行向量化处理,得到先验知识向量;[0127]判案模块604,用于将所述先验知识向量及所述待判案件的文本向量输入所述判案模型,根据所述判案模型的输出得到判案结果。[0128]需要说明的是,所述先验知识库可以由相应的先验知识库构建模块收集大量针对不同判案任务的相关语料,抽取所述语料中的关键词构建。所述验知识库采用Key-Value对的形式表示,其中Key是一个或多个词语的形式,表示案情文本中出现的关键词,Value表示出现key情况下的预测结果。[0129]同样,所述判案模型可以由相应的判案模型构建模型来构建,所述判案模型构建模块的一种具体结构如图7所示,包括以下各单元:[0130]结构设计单元71,用于确定判案模型的拓扑结构,所述判案模型的拓扑结构包括:输入层、表示层、全连接层和输出层,所述输入层包括文本输入层和知识输入层,所述表示层包括文本表示层和知识表示层;各层的输入及作用在前面已有详细描述,在此不再赘述;[0131]数据收集单元72,用于收集训练数据,所述训练数据包括历史案件描述信息及对应的案件判案结果;[0132]预处理单元73,用于对所述历史案件描述信息进行分词及向量化处理,得到历史案件的文本向量;[0133]先验知识处理单元74,用于对所述先验知识库中的信息进行向量化处理,得到先验知识向量;[0134]训练单元75,用于根据所述历史案件的文本向量、所述先验知识向量、以及所述案件判案结果,训练得到模型参数。[0135]需要说明的是,在历史案件描述信息中通常会涉及到一些人名和或数字,为了保证模型参数的准确性,上述预处理单元73还可以对这两类信息进行一些特殊处理。比如通过调用人名处理子单元实现对人名的处理,通过调用数字处理子单元实现对数字的处理。其中:[0136]人名处理子单元,用于对所述历史案件描述信息中的被告人和被害人的姓名进行识别,并将识别到的姓名用通用描述主体替代。比如,利用条件随机场或者循环神经网络模型预测得到所述历史案件描述信息中的被告人和被害人的姓名。[0137]数字处理子单元,用于对所述历史案件描述信息中的数值信息进行归一化处理,然后将归一化处理后的数字转化为词向量,比如将归一化处理后的数字和设置的偏置量组成二维向量,利用多层感知器将所述二维向量转换为词向量。[0138]需要说明的是,上述人名处理子单元和或数字处理子单元可以作为所述预处理单元的一部分,也可以独立于所述预处理单元,对此本发明实施例不做限定。[0139]进一步地,为了避免案件描述信息过长对判案结果的影响,在本发明系统另一实施例中,所述判案模型构建模块还包括:信息处理单元,用于提取所述历史案件描述信息中的案情要素,并将所述案情要素依次拼接作为所述历史案件描述信息,比如利用条件随机场或者循环神经网络模型预测得到所述历史案件描述信息中的案情要素,或者通过模式匹配方式得到所述历史案件描述信息中的案情要素。[0140]同样,所述信息处理单元可以作为所述判案模型构建模块的一部分,可以集成于预处理单元,也可以独立于所述预处理单元,对此本发明实施例不做限定。[0141]另外,需要说明的是,本发明系统中的预处理模块602也可以采用上述同样的方式对人名和或数字、待判案件描述信息中的案情要素进行相应的处理,这些处理可以由预处理模块602来完成,也可以设置相应的功能模块,预处理模块602调用这些功能模块来实现对人名、数字及待判案件描述信息中的案情要素的处理。比如,设置人名处理子模块和或数字处理子模块;其中,所述人名处理子模块用于对所述待判案件的描述信息中的被告人和被害人的姓名进行识别,并将识别到的姓名用通用描述主体替代;所述数字处理子模块用于对所述待判案件的描述信息中的数值信息进行归一化处理,然后将归一化处理后的数字转化为词向量。[0M2]如图8所示,是本发明自动判案系统的另一种结构示意图。[0143]与图6所示实施例相比较,在该实施例中,所述系统还包括:[0144]设置在资料获取模块601和预处理模块602之间的信息处理模块605,用于提取所述待判案件相关资料中的案情要素,并将所述案情要素依次拼接作为所述待判案件的描述信息。[0145]当然,在实际应用中,信息处理模块605也可以与预处理模块602集成于一体,对此本发明实施例不做限定。[0146]本发明实施例提供的自动判案系统,在进行判案时,根据先验知识库及待判案件相关资料,基于预先构建的判案模型得到判案结果。本发明方案不仅提高了判案效率,减轻了司法相关工作人员的工作量,而且避免了司法人员知识背景等主观因素的影响,提高了判案的公正性和权威性。而且由于利用先验知识辅助判案,解决了端到端建模存在的因训练数据量不足导致效果不佳的问题。[0M7]本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。[0148]以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及装置;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

权利要求:1.一种自动判案方法,其特征在于,包括:获取待判案件相关资料;对所述待判案件的描述信息进行分词及向量化处理,得到待判案件的文本向量;对预先构建的先验知识库中的信息进行向量化处理,得到先验知识向量;将所述先验知识向量及所述待判案件的文本向量输入预先构建的判案模型,根据所述判案模型的输出得到判案结果。2.根据权利要求1所述的方法,其特征在于,按以下方式构建先验知识库:收集大量针对不同判案任务的相关语料;抽取所述语料中的关键词构建先验知识库。3.根据权利要求1所述的方法,其特征在于,构建判案模型的过程包括:确定判案模型的拓扑结构,所述判案模型的拓扑结构包括:输入层、表示层、全连接层和输出层,所述输入层包括文本输入层和知识输入层,所述表不层包括文本表不层和知识表示层;收集训练数据,所述训练数据包括历史案件描述信息及对应的案件判案结果;对所述历史案件描述信息进行分词及向量化处理,得到历史案件的文本向量;对所述先验知识库中的信息进行向量化处理,得到先验知识向量;根据所述历史案件的文本向量、所述先验知识向量、以及所述案件判案结果,训练得到模型参数。4.根据权利要求3所述的方法,其特征在于,所述对所述历史案件描述信息进行分词及向量化处理还包括:人名处理:对所述历史案件描述信息中的被告人和被害人的姓名进行识别,并将识别到的姓名用通用描述主体替代;和或数字处理:对所述历史案件描述信息中的数值信息进行归一化处理,然后将归一化处理后的数字转化为词向量。5.根据权利要求4所述的方法,其特征在于,所述将归一化处理后的数字转化为词向量包括:将归一化处理后的数字和设置的偏置量组成二维向量;利用多层感知器将所述二维向量转换为词向量。6.根据权利要求3所述的方法,其特征在于,所述构建判案模型的过程还包括:在对所述历史案件描述信息进行分词及向量化处理之前,提取所述历史案件描述信息中的案情要素,并将所述案情要素依次拼接作为所述历史案件描述信息;所述方法还包括:在对所述待判案件的描述信息进行分词及向量化处理之前,提取所述待判案件相关资料中的案情要素,并将所述案情要素依次拼接作为所述待判案件的描述信息。7.根据权利要求1所述的方法,其特征在于,所述对所述待判案件的描述信息进行分词及向量化处理还包括:人名处理:对所述待判案件的描述信息中的被告人和被害人的姓名进行识别,并将识别到的姓名用通用描述主体替代;和或数字处理:对所述待判案件的描述信息中的数值信息进行归一化处理,然后将归一化处理后的数字转化为词向量。8.—种自动判案系统,其特征在于,包括:资料获取模块,用于获取待判案件相关资料;预处理模块,用于对所述待判案件相关资料进行分词及向量化处理,得到待判案件的文本向量;先验知识处理模块,用于对所述先验知识库中的信息进行向量化处理,得到先验知识向量;判案模块,用于将所述先验知识向量及所述待判案件的文本向量输入所述判案模型,根据所述判案模型的输出得到判案结果。9.根据权利要求8所述的系统,其特征在于,所述系统还包括:先验知识库构建模块,用于收集大量针对不同判案任务的相关语料,抽取所述语料中的关键词构建先验知识库。10.根据权利要求8所述的系统,其特征在于,所述系统还包括:判案模型构建模块,用于构建判案模型;所述判案模型构建模块包括:结构设计单元,用于确定判案模型的拓扑结构,所述判案模型的拓扑结构包括:输入层、表示层、全连接层和输出层,所述输入层包括文本输入层和知识输入层,所述表示层包括文本表示层和知识表示层;数据收集单元,用于收集训练数据,所述训练数据包括历史案件描述信息及对应的案件判案结果;预处理单元,用于对所述历史案件描述信息进行分词及向量化处理,得到历史案件的文本向量;先验知识处理单元,用于对所述先验知识库中的信息进行向量化处理,得到先验知识向量;训练单元,用于根据所述历史案件的文本向量、所述先验知识向量、以及所述案件判案结果,训练得到模型参数。11.根据权利要求10所述的系统,其特征在于,所述预处理单元包括:人名处理子单元,用于对所述历史案件描述信息中的被告人和被害人的姓名进行识另IJ,并将识别到的姓名用通用描述主体替代;和或数字处理子单元,用于对所述历史案件描述信息中的数值信息进行归一化处理,然后将归一化处理后的数字转化为词向量。12.根据权利要求10所述的系统,其特征在于,所述数字处理子单元将归一化处理后的数字和设置的偏置量组成二维向量,利用多层感知器将所述二维向量转换为词向量。13.根据权利要求10所述的系统,其特征在于,所述判案模型构建模块还包括:信息处理单元,用于提取所述历史案件描述信息中的案情要素,并将所述案情要素依次拼接作为所述历史案件描述信息;所述系统还包括:信息处理模块,用于提取所述待判案件相关资料中的案情要素,并将所述案情要素依次拼接作为所述待判案件的描述信息。14.根据权利要求8所述的系统,其特征在于,所述预处理模块包括:人名处理子模块,用于对所述待判案件的描述信息中的被告人和被害人的姓名进行识另IJ,并将识别到的姓名用通用描述主体替代;和或数字处理子模块,用于对所述待判案件的描述信息中的数值信息进行归一化处理,然后将归一化处理后的数字转化为词向量。

百度查询: 科大讯飞股份有限公司 自动判案方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。