首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

合同审核方法、装置、计算机设备和存储介质 

申请/专利权人:平安科技(深圳)有限公司

申请日:2018-09-10

公开(公告)日:2024-06-28

公开(公告)号:CN109447105B

主分类号:G06F18/22

分类号:G06F18/22;G06F16/35;G06Q10/10;G06Q50/18;G06F18/214;G06F18/2411

优先权:

专利状态码:有效-授权

法律状态:2024.06.28#授权;2020.12.15#实质审查的生效;2019.03.08#公开

摘要:本申请涉及人工智能中的机器学习,提供了一种合同审核方法、装置、计算机设备和存储介质。所述方法包括:获取目标合同文本;通过已训练的第一连续词袋模型,分别对所述目标合同文本中的每项合同条款进行预测,获得相应的目标条款语义向量;获取预存储的预设条款语义向量;计算每个所述目标条款语义向量与所述预设条款语义向量之间的相似度;根据各个所述相似度按照预设确定方式对应确定目标相似度;当所述目标相似度达到预设相似度阈值时,将所述目标相似度对应的合同条款确定为无风险条款。采用本方法能够提高合同审核效率。

主权项:1.一种合同审核方法,所述方法包括:获取目标合同文本;所述目标合同文本对应有多个待审核的法审点;所述法审点是指法律审核要点;通过已训练的第一连续词袋模型,分别对所述目标合同文本中的每项合同条款进行预测,获得相应的条款语义向量;针对每项所述合同条款,对组成所述合同条款的各个词所对应的初始词向量在各个维度上分别求平均值,将各个维度上的平均值构成的词向量确定为相应的平均词向量,并对组成所述合同条款的各个词所对应的初始词向量在各个维度上分别求最大值,将各个维度上的最大值构成的词向量确定为相应的最大词向量;将所述合同条款相应的平均词向量、所述最大词向量和所述条款语义向量进行合并,获得所述合同条款对应的目标条款语义向量;获取预存储的预设条款语义向量;每一所述法审点对应有多个所述预设条款语义向量;针对相同法审点对应的每个预设条款语义向量,计算每个所述目标条款语义向量与所述预设条款语义向量之间的相似度;根据各个所述相似度按照预设确定方式对应确定目标相似度;当所述目标相似度达到预设相似度阈值时,将所述目标相似度对应的合同条款确定为无风险条款;针对所述目标合同文本对应的每个所述法审点,当每个所述法审点对应的合同条款均为无风险条款,确定所述目标合同文本审核通过。

全文数据:合同审核方法、装置、计算机设备和存储介质技术领域本申请涉及人工智能技术领域,特别是涉及一种合同审核方法、装置、计算机设备和存储介质。背景技术合同审核是指按照法律法规以及当事人的约定对合同的内容和格式进行审核。合同审核的作用主要是审查合同的各个法审点是否符合法律表述要求,从而确定合同中的相应条款是否具有法律风险。法审点即法律审核要点主要针对正文条款,且单个合同中包括多个法审点,如租赁合同的标的物是否明确、价款是否明确、租赁期限是否不超过指定年限、优先承租权、优先购买权、出租人与承租人的权利与义务是否明确等。目前,合同审核的主要实现方式是人工审核,即法律人员通过人工自主定位合同中的各个法审点,并凭借自身经验判断从合同中定位到的法审点是否符合法律表述,以及判断相应条款的是否存在法律风险。然而,目前通过人工审核的方式受限于法律人员的自身经验和工作效率,从而存在审核效率低的问题。发明内容基于此,有必要针对上述技术问题,提供一种能够合同审核效率的合同审核方法、装置、计算机设备和存储介质。一种合同审核方法,所述方法包括:获取目标合同文本;通过已训练的第一连续词袋模型,分别对所述目标合同文本中的每项合同条款进行预测,获得相应的目标条款语义向量;获取预存储的预设条款语义向量;计算每个所述目标条款语义向量与所述预设条款语义向量之间的相似度;根据各个所述相似度按照预设确定方式对应确定目标相似度;当所述目标相似度达到预设相似度阈值时,将所述目标相似度对应的合同条款确定为无风险条款。在其中一个实施例中,所述通过已训练的第一连续词袋模型,分别对所述目标合同文本中的每项合同条款进行预测,获得相应的目标条款语义向量,包括:确定所述目标合同文本中的每项合同条款所对应的条款标识;对于每项所述合同条款,通过已训练的第一连续词袋模型,根据所述合同条款对应的所述条款标识和组成所述合同条款的各个词所对应的初始词向量,获得相应的目标条款语义向量。在其中一个实施例中,所述对于每项所述合同条款,通过已训练的第一连续词袋模型,根据所述合同条款对应的所述条款标识和组成所述合同条款的各个词所对应的初始词向量,获得相应的目标条款语义向量,包括:通过已训练的第二连续词袋模型,分别对每项所述合同条款所对应的所述条款标识进行预测,获得相应的条款初始向量;对于每项所述合同条款,通过已训练的第一连续词袋模型,根据所述合同条款对应的所述条款初始向量和组成所述合同条款的各个词所对应的初始词向量,获得相应的目标条款语义向量。在其中一个实施例中,所述通过已训练的第一连续词袋模型,分别对所述目标合同文本中的每项合同条款进行预测,获得相应的目标条款语义向量,包括:通过已训练的第一连续词袋模型,分别对所述目标合同文本中的每项合同条款进行预测,获得相应的条款语义向量;对于每项所述合同条款,根据组成所述合同条款的各个词所对应的初始词向量,分别确定相应的平均词向量和最大词向量;将所述平均词向量、所述最大词向量和相应的所述条款语义向量进行合并,获得每项所述合同条款所对应的目标条款语义向量。在其中一个实施例中,所述获取目标合同文本之后,所述方法还包括:对所述目标合同文本进行预处理,获得合同文本语料库;通过已训练的第二连续词袋模型,分别对所述合同文本语料库中的每个词进行预测,获得相应的初始词向量。在其中一个实施例中,所述第一连续词袋模型的训练步骤包括:获取预设合同文本;通过已训练的第二连续词袋模型,分别对所述预设合同文本中的每项预设合同条款所对应的条款标识进行预测,获得相应的预设条款初始向量;根据所述第二连续词袋模型的各个权重参数,对应初始化第一连续词袋模型的各个权重参数;根据每项所述预设合同条款对应的所述预设条款初始向量,以及组成所述预设合同条款的各个词所对应的预设初始词向量,对初始化的第一连续词袋模型进行训练获得已训练的第一连续词袋模型。在其中一个实施例中,所述第二连续词袋模型的训练步骤包括:获取候选合同文本;对所述候选合同文本进行预处理,获得相应的候选合同文本语料库;根据所述候选合同文本语料库对初始化的第二连续词袋模型进行训练;当符合预设条件时停止训练,获得已训练的第二连续词袋模型。一种合同审核装置,所述装置包括:文本获取模块,用于获取目标合同文本;预测模块,用于通过已训练的第一连续词袋模型,分别对所述目标合同文本中的每项合同条款进行预测,获得相应的目标条款语义向量;向量获取模块,用于获取预存储的预设条款语义向量;计算模块,用于计算每个所述目标条款语义向量与所述预设条款语义向量之间的相似度;确定模块,用于根据各个所述相似度按照预设确定方式对应确定目标相似度;判定模块,用于当所述目标相似度达到预设相似度阈值时,将所述目标相似度对应的合同条款判定为无风险条款。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现本申请任意一个实施例中提供的合同审核方法的步骤。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本申请任意一个实施例中提供的合同审核方法的步骤。上述合同审核方法、装置、计算机设备和存储介质,对于所获取到的目标合同文本中的每项合同条款,通过已训练的第一连续词袋模型预测获得相应的目标条款语义向量。获取预存储的预设条款语义向量,自动计算该预设条款语义向量与每个目标条款语义向量之间的相似度,根据各个相似度对应确定目标相似度,当目标相似度达到预设相似度阈值时,则判定相应的合同条款为无风险条款。借助于第一连续词袋模型分别确定每项合同条款所对应的目标条款语义向量,提高了处理效率,根据计算的相似度定位合同条款,并对应判断该合同条款是否存在风险,进而实现对合同的审核,提高了审核效率。附图说明图1为一个实施例中合同审核方法的应用场景图;图2为一个实施例中合同审核方法的流程示意图;图3为一个实施例中合同审核方法的流程示意图;图4为另一个实施例中合同审核装置的结构框图;图5为一个实施例中合同审核装置的结构框图;图6为一个实施例中计算机设备的内部结构图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。本申请提供的合同审核方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。服务器通过已训练的第一连续词袋模型,分别确定所获取到的目标合同文本中的每项合同条款所对应的目标条款语义向量,分别计算每个目标条款语义向量与预设条款语义向量之间的相似度,根据该多个相似度对应确定目标相似度,并当目标相似度达到预设相似度阈值时,将该目标相似度所对应的合同条款确定为无风险条款,并将相应的审核结果推送至终端102。服务器104具体可从终端102获取目标合同文本。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。在一个实施例中,如图2所示,提供了一种合同审核方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:S202,获取目标合同文本。其中,目标合同文本是指待审核的合同文本。合同文本是指双方或多方当事人依法订立的有关权利义务的协议文本。合同文本包括当事人应当各自遵守的法律条文,法律条文与合同条款相对应。具体地,服务器接收终端发送的合同审核指令,根据所接收到的合同审核指令获取相应的目标合同文本。服务器具体可以根据合同审核指令在本地或其他用于存储合同文本的服务器查询相应的目标合同文本。服务器也可以基于网络从指定网页查询与合同审核指令对应的目标合同文本。在一个实施例中,合同审核指令中携带有目标合同文本。服务器解析所接收到的合同审核指令获得相应的目标合同文本。服务器也可以根据所接收到的合同审核指令从终端获取相应的目标合同文本。在一个实施例中,服务器根据合同审核指令获取相应的初始合同文本,并根据所获取到的初始合同文本获得相应的目标合同文本。服务器按照预设处理方式对是所获取到的初始合同文本进行处理,获得相应的目标合同文本。预设处理方式是预先设定的用于根据初始合同文本获得目标合同文本的方式,比如提取初始合同文本中的各项合同条款,根据该各项合同条款获得相应的目标合同文本。换而言之,服务器从初始合同文本中提取各项合同条款,将该各项合同条款对应存放至指定格式文本中获得目标合同文本。其中,初始合同文本具体可以是doxc格式的合同文本,目标合同文本具体可以是txt格式的合同文本。S204,通过已训练的第一连续词袋模型,分别对目标合同文本中的每项合同条款进行预测,获得相应的目标条款语义向量。其中,第一连续词袋模型是根据预先获取的训练样本集进行模型训练获得的、能够用于根据已知的合同条款对应预测未知的目标条款语义向量的模型。合同条款是指合同文本中的法律条文,即合同文本中的语句或句子。目标条款语义向量是指通过第一连续词袋模型获得的、与合同条款对应的条款语义向量。条款语义向量是指合同条款所对应的语义向量。条款语义向量具体可以是指将合同条款表示为语义空间中的向量。语义是指合同条款所表征的含义。具体地,服务器将目标合同文本中的每项合同条款作为输入特征,分别输入预先训练好的第一连续词袋模型中,通过该第一连续词袋模型分别进行预测,获得每项合同条款所对应的目标条款语义向量。在一个实施例中,服务器将目标文本合同作为输入特征输入预先训练好的第一连续词袋模型,通过该第一连续词袋模型对该目标合同文本中的每项合同条款分别进行预测,获得每项合同条款所对应的目标条款语义向量。具体地,服务器将目标合同文本输入预先训练好的第一连续词袋模型,通过该第一连续词袋模型对应确定目标合同文本中的各项合同条款,并分别对该各项合同条款进行预测,获得该各项条款各自对应的目标条款语义向量。S206,获取预存储的预设条款语义向量。其中,预设条款语义向量是预存储的与预设合同条款相对应的条款语义向量。预设条款语义向量具体可以是通过已训练的第一连续词袋模型对预设合同条款进行预测,对应获得的与该预设合同条款对应的条款语义向量。预设合同条款是预先设定的合同条款,具体可以是标准合同条款。预设合同条款是符合法律表述要求的合同条款,即按照通用表述方式进行表述的合同条款。预设合同条款与合同审核时待审核的法审点相对应。换而言之,预设合同条款是与待审核的法审点对应的、按照通用表述方式进行表述的合同条款。一个法审点可对应有多种通用表述方式,即一个法审点可对应有多项预设合同条款,也即一个法审点可对应有多个预设条款语义向量。法审点是指法律审核要点。具体地,服务器通过第一连续词袋模型获得与目标合同文本中的每项合同条款所对应的目标条款语义向量时,从本地或其他计算机设备获取预存储的预设条款语义向量。服务器也可以基于网络从指定网页获取预设条款语义向量。其他计算机设备比如用于存储合同文本或条款语义向量的服务器。在一个实施例中,服务器获得每项合同条款所对应的目标条款语义向量时,对应查询预存储的预设合同条款,通过已训练的第一连续词袋模型对所查询到的预设合同条款进行预测,获得相应的预设条款语义向量。在一个实施例中,服务器获取预存储的与相同法审点对应的多个预设条款语义向量。针对相同法审点所对应的该多个预设条款语义向量中的每个预设条款语义向量,服务器分别执行下述计算每个目标条款语义向量与该预设条款语义向量之间的相似度,并根据所获得的多个相似度,按照预设确定方式对应确定与该预设条款语义向量对应的目标相似度。当该多个预设条款语义向量各自对应的目标相似度中存在达到预设相似度阈值的目标相似度时,服务器将达到预设相似度阈值的目标相似度所对应的合同条款确定为无风险条款。可以理解的是,可根据按照上述方式确定的目标相似度,从目标合同文本中定位出与所获取到的预设合同条款相匹配的合同条款,该定位出的合同条款即为目标合同文本中与预设合同条款相对应的法审点。当该法审点对应有多个预设合同条款时,服务器根据该多个预设合同条款各自对应的预设条款语义向量,在目标合同文本中定位出的合同条款相同。服务器根据该多个预设条款语义向量中的任意一个或多个判定出相应合同条款为无风险条款时,则判定该合同条款为无风险条款。在一个实施例中,目标合同文本对应有多个待审核的法审点。针对每个法审点,服务器按照上述方式分别进行审核。当判定待审核的每个法审点,在所获取到的目标合同文本中所对应的合同条款均为无风险条款时,服务器将该目标合同文本判定为无风险合同文本,即判定该目标合同文本审核通过。S208,计算每个目标条款语义向量与预设条款语义向量之间的相似度。其中,相似度是指相似程度。相似度具体可以是目标条款语义向量与预设条款语义向量之间的相似程度。相似度越高即相似程度越大,表明目标条款语义向量和预设条款语义向量越接近,也即表明相应的合同条款和预设合同条款越相似。相似度可以是代表相似程度的数值,具体可以是百分数值,比如90%。具体地,对于目标合同文本中的每项合同条款所对应的目标条款语义向量,服务器按照预设计算方式,分别计算每个目标条款语义向量与所获取到的预设条款语义向量之间的相似度,获得每个目标条款语义向量所对应的相似度。预设计算方式是指预先设定的用于计算两个向量之间的相似度的方式。预设计算方式具体可以是通过计算目标条款语义向量和预设条款语义向量之间与余弦相似度或欧氏距离来确定相应的相似度。余弦相似度又称为余弦距离,是指用两个向量夹角的余弦值来衡量该两个向量之间的相似程度。余弦值的取值范围为0到1,余弦值越接近1表明向量夹角越接近0度,也即表明该两个向量越相似。欧氏距离用于衡量空间各点的绝对距离,与空间各点所在的位置坐标相关。在一个实施例中,当一个法审点对应有多个预设条款语义向量时,针对每个预设条款语义向量,服务器分别计算每个目标条款语义向量与该预设条款语义向量之间的相似度,并根据计算获得的该多个相似度对应判定相应合同条款的风险性。在一个实施例中,服务器针对目标合同文本所对应的每个法审点,分别执行上述根据法审点所对应的预设条款语义向量对相应合同条款的风险性进行判定的相关步骤。S210,根据各个相似度按照预设确定方式对应确定目标相似度。其中,目标相似度是指根据计算所得的多个相似度对应确定的相似度。目标相似度具体可以是计算所得的多个相似度中表示相似程度最高的相似度,也即将多个相似度中的最大相似度确定为目标相似度。预设确定方式是预先设定的用于根据多个相似度对应确定目标相似度的方式,比如将多个相似度中数值最大的相似度,或者表示相似程度最高的相似度确定为目标相似度。具体地,服务器将每个目标条款语义向量所对应的相似度分别进行比较,根据比较结果从该多个相似度中筛选最大相似度,将筛选出的最大相似度确定为目标相似度。服务器将该多个相似度进行两两比较,将该两个相似度中数值较大的相似度再与其他相似度进行两两比较,直至从该多个相似度中筛选出数值最大的相似度时停止比较,并将该数值最大的相似度确定为目标相似度。举例说明,假设计算获得的三个相似度分别为70%、80%和96%,该三个相似度中最大的相似度为96%,则将96%确定为目标相似度。在一个实施例中,服务器计算获得每个目标条款语义向量所对应的相似度时,根据相似度对应确定相应目标条款语义向量所对应的相似级别,将相似级别最高的相似度确定为目标相似度。相似级别是表示相似程度的级别,比如A级、B级或C级等,A级表示相似程度最高,B级次之,依此类推,级别排序越往后表示相似程度越低。在一个实施例中,服务器根据目标相似度从目标合同文本中定位出与预设合同条款相匹配的合同条款时,服务器根据该预设合同条款所对应的预设正则表达式,对应确定与该预设合同条款相匹配的合同条款是否符合通用表述方式,即确定该合同条款是否符合法律表述要求。S212,当目标相似度达到预设相似度阈值时,将目标相似度对应的合同条款确定为无风险条款。其中,预设相似度阈值是预先设定的用于与目标相似度进行比较,以对相应合同条款的风险性进行判定的相似度阈值。预设相似度阈值是判定合同条款是否为无风险条款的依据。预设相似度阈值可根据实际情况自定义,比如95%。无风险条款是指相应合同条款为符合法律表述要求的条款,也即表示相应合同条款是按照通用表述方式进行表述的条款。具体地,服务器将所确定的目标相似度与预设相似度阈值进行比较,当目标相似度达到预设相似度阈值时,将目标合同文本中与该目标相似度对应的合同条款确定为无风险条款。在一个实施例中,对于目标合同文本对应的多个法审点中的每个法审点,服务器按照上述方式依次判定目标合同文本中与法审点对应的合同条款是否为无风险条款。当判定每个法审点对应的合同条款均为无风险条款时,则表示相应的目标合同文本无风险,服务器判定目标合同文本的审核通过。上述合同审核方法,对于所获取到的目标合同文本中的每项合同条款,通过已训练的第一连续词袋模型预测获得相应的目标条款语义向量。获取预存储的预设条款语义向量,自动计算该预设条款语义向量与每个目标条款语义向量之间的相似度,根据各个相似度对应确定目标相似度,当目标相似度达到预设相似度阈值时,则判定相应的合同条款为无风险条款。借助于第一连续词袋模型分别确定每项合同条款所对应的目标条款语义向量,提高了处理效率,根据计算的相似度定位合同条款,并对应判断该合同条款是否存在风险,进而实现对合同的审核,提高了审核效率。在一个实施例中,步骤S204包括:确定目标合同文本中的每项合同条款所对应的条款标识;对于每项合同条款,通过已训练的第一连续词袋模型,根据合同条款对应的条款标识和组成合同条款的各个词所对应的初始词向量,获得相应的目标条款语义向量。其中,条款标识用于唯一标识目标合同文本中的合同条款。条款标识可以是由数字、字母和符号等字符中的至少一种组成的字符串,比如6。条款标识具体可以是合同条款在目标合同文本中的排序序号。换而言之,按照合同条款在目标合同文本中的先后顺序确定各个合同条款的排序序号,将所确定的排序序号确定为合同条款的条款标识。条款标识也可以是根据目标合同文本中的各个合同条款对应确定的、用于唯一标识该目标合同文本中的每个合同条款的标识。不同目标合同文本中的合同条款所对应的条款标识可以相同也可以不同。具体地,对于所获取到的目标合同文本中的每项合同条款,服务器对应确定与该合同条款相对应的条款标识,通过预先训练好的第一连续词袋模型,根据所确定的该条款标识和组成该合同条款各个词所对应的初始词向量,对应确定与该合同条款对应的目标条款语义向量。服务器针对目标合同文本中的每项合同条款,分别执行上述确定与合同条款对应的目标条款语义向量的相关步骤,以分别获得每个合同条款所对应的目标条款语义向量。在一个实施例中,服务器按照预设分词方式分别对每项合同条款进行分词处理,获得组成该合同条款的各个词,对应获取该各个词所对应的初始词向量。在一个实施例中,服务器获取目标合同文本时,对应获取该目标合同文本中的每项合同条款所对应的条款标识。在一个实施例中,服务器根据初始合同文本确定相应的目标合同文本时,对应确定该目标合同文本中的每项合同条款所对应的条款标识。上述实施例中,借助于已训练的第一连续词袋模型,根据合同条款对应的条款标识和相应的多个初始词向量,对应确定目标条款语义向量,提高了目标条款语义向量的确定效率,从而提高了审核效率。在一个实施例中,对于每项合同条款,通过已训练的第一连续词袋模型,根据合同条款对应的条款标识和组成合同条款的各个词所对应的初始词向量,获得相应的目标条款语义向量,包括:通过已训练的第二连续词袋模型,分别对每项合同条款所对应的条款标识进行预测,获得相应的条款初始向量;对于每项合同条款,通过已训练的第一连续词袋模型,根据合同条款对应的条款初始向量和组成合同条款的各个词所对应的初始词向量,获得相应的目标条款语义向量。其中,第二连续词袋模型是预先设定的根据预先获取的训练样本集进行模型训练获得的、能够用于根据已知的条款标识预测未知的条款初始向量的模型。条款初始向量是指通过第二连续词袋模型预测获得的、与条款标识对应的初始向量。条款初始向量具体可以是指根据条款标识获得的、与相应合同条款对应的初始语义向量。具体地,服务器将目标合同文本中的每项合同条款所对应的条款标识,分别输入预先训练好的第二连续词袋模型进行预测,分别获得每个条款标识对应的条款初始向量,从而获得每项合同条款所对应的条款初始向量。对于目标合同文本中的每项合同条款,服务器将该合同条款所对应的条款初始向量,与组成该合同条款的各个词所对应的初始词向量作为输入特征,输入预先训练好的第一连续词袋模型进行预测,获得与该合同条款对应的目标条款语义向量。服务器针对目标合同文本中的每项合同条款,分别执行上述确定相应目标条款语义向量的相关步骤,获得每项合同条款所对应的目标条款语义向量。在一个实施例中,服务器通过已训练的第二连续词袋模型,分别对组成合同条款的各个词进行预测,获得每个词对应的初始词向量。上述实施例中,通过第二连续词袋模型预测获得条款标识对应的条款初始向量,并通过第一连续词袋模型根据该条款初始向量和相应的多个初始词向量,预测获得相应的目标条款语义向量,提高了预测效率,从而提高了审核效率。在一个实施例中,步骤S204包括:通过已训练的第一连续词袋模型,分别对目标合同文本中的每项合同条款进行预测,获得相应的条款语义向量;对于每项合同条款,根据组成合同条款的各个词所对应的初始词向量,分别确定相应的平均词向量和最大词向量;将平均词向量、最大词向量和相应的条款语义向量进行合并,获得每项合同条款所对应的目标条款语义向量。其中,平均词向量是指将多个词各自对应的初始词向量在各个维度上分别求平均,根据该各个维度上的平均值对应获得的词向量。最大词向量是指根据多个词各自对应的初始词向量分别确定各个维度上的最大值,根据该各个维度上的最大值对应确定的词向量。可以理解的是,平均词向量、最大词向量和相应的条款语义向量维数相同。具体地,对于目标合同文本中的每项合同条款,服务器通过预先训练好的第一连续词袋模型分别进行预测,获得与每项合同条款对应的条款语义向量。对于每项合同条款,服务器将组成该合同条款的各个词所对应的初始词向量在各个维度上分别求平均值,将各个维度上的平均值所构成的词向量确定为与相应合同条款对应的平均词向量。类似地,对于每项合同条款,服务器将组成该合同条款的各个词所对应的初始词向量在各个维度上分别求最大值,将各个维度上的最大值所构成的词向量确定为与相应合同条款对应的最大词向量。进一步地,服务器将与合同条款对应的条款语义向量、平均词向量和最大词向量,按照预设合并方式进行合并,获得与该合同条款对应的目标条款语义向量。对于目标合同文本中的每项合同条款,服务器按照上述方式分别确定相应的目标条款语义向量。预设合并方式具体可以是将条款语义向量、平均词向量和最大词向量按照预设顺序依次进行拼接,比如可以将该三个低维向量按照首尾拼接的方式拼接成高维向量,或者将该三个向量拼接成相应的矩阵。举例说明,假设合同条款对应的条款语义向量为x=[x1,x2,x3],该合同条款由A和B两个词组成,词A对应的初始词向量为a=[a1,a2,a3],词A对应的初始词向量为b=[b1,b2,b3]。其中,a1≥b1,a2≥b2,a3b3。按照上述方式对应确定的平均词向量为最大词向量为z=[a1,a2,b3]。通过向量合并获得的目标条款语义向量为可以理解的是,按照合并方式或合并顺序的不同,可对应获得的不同的目标条款语义向量。上述实施例中,将合同条款所对应的条款语义向量、平均词向量和最大词向量合自动并成相应的目标条款语义向量,并根据该目标条款语义向量对相应的合同条款进行审核,提高了审核效率和准确性。在一个实施例中,步骤S202之后,上述合同审核方法还包括:对目标合同文本进行预处理,获得合同文本语料库;通过已训练的第二连续词袋模型,分别对合同文本语料库中的每个词进行预测,获得相应的初始词向量。其中,预处理包括分词处理和去停用词处理,停用词是指没有实质性语义的词,如“的”。合同文本语料库是指对目标合同文本进行预处理时对应获得的、由该目标合同文本中的各个词构成的语料库。初始词向量是指通过第二连续词袋模型预测获得的、与词对应的语义向量。具体地,服务器对所获取到的目标合同文本进行分词处理,获得组成该目标合同文本的各个词,并对该各个词进行去停用词处理,根据去停用词后的各个词获得相应的合同文本语料库。对于该合同文本语料库中的每个词,服务器通过已训练的第二连续词袋模型分别进行预测,获得每个词对应的初始词向量。在一个实施例中,服务器对所获取到的合同文本语料库中的各个词,分别采用连续词袋模型进行训练,当训练完成时,获得每个词对应的初始词向量,以及已训练的第二连续词袋模型。上述实施例中,通过第二连续词袋模型预测目标合同文本中的各个词对应的初始词向量,提高了获取效率,从而提高了合同的审核效率。在一个实施例中,第一连续词袋模型的训练步骤包括:获取预设合同文本;通过已训练的第二连续词袋模型,分别对预设合同文本中的每项预设合同条款所对应的条款标识进行预测,获得相应的预设条款初始向量;根据第二连续词袋模型的各个权重参数,对应初始化第一连续词袋模型的各个权重参数;根据每项预设合同条款对应的预设条款初始向量,以及组成预设合同条款的各个词所对应的预设初始词向量,对初始化的第一连续词袋模型进行训练获得已训练的第一连续词袋模型。具体地,服务器获取多个预设合同文本,分别确定每个预设合同文本中的各项预设合同条款所对应的条款标识,通过预先训练好的第二连续词袋模型分别对每个条款标识进行预测,获得每个预设合同文本中的各项预设合同条款所对应的预设条款初始向量。服务器根据第二连续词袋模型的各个权重参数,对应初始化第一连续词袋模型的各个权重参数,获得初始化的第一连续词袋模型。进一步地,对于每项预设合同条款中的每个词,服务器将该预设合同条款对应的预设条款初始向量和该词的邻接词所对应的初始词向量作为输入特征,输入初始化的第一连续词袋模型进行预测,获得该词对应的当前词向量和该预设合同条款对应的当前条款语义向量。服务器根据预测获得的当前词向量和当前条款语义向量,按照上述方式预测该预设合同条款中其他词对应的当前词向量和该预设合同条款所对应的当前条款语义向量。换而言之,服务器按照上述方式预测预设合同条款中的每个词所对应的当前词向量时,对应更新该预设合同条款所对应的当前条款语义向量。当按照上述方式分别预测获得该预设合同条款中的每个词所对应的当前词向量时,服务器停止针对该预设合同条款的训练过程,并将最后预测获得的当前条款语义向量,确定为该预设合同条款所对应的预设条款语义向量。服务器按照上述方法对该多个预设合同文本中的每项预设合同条款分别进行训练。当该多个预设合同文本中的每项预设合同条款均训练完成时,获得已训练的第一连续词袋模型。在一个实施例中,第一连续词袋模型的上述训练过程中涉及的机器学习算法具体可以是Doc2vec。在一个实施例中,第一连续词袋模型的训练步骤还包括:对于所获得的多个预设合同文本中的每项预设合同条款,服务器通过已训练的第二连续词袋模型,分别对组成每项预设合同条款的各个词进行预测,获得每个词所对应的初始词向量。上述实施例中,根据训练样本集进行模型训练,以通过训练获得的第一连续词袋模型对合同条款进行预测,提高了预测效率,从而提高了审核效率。在一个实施例中,第二连续词袋模型的训练步骤包括:获取候选合同文本;对候选合同文本进行预处理,获得相应的候选合同文本语料库;根据候选合同文本语料库对初始化的第二连续词袋模型进行训练;当符合预设条件时停止训练,获得已训练的第二连续词袋模型。具体地,服务器从本地或用于存储合同文本的服务器获取多个候选合同文本,并对该多个候选合同文本分别进行分词处理和去停词处理,获得相应的候选合同文本语料库。服务器通过初始化的第二连续词袋模型,对该候选文本合同语料库中的每个词进行训练。当该候选文本合同语料库中的每个词均训练完成时,获得已训练的第二连续词袋模型。在一个实施例中,在第二连续词袋模型的上述训练过程中,当该第二连续词袋模型的各个权重参数收敛时,停止训练,获得已训练的第二连续词袋模型。其中,权重参数收敛具体可以是权重参数趋于稳定。在一个实施例中,第二连续词袋模型的上述训练过程中涉及的机器学习算法具体可以是Doc2vec。在一个实施例中,当按照上述训练方式训练获得已训练的第二连续词袋模型时,对应获得该候选文本合同语料库中的每个词所对应的初始词向量。上述实施例中,根据训练样本集按照预设训练方式对第二连续词袋模型进行训练,以通过该第二连续词袋模型预测词所对应的初始词向量,提高了预测效率,从而提高了合同审核效率。如图3所示,在一个实施例中,提供了一种合同审核方法,该方法具体包括以下步骤:S302,获取目标合同文本。S304,对目标合同文本进行预处理,获得合同文本语料库。S306,通过已训练的第二连续词袋模型,分别对合同文本语料库中的每个词进行预测,获得相应的初始词向量。S308,确定目标合同文本中的每项合同条款所对应的条款标识。S310,通过已训练的第二连续词袋模型,分别对每项合同条款所对应的条款标识进行预测,获得相应的条款初始向量。S312,对于每项合同条款,通过已训练的第一连续词袋模型,根据合同条款对应的条款初始向量和组成合同条款的各个词所对应的初始词向量,获得相应的目标条款语义向量。S314,通过已训练的第一连续词袋模型,分别对目标合同文本中的每项合同条款进行预测,获得相应的条款语义向量。S316,对于每项合同条款,根据组成合同条款的各个词所对应的初始词向量,分别确定相应的平均词向量和最大词向量。S318,将平均词向量、最大词向量和相应的条款语义向量进行合并,获得每项合同条款所对应的目标条款语义向量。S320,获取预存储的预设条款语义向量。S322,计算每个目标条款语义向量与预设条款语义向量之间的相似度。S324,根据各个相似度按照预设确定方式对应确定目标相似度。S326,当目标相似度达到预设相似度阈值时,将目标相似度对应的合同条款确定为无风险条款。上述实施例中,借助于第一连续词袋模型和第二连续词袋模型,分别判断目标合同文本中的每项合同条款的所对应的风险性,从而实现对目标合同文本的审核,提高了审核的效率和准确性。应该理解的是,虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。在一个实施例中,如图4所示,提供了一种合同审核装置400,包括:文本获取模块402、预测模块404、向量获取模块406、计算模块408、确定模块410和判定模块412,其中:文本获取模块402,用于获取目标合同文本。预测模块404,用于通过已训练的第一连续词袋模型,分别对目标合同文本中的每项合同条款进行预测,获得相应的目标条款语义向量。向量获取模块406,用于获取预存储的预设条款语义向量。计算模块408,用于计算每个目标条款语义向量与预设条款语义向量之间的相似度。确定模块410,用于根据各个相似度按照预设确定方式对应确定目标相似度。判定模块412,用于当目标相似度达到预设相似度阈值时,将目标相似度对应的合同条款判定为无风险条款。在一个实施例中,预测模块404,还用于确定目标合同文本中的每项合同条款所对应的条款标识;对于每项合同条款,通过已训练的第一连续词袋模型,根据合同条款对应的条款标识和组成合同条款的各个词所对应的初始词向量,获得相应的目标条款语义向量。在一个实施例中,预测模块404,还用于通过已训练的第二连续词袋模型,分别对每项合同条款所对应的条款标识进行预测,获得相应的条款初始向量;对于每项合同条款,通过已训练的第一连续词袋模型,根据合同条款对应的条款初始向量和组成合同条款的各个词所对应的初始词向量,获得相应的目标条款语义向量。在一个实施例中,预测模块404,还用于通过已训练的第一连续词袋模型,分别对目标合同文本中的每项合同条款进行预测,获得相应的条款语义向量;对于每项合同条款,根据组成合同条款的各个词所对应的初始词向量,分别确定相应的平均词向量和最大词向量;将平均词向量、最大词向量和相应的条款语义向量进行合并,获得每项合同条款所对应的目标条款语义向量。在一个实施例中,预测模块404,还用于对目标合同文本进行预处理,获得合同文本语料库;通过已训练的第二连续词袋模型,分别对合同文本语料库中的每个词进行预测,获得相应的初始词向量。在一个实施例中,如图5所示,上述合同审核装置400,还包括:模型训练模块414;模型训练模块414,用于获取预设合同文本;通过已训练的第二连续词袋模型,分别对预设合同文本中的每项预设合同条款所对应的条款标识进行预测,获得相应的预设条款初始向量;根据第二连续词袋模型的各个权重参数,对应初始化第一连续词袋模型的各个权重参数;根据每项预设合同条款对应的预设条款初始向量,以及组成预设合同条款的各个词所对应的预设初始词向量,对初始化的第一连续词袋模型进行训练获得已训练的第一连续词袋模型。在一个实施例中,模型训练模块414,还用于获取候选合同文本;对候选合同文本进行预处理,获得相应的候选合同文本语料库;根据候选合同文本语料库对初始化的第二连续词袋模型进行训练;当符合预设条件时停止训练,获得已训练的第二连续词袋模型。关于合同审核装置的具体限定可以参见上文中对于合同审核方法的限定,在此不再赘述。上述合同审核装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储目标合同文本、预设条款语义向量和预设相似度阈值。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种合同审核方法。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述各个实施例中的合同审核方法的步骤。在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各个实施例中的合同审核方法的步骤。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和或易失性存储器。非易失性存储器可包括只读存储器ROM、可编程ROMPROM、电可编程ROMEPROM、电可擦除可编程ROMEEPROM或闪存。易失性存储器可包括随机存取存储器RAM或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAMSRAM、动态RAMDRAM、同步DRAMSDRAM、双数据率SDRAMDDRSDRAM、增强型SDRAMESDRAM、同步链路SynchlinkDRAMSLDRAM、存储器总线Rambus直接RAMRDRAM、直接存储器总线动态RAMDRDRAM、以及存储器总线动态RAMRDRAM等。以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

权利要求:1.一种合同审核方法,所述方法包括:获取目标合同文本;通过已训练的第一连续词袋模型,分别对所述目标合同文本中的每项合同条款进行预测,获得相应的目标条款语义向量;获取预存储的预设条款语义向量;计算每个所述目标条款语义向量与所述预设条款语义向量之间的相似度;根据各个所述相似度按照预设确定方式对应确定目标相似度;当所述目标相似度达到预设相似度阈值时,将所述目标相似度对应的合同条款确定为无风险条款。2.根据权利要求1所述的方法,其特征在于,所述通过已训练的第一连续词袋模型,分别对所述目标合同文本中的每项合同条款进行预测,获得相应的目标条款语义向量,包括:确定所述目标合同文本中的每项合同条款所对应的条款标识;对于每项所述合同条款,通过已训练的第一连续词袋模型,根据所述合同条款对应的所述条款标识和组成所述合同条款的各个词所对应的初始词向量,获得相应的目标条款语义向量。3.根据权利要求2所述的方法,其特征在于,所述对于每项所述合同条款,通过已训练的第一连续词袋模型,根据所述合同条款对应的所述条款标识和组成所述合同条款的各个词所对应的初始词向量,获得相应的目标条款语义向量,包括:通过已训练的第二连续词袋模型,分别对每项所述合同条款所对应的所述条款标识进行预测,获得相应的条款初始向量;对于每项所述合同条款,通过已训练的第一连续词袋模型,根据所述合同条款对应的所述条款初始向量和组成所述合同条款的各个词所对应的初始词向量,获得相应的目标条款语义向量。4.根据权利要求1所述的方法,其特征在于,所述通过已训练的第一连续词袋模型,分别对所述目标合同文本中的每项合同条款进行预测,获得相应的目标条款语义向量,包括:通过已训练的第一连续词袋模型,分别对所述目标合同文本中的每项合同条款进行预测,获得相应的条款语义向量;对于每项所述合同条款,根据组成所述合同条款的各个词所对应的初始词向量,分别确定相应的平均词向量和最大词向量;将所述平均词向量、所述最大词向量和相应的所述条款语义向量进行合并,获得每项所述合同条款所对应的目标条款语义向量。5.根据权利要求2至4任意一项所述的方法,其特征在于,所述获取目标合同文本之后,所述方法还包括:对所述目标合同文本进行预处理,获得合同文本语料库;通过已训练的第二连续词袋模型,分别对所述合同文本语料库中的每个词进行预测,获得相应的初始词向量。6.根据权利要求1至4任意一项所述的方法,其特征在于,所述第一连续词袋模型的训练步骤包括:获取预设合同文本;通过已训练的第二连续词袋模型,分别对所述预设合同文本中的每项预设合同条款所对应的条款标识进行预测,获得相应的预设条款初始向量;根据所述第二连续词袋模型的各个权重参数,对应初始化第一连续词袋模型的各个权重参数;根据每项所述预设合同条款对应的所述预设条款初始向量,以及组成所述预设合同条款的各个词所对应的预设初始词向量,对初始化的第一连续词袋模型进行训练获得已训练的第一连续词袋模型。7.根据权利要求1至4任意一项所述的方法,其特征在于,所述第二连续词袋模型的训练步骤包括:获取候选合同文本;对所述候选合同文本进行预处理,获得相应的候选合同文本语料库;根据所述候选合同文本语料库对初始化的第二连续词袋模型进行训练;当符合预设条件时停止训练,获得已训练的第二连续词袋模型。8.一种合同审核装置,其特征在于,所述装置包括:文本获取模块,用于获取目标合同文本;预测模块,用于通过已训练的第一连续词袋模型,分别对所述目标合同文本中的每项合同条款进行预测,获得相应的目标条款语义向量;向量获取模块,用于获取预存储的预设条款语义向量;计算模块,用于计算每个所述目标条款语义向量与所述预设条款语义向量之间的相似度;确定模块,用于根据各个所述相似度按照预设确定方式对应确定目标相似度;判定模块,用于当所述目标相似度达到预设相似度阈值时,将所述目标相似度对应的合同条款判定为无风险条款。9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

百度查询: 平安科技(深圳)有限公司 合同审核方法、装置、计算机设备和存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。