买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:平安科技(深圳)有限公司
摘要:本申请涉及大数据技术领域,提供了一种舆情关系识别方法、装置、计算机设备和存储介质。方法包括:获取包含待识别舆情关系的目标文本,将目标文本输入预设命名实体识别模型,得到目标文本中包含的多个命名实体,根据多个命名实体对目标文本进行句法分析,识别目标文本的核心谓语,遍历预设的舆情关系聚类词库,确定核心谓语所属的舆情关系类别,根据舆情关系类别和多个命名实体,准确识别出目标文本中包含的命名实体间的舆情关系。
主权项:1.一种舆情关系识别方法,所述方法包括:获取包含待识别舆情关系的目标文本;将所述目标文本输入预设命名实体识别模型,得到所述目标文本中包含的多个命名实体;根据所述多个命名实体,对所述目标文本中进行命名实体标注;获取所述目标文本携带的领域类别标识,根据所述领域类别标识,查找对应领域的动名词组库;遍历所述对应领域的动名词组库,对所述目标文本的进行语句组成成分划分;根据所述目标文本的语句组成成分以及所述目标文本的命名实体标注结果,确定所述目标文本的核心谓语;所述核心谓语是指将多个命名实体联系起来的谓语;遍历预设的舆情关系聚类词库,确定所述核心谓语所属的舆情关系类别;根据所述舆情关系类别和所述多个命名实体,确定所述多个命名实体间的舆情关系。
全文数据:舆情关系识别方法、装置、计算机设备和存储介质技术领域本申请涉及大数据技术领域,特别是涉及一种舆情关系识别方法、装置、计算机设备和存储介质。背景技术随着信息技术的发展,信息的传播速度越来越快,信息量也越来越大。例如企业的公告、新闻、裁判文书等,这些信息对企业决策者或者管理者而言,有助于了解企业或行业动态、判断风险,以及预测前景等。传统的信息数据分析方法,无法准确识别数据信息中多个企业或行业之间的关系动态,不利于进行舆情分析。发明内容基于此,有必要针对上述技术问题,提供一种能够准确识别命名实体间舆情关系的舆情关系识别方法、装置、计算机设备和存储介质。一种舆情关系识别方法,方法包括:获取包含待识别舆情关系的目标文本;将所述目标文本输入预设命名实体识别模型,得到所述目标文本中包含的多个命名实体;根据所述多个命名实体对所述目标文本进行句法分析,识别所述目标文本的核心谓语;遍历预设的舆情关系聚类词库,确定所述核心谓语所属的舆情关系类别;根据所述舆情关系类别和所述多个命名实体,确定所述多个命名实体间的舆情关系。在其中一个实施例中,所述将所述目标文本输入预设命名实体识别模型,得到所述目标文本中包含的多个命名实体包括:将所述目标文本输入预设命名实体识别模型,得到所述命名实体初步识别结果;基于预设实体命名数据库,从所述命名实体初步识别结果中筛选出多个命名实体。在其中一个实施例中,所述根据所述多个命名实体对所述目标文本进行句法分析,识别所述目标文本的核心谓语包括:根据所述多个命名实体,对所述目标文本中进行命名实体标注;获取所述目标文本携带的领域类别标识,根据所述领域类别标识,查找对应领域的动名词组库;遍历所述对应领域的动名词组库,对所述目标文本的进行语句组成成分划分;根据所述目标文本的语句组成成分以及所述目标文本的命名实体标注结果,确定所述目标文本的核心谓语。在其中一个实施例中,所述遍历预设的舆情关系聚类词库,确定所述核心谓语所属的舆情关系类别之前,还包括:获取设定时间范围内发布的文本数据集合;筛选所述文本数据集合包含相同命名实体组合的多个文本,分别提取所述多个文本中的核心谓语;将提取的多个所述核心谓语进行聚类处理,构建所述预设的舆情关系聚类词库。在其中一个实施例中,所述根据所述舆情关系类别和所述多个命名实体,确定所述多个命名实体间的舆情关系之后,还包括:构建包含所述多个命名实体,以及所述多个命名实体间的舆情关系的多元数据组;将所述多元数据组更新至预设的舆情关系数据库,所述预设的舆情关系数据库中存储有多个包含命名实体组合信息及对应命名实体组合间舆情关系信息的多元数据组。在其中一个实施例中,所述将所述多元数据组更新至预设的舆情关系数据库之后,还包括:接收目标命名实体查询请求,获取所述目标命名实体查询请求携带的已知命名实体信息和已知舆情关系信息;所述已知命名实体信息用于描述多元数据组的命名实体组合信息中的已知命名实体,所述已知舆情关系信息用于描述多元数据组中命名实体组合间的舆情关系信息;遍历所述预设的舆情关系数据库,查找包含所述已知命名实体信息和已知舆情关系信息的多元数据组;根据查找到的所述多元数据组,确定所述多元数据组的命名实体组合信息中的目标命名实体信息。在其中一个实施例中,所述将所述多元数据组更新至预设的舆情关系数据库之后,还包括:接收舆情关系查询请求,获取所述舆情关系查询请求携带的已知命名实体组合信息;遍历所述预设的舆情关系数据库,查找包含所述已知命名实体组合的多元数据组;根据查找到的所述多元数据组,确定所述已知命名实体组合间的舆情关系信息。一种舆情关系识别装置,所述装置包括:目标文本获取模块,用于获取包含待识别舆情关系的目标文本;命名实体识别模块,用于将所述目标文本输入预设命名实体识别模型,得到所述目标文本中包含的多个命名实体;核心谓语识别模块,用于根据所述多个命名实体对所述目标文本进行句法分析,识别所述目标文本的核心谓语;舆情关系类别确定模块,用于遍历预设的舆情关系聚类词库,确定所述核心谓语所属的舆情关系类别;舆情关系确定模块,用于根据所述舆情关系类别和所述多个命名实体,确定所述多个命名实体间的舆情关系。一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:获取包含待识别舆情关系的目标文本;将所述目标文本输入预设命名实体识别模型,得到所述目标文本中包含的多个命名实体;根据所述多个命名实体对所述目标文本进行句法分析,识别所述目标文本的核心谓语;遍历预设的舆情关系聚类词库,确定所述核心谓语所属的舆情关系类别;根据所述舆情关系类别和所述多个命名实体,确定所述多个命名实体间的舆情关系。一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取包含待识别舆情关系的目标文本;将所述目标文本输入预设命名实体识别模型,得到所述目标文本中包含的多个命名实体;根据所述多个命名实体对所述目标文本进行句法分析,识别所述目标文本的核心谓语;遍历预设的舆情关系聚类词库,确定所述核心谓语所属的舆情关系类别;根据所述舆情关系类别和所述多个命名实体,确定所述多个命名实体间的舆情关系。上述舆情关系识别方法、装置、计算机设备和存储介质,通过获取包含待识别舆情关系的目标文本,将目标文本输入预设命名实体识别模型,得到多个命名实体,确定目标文本中舆情关系的发生对象,根据多个命名实体,利用句法结构对目标文本进行句法分析,识别目标文本的核心谓语,通过命名实体和核心谓语的识别将发生舆情关系的多个命名实体联系起来,缩减了目标文本内容且提炼出目标文本的核心词汇,通过遍历预设的舆情关系聚类词库,确定核心谓语所属的舆情关系类别,利用舆情关系聚类词库,确定该核心谓语所属的舆情类别,便于根据舆情类别确定多个命名实体间的舆情关系,准确识别出目标文本中包含的命名实体间的舆情关系。附图说明图1为一个实施例中舆情关系识别方法的应用场景图;图2为一个实施例中舆情关系识别方法的流程示意图;图3为另一个实施例中舆情关系识别方法的流程示意图;图4为另一个实施例中舆情关系识别方法的流程示意图;图5为另一个实施例中舆情关系识别方法的流程示意图;图6为一个实施例中舆情关系识别装置的结构框图;图7为一个实施例中计算机设备的内部结构图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。本申请提供的舆情关系识别方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。服务器104获取包含待识别舆情关系的目标文本,将目标文本输入预设命名实体识别模型,得到目标文本中包含的多个命名实体,根据多个命名实体对目标文本进行句法分析,识别目标文本的核心谓语,通过遍历预设的舆情关系聚类词库,确定核心谓语所属的舆情关系类别,根据舆情关系类别和多个命名实体,确定多个命名实体间的舆情关系并推送至终端102。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。在一个实施例中,如图2所示,提供了一种舆情关系识别方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:步骤S200,获取包含待识别舆情关系的目标文本。舆情关系是指两个或两个以上的命名实体之间的关系,命名实体可以机关、团体、法人、企业等非自然人的实体,目标文本是指包含可能存在2个或2个以上的命名实体,并且需要识别出命名实体间的舆情关系的文本。在实施例中,以金融领域为例,目标文本可以是金融领域相关新闻的标题、导语等。目标文本可以通过人工手动选择,也可以根据设定的选取规则,采用网络爬虫算法获取符合选取规则的文本作为目标文本。步骤S300,将目标文本输入预设命名实体识别模型,得到目标文本中包含的多个命名实体。命名实体识别模型是指用于识别文本中具有特定意义的实体的数据分析模型,预设命名实体识别模型可以是通过大量的样本数据进行训练得到的用于识别机关、团体、法人、企业等命名实体的模型,通过将目标文本进行预处理输入预设命名实体识别模型,通过该预设命名实体识别模型的识别处理,输出识别结果,确定目标文本中包含的多个命名实体。命名实体识别模型可以是Bilstm模型或是CRF模型,还可以是BiLSTM+CRF模型等,在实施例中,预设命名实体识别模型的训练过程包括:获取大量包含已知命名实体的训练样本,对训练样本中的已知命名实体进行标识,将携带有标识的训练样本输入构建的BiLSTM+CRF模型中进行训练,当精确度和召回率等模型评价参数的参数值达到预设的范围时,训练完成的模型即为预设命名实体识别模型。步骤S400,根据多个命名实体对目标文本进行句法分析,识别目标文本的核心谓语。句法分析是指对语句的组成部分及其排列顺序的分析,句法分析包括句式分析组成成分分析,根据识别出的多个命名实体确定构成语句的各基本成分,如主语,谓语,宾语,表语,定语,状语,同位语等,当目标文本包括从句时,可能存在多个谓语,其中核心谓语是指将多个命名实体联系起来的谓语,在实施例中,以包含主句和从句的目标文本为例,当其中一个命名实体出现在主句中时,核心谓语为主句中的谓语,当多个命名实体均出现在同一从句中时,核心谓语为从句中的谓语。步骤S500,遍历预设的舆情关系聚类词库,确定核心谓语所属的舆情关系类别。预设的舆情关系聚类词库是指包含将同一类舆情关系词的进行聚类,得到词汇集合,并由多个不同词汇集合构成的词库,其中,各词汇集合中设置有表征该类舆情关系的特征词,服务器以该核心谓语为目标,遍历预设的舆情关系聚类词库,查找该核心谓语对应的词汇集合,从而根据词汇集合的特征词确定核心谓语所属的舆情关系类别。在实施例中,舆情关系聚类词库可以通过获取表述同类事件的数据样本,对数据样本进行核心谓语提取,提取的谓语一般所表述的是同一件事,因此属于对同一语义的不同表达,并将提取的核心谓语进行聚类处理,即可获得同一类舆情关系词的词汇集合。步骤S600,根据舆情关系类别和多个命名实体,确定多个命名实体间的舆情关系。服务器识别出目标文本包含的多个命名实体,以及命名实体之间的舆情关系类别,可以确定多个命名实体间的舆情关系。当命名实体的个数为2个时,命名实体间的舆情关系可以表述为命名实体A-核心谓语-命名实体B的三元组数据形式,并将识别出的三元组数据发送至终端。上述舆情关系识别方法,通过获取包含待识别舆情关系的目标文本,将目标文本输入预设命名实体识别模型,得到多个命名实体,确定目标文本中舆情关系的发生对象,根据多个命名实体,利用句法结构对目标文本进行句法分析,识别目标文本的核心谓语,通过命名实体和核心谓语的识别将发生舆情关系的多个命名实体联系起来,缩减了目标文本内容且提炼出目标文本的核心词汇,通过遍历预设的舆情关系聚类词库,确定核心谓语所属的舆情关系类别,利用舆情关系聚类词库,确定该核心谓语所属的舆情类别,便于根据舆情类别确定多个命名实体间的舆情关系,准确识别出目标文本中包含的命名实体间的舆情关系。在一个实施例中,如图3所示,步骤S300,将目标文本输入预设命名实体识别模型,得到目标文本中包含的多个命名实体包括:步骤S320,将目标文本输入预设命名实体识别模型,得到命名实体初步识别结果。步骤S340,基于预设实体命名数据库,从命名实体初步识别结果中筛选出多个命名实体。预设实体命名数据库是指包含有已知机关、团体、法人、企业等非自然人的实体的全称和简称的数据库,预设实体命名数据库可以通过获取工商信息等数据来构建。通过预设命名实体识别模型,对目标文本中的命名实体进行识别,可初步识别得到多个命名实体,通过识别得到的多个命名实体,与预设实体命名数据库中的全简称数据相匹配,过滤初步识别结果中的匹配失败的无效数据,得到有效的多个命名实体,其中,命名实体的数量可以为两个或两个以上。在实施例中,还可以根据需要通过配置预设实体命名数据库,来对指定的命名实体进行筛选。在一个实施例中,步骤S400,根据多个命名实体对目标文本进行句法分析,识别目标文本的核心谓语包括:步骤S420,根据多个命名实体,对目标文本中进行命名实体标注;步骤S430,获取目标文本携带的领域类别标识,根据领域类别标识,查找对应领域的动名词组库。步骤S440,遍历对应领域的动名词组库,对目标文本的进行语句组成成分划分。步骤S450,根据目标文本的语句组成成分以及目标文本的命名实体标注结果,确定目标文本的核心谓语。领域类别标识是指用于表征该目标文本所属的行业领域的标识,领域类别标识是在目标文本的获取过程中根据数据来源添加到目标文本中的,通过对目标文本进行数据来源解析,可以获取到领域类别标识。领域类别包括金融,互联网、教育、医疗等。不同的领域类别都涉及一些领域专有的词汇,例如“入股”、“接盘”、“上市”、“担任…保荐机构”、“成为…股东”等均为金融行业的专有动名词组词汇,根据领域已有的专有词汇,可以预先构建各领域的动名词组库。根据目标语句的所属领域,遍历该领域对应的动名词组库,划分目标文本的语句组成成分,如主句与从句的划分,主句与从句中各组成成分的划分等。根据预设实体命名识别模型得到的多个命名实体,对目标文本中进行命名实体标注,当其中一个命名实体出现在主句中时,核心谓语为主句中的谓语,当多个命名实体均出现在同一从句中时,核心谓语为从句中的谓语。举个例子“交易完成之后,复星将成为青岛啤酒的第二大股东”,识别出的实体是复星和青岛啤酒,句子的核心谓语就是“成为…股东”。然后,将语句组成成分划分的结果进行语义角色标注,可以得到核心谓语的施动者,语义角色标注是对句子中的核心谓语进行分析,分析句子的其他成分和核心谓语之间的关系,可以用来区别谓语的施动者和受动者。比如担任保荐机构的是招商银行,成为股东的是复星。得到的是句子的一个解析结果,可以表示为一个三元组的形式,比如“复星-成为股东-青岛啤酒”。在一个实施例中,步骤S500,遍历预设的舆情关系聚类词库,确定核心谓语所属的舆情关系类别之前,还包括:步骤S460,获取设定时间范围内发布的文本数据集合。步骤S470,筛选文本数据集合包含相同命名实体组合的多个文本,分别提取多个文本中的核心谓语。步骤S480,将提取的多个核心谓语进行聚类处理,构建预设的舆情关系聚类词库。预设时间内发布的文本数据集合可以是指在设定时间范围内发布的各新闻文本,包含相同命名实体组合的多个文本是指多个文本均包含多个命名实体的组合,且各文本包含的命名实体组合相同。设定时间范围内发布的包含相同命名实体组合的多个文本一般是通过各种表达方式对同一事件的表述,由于语言表述的不同,各文本的核心谓语存在差异,但表述的相同的语义,且各文本具有相同的命名实体,例如,“2018年4月2日,阿里巴巴收购饿了么”,那么在同一时间段同时出现阿里巴巴和饿了么中的文本中,会有很多涉及收购的表述,比如“阿里巴巴成为饿了么大股东”,“阿里巴巴接管饿了么”等,那么我们在收购这个类别下,根据阿里巴巴和饿了么可以提取出多个核心谓语。根据提取的多个文本中的核心谓语,进行聚类处理,构建得到预设的舆情关系聚类词库。再比如“复星66亿股入股青岛啤酒”,“青岛啤酒摆脱外资,为何复星66亿接盘”,“青岛啤酒市值飙升180亿背后:复星入局产品提价,竞争环境严峻”。在这么多的句子中,能解析出各种形式的三元组,如“复星-入股-青岛啤酒”,“复星-接盘-青岛啤酒”,“复星-入局-青岛啤酒”。那么“入股,接盘,入局,成为股东”等这些关系词语是一类的,可以通过聚类处理归为一类名字,比如投资关系。在一个实施例中,如图4所示,步骤S600,根据舆情关系类别和多个命名实体,确定多个命名实体间的舆情关系之后,还包括:步骤S620,构建包含多个命名实体,以及多个命名实体间的舆情关系的多元数据组。步骤S640,将多元数据组更新至预设的舆情关系数据库,预设的舆情关系数据库中存储有多个包含命名实体组合信息及对应命名实体组合间舆情关系信息的多元数据组。多元数据组是指通过多个命名实体间的舆情关系,将多个命名实体联系到一起的关联数据组,多元是指包含的命名实体和关系的总和,比如,2个命名实体及其存在的一种舆情关系构成的数据组为三元数据组,三个命名实体构成的数据组,可以是五元数据组,数据组的元数可以根据存在的舆情关系数量来确定,可以理解,以舆情关系为纽带,一个多元数据组可以拆分为多个三元数据组。多元数据组包含命名实体组合信息及对应命名实体组合间舆情关系信息,在实施例中,服务器根据命名实体间的舆情关系,构建包含多个命名实体的多元数据组,并将多元数据组拆分为多个三元数据组,将三元数据组更新至预设的舆情关系数据库,其中,舆情关系数据库是指预先设置的用于存储多元数据组的数据库,可用于通过数据查找,利用三元数据组中的两个已知信息查找得到另一个未知信息,同理,也可以根据多元数据组中的两个或多个已知信息查找得到其他未知的信息。在一个实施例中,如图4所示,步骤S640,将多元数据组更新至预设的舆情关系数据库之后,还包括:步骤S720,接收目标命名实体查询请求,获取目标命名实体查询请求携带的已知命名实体信息和已知舆情关系信息,已知命名实体信息用于描述多元数据组的命名实体组合信息中的已知命名实体,已知舆情关系信息用于描述多元数据组中命名实体组合间的舆情关系信息。步骤S740,遍历预设的舆情关系数据库,查找包含已知命名实体信息和已知舆情关系信息的多元数据组。步骤S760,根据查找到的多元数据组,确定多元数据组的命名实体组合信息中的目标命名实体信息。目标命名实体查询请求是指在已知其中的一个命名实体的和与该已知的命名实体存在的舆情关系,需要查找与该已知的命名实体存在的舆情关系的具体的命名实体的请求指令。服务器接收目标命名实体查询请求,获取目标命名实体查询请求携带的已知命名实体信息和已知舆情关系信息,遍历预设的舆情关系数据库,查找包含已知命名实信息体和已知舆情关系信息的多元数据组,并将符合查找要求的多元数据组提取出来,从而得到多元数据组的命名实体组合信息中的要查询的目标命名实体。例如,需要查找的是与“青岛啤酒”存在投资关系的企业包括哪些?目标命名实体查询请求中包含的信息有:命名实体A是“青岛啤酒”,命名实体间的核心谓语的聚类关系为“投资关系”,通过遍历预设的舆情关系数据库,查找聚类关系为“投资关系”且其中一个命名实体A是“青岛啤酒”的三元数据组,可以得到与“青岛啤酒”存在投资关系的命名实体B的三元数据组集合,其中三元数据组集合包括A投资B以及B投资A两类。以财经类新闻为例,当查询命名实体A和舆情关系时,能够反馈相关的实体B集合。在其他实施例中,若还可以先确定核心谓语对应的聚类关系为投资关系,投资关系中包含的实体间关系还包括入股,接盘,入局,成为股东等核心谓语,以青岛啤酒和这些核心谓语中的任意一个为目标,采用网络爬虫算法,获取相关的新闻等数据,从而获得与青岛啤酒存在投资关系的命名实体。在一个实施例中,如图5所示,步骤S640,将多元数据组更新至预设的舆情关系数据库之后,还包括:步骤S820,接收舆情关系查询请求,获取舆情关系查询请求携带的已知命名实体组合信息。步骤S840,遍历预设的舆情关系数据库,查找包含已知命名实体组合的多元数据组。步骤S860,根据查找到的多元数据组,确定已知命名实体组合间的舆情关系信息。通过舆情关系查询请求,可以查询两个命名实体之间的多种关系,比如一个时间段内腾讯和阿里的新闻会出现多种关系,比如又是合作一起投一家公司,又是互相竞争。根据舆情关系查询请求,可以获取携带的已知命名实体组合信息,确定待查询的两个命名实体,通过遍历已有的三元数据组。查找同时包含这两个命名实体的三元数据组,从而得到两个命名实体间的多种关系,比如合作、竞争、投资、供应商关系等。通过上述方法,可以便于进行舆情关系的分析,例如“招商证券担任乾景园林首次公开发行A股股票并上市的保荐机构”,那么对于招商银行和乾景园林,可以得到的信息是招商银行帮乾景园林保荐的,并且当识别到乾景园林IPO券商时也可以知道对应的是招商银行。当待分析语句中包含两个命名实体,且其核心谓语为舆情关系聚类词库中的一个时,可以快速确定该命名实体间的关系类别,比如“腾讯入股搜狗”,就可以很容易的把这两个命名实体归为投资类关系。应该理解的是,虽然图2-5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-5中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。在一个实施例中,如图6所示,提供了一种舆情关系识别装置,包括:目标文本获取模块200,用于获取包含待识别舆情关系的目标文本;命名实体识别模块300,用于将目标文本输入预设命名实体识别模型,得到目标文本中包含的多个命名实体;核心谓语识别模块400,用于根据多个命名实体对目标文本进行句法分析,识别目标文本的核心谓语;舆情关系类别确定模块500,用于遍历预设的舆情关系聚类词库,确定核心谓语所属的舆情关系类别;舆情关系确定模块600,用于根据舆情关系类别和多个命名实体,确定多个命名实体间的舆情关系。在一个实施例中,命名实体识别模块300,还用于将目标文本输入预设命名实体识别模型,得到命名实体初步识别结果,基于预设实体命名数据库,从命名实体初步识别结果中筛选出多个命名实体。在一个实施例中,核心谓语识别模块400,还用于根据多个命名实体,对目标文本中进行命名实体标注,获取目标文本携带的领域类别标识,根据领域类别标识,查找对应领域的动名词组库,遍历对应领域的动名词组库,对目标文本的进行语句组成成分划分,根据目标文本的语句组成成分以及目标文本的命名实体标注结果,确定目标文本的核心谓语。在一个实施例中,舆情关系识别装置还包括舆情关系聚类词库构建模块,用于获取设定时间范围内发布的文本数据集合,筛选文本数据集合包含相同命名实体组合的多个文本,分别提取多个文本中的核心谓语,将提取的多个核心谓语进行聚类处理,构建预设的舆情关系聚类词库。在一个实施例中,舆情关系识别装置还包括舆情关系数据库更新模块,用于构建包含多个命名实体,以及多个命名实体间的舆情关系的多元数据组,将多元数据组更新至预设的舆情关系数据库,预设的舆情关系数据库中存储有多个包含命名实体组合信息及对应命名实体组合间舆情关系信息的多元数据组。在一个实施例中,舆情关系识别装置还包括目标命名实体查询模块,用于接收目标命名实体查询请求,获取目标命名实体查询请求携带的已知命名实体信息和已知舆情关系信息,已知命名实体信息用于描述多元数据组中命名实体组合信息中的已知命名实体,已知舆情关系信息用于描述多元数据组中命名实体组合间的舆情关系信息,遍历预设的舆情关系数据库,查找包含已知命名实体信息和已知舆情关系信息的多元数据组,根据查找到的多元数据组,确定多元数据组的命名实体组合信息中的目标命名实体信息。在一个实施例中,舆情关系识别装置还包括舆情关系查询模块,用于接收舆情关系查询请求,获取舆情关系查询请求携带的已知命名实体组合信息,遍历预设的舆情关系数据库,查找包含已知命名实体组合的多元数据组,根据查找到的多元数据组,确定已知命名实体组合间的舆情关系信息。上述舆情关系识别装置,通过获取包含待识别舆情关系的目标文本,将目标文本输入预设命名实体识别模型,得到多个命名实体,确定目标文本中舆情关系的发生对象,根据多个命名实体,利用句法结构对目标文本进行句法分析,识别目标文本的核心谓语,通过命名实体和核心谓语的识别将发生舆情关系的多个命名实体联系起来,缩减了目标文本内容且提炼出目标文本的核心词汇,通过遍历预设的舆情关系聚类词库,确定核心谓语所属的舆情关系类别,利用舆情关系聚类词库,确定该核心谓语所属的舆情类别,便于根据舆情类别确定多个命名实体间的舆情关系,准确识别出目标文本中包含的命名实体间的舆情关系。关于舆情关系识别装置的具体限定可以参见上文中对于舆情关系识别方法的限定,在此不再赘述。上述舆情关系识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种舆情关系识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取包含待识别舆情关系的目标文本;将目标文本输入预设命名实体识别模型,得到目标文本中包含的多个命名实体;根据多个命名实体对目标文本进行句法分析,识别目标文本的核心谓语;遍历预设的舆情关系聚类词库,确定核心谓语所属的舆情关系类别;根据舆情关系类别和多个命名实体,确定多个命名实体间的舆情关系。在一个实施例中,处理器执行计算机程序时还实现以下步骤:将目标文本输入预设命名实体识别模型,得到命名实体初步识别结果;基于预设实体命名数据库,从命名实体初步识别结果中筛选出多个命名实体。在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据多个命名实体,对目标文本中进行命名实体标注;获取目标文本携带的领域类别标识,根据领域类别标识,查找对应领域的动名词组库;遍历对应领域的动名词组库,对目标文本的进行语句组成成分划分;根据目标文本的语句组成成分以及目标文本的命名实体标注结果,确定目标文本的核心谓语。在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取设定时间范围内发布的文本数据集合;筛选文本数据集合包含相同命名实体组合的多个文本,分别提取多个文本中的核心谓语;将提取的多个核心谓语进行聚类处理,构建预设的舆情关系聚类词库。在一个实施例中,处理器执行计算机程序时还实现以下步骤:构建包含多个命名实体,以及多个命名实体间的舆情关系的多元数据组;将多元数据组更新至预设的舆情关系数据库,预设的舆情关系数据库中存储有多个包含命名实体组合信息及对应命名实体组合间舆情关系信息的多元数据组。在一个实施例中,处理器执行计算机程序时还实现以下步骤:接收目标命名实体查询请求,获取目标命名实体查询请求携带的已知命名实体信息和已知舆情关系信息,已知命名实体信息用于描述多元数据组中命名实体组合信息中的已知命名实体,已知舆情关系信息用于描述多元数据组中命名实体组合间的舆情关系信息;遍历预设的舆情关系数据库,查找包含已知命名实体信息和已知舆情关系信息的多元数据组;根据查找到的多元数据组,确定多元数据组的命名实体组合信息中的目标命名实体信息。在一个实施例中,处理器执行计算机程序时还实现以下步骤:接收舆情关系查询请求,获取舆情关系查询请求携带的已知命名实体组合信息;遍历预设的舆情关系数据库,查找包含已知命名实体组合的多元数据组;根据查找到的多元数据组,确定已知命名实体组合间的舆情关系信息。上述用于实现舆情关系识别方法的计算机设备,通过获取包含待识别舆情关系的目标文本,将目标文本输入预设命名实体识别模型,得到多个命名实体,确定目标文本中舆情关系的发生对象,根据多个命名实体,利用句法结构对目标文本进行句法分析,识别目标文本的核心谓语,通过命名实体和核心谓语的识别将发生舆情关系的多个命名实体联系起来,缩减了目标文本内容且提炼出目标文本的核心词汇,通过遍历预设的舆情关系聚类词库,确定核心谓语所属的舆情关系类别,利用舆情关系聚类词库,确定该核心谓语所属的舆情类别,便于根据舆情类别确定多个命名实体间的舆情关系,准确识别出目标文本中包含的命名实体间的舆情关系。在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取包含待识别舆情关系的目标文本;将目标文本输入预设命名实体识别模型,得到目标文本中包含的多个命名实体;根据多个命名实体对目标文本进行句法分析,识别目标文本的核心谓语;遍历预设的舆情关系聚类词库,确定核心谓语所属的舆情关系类别;根据舆情关系类别和多个命名实体,确定多个命名实体间的舆情关系。在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将目标文本输入预设命名实体识别模型,得到命名实体初步识别结果;基于预设实体命名数据库,从命名实体初步识别结果中筛选出多个命名实体。在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据多个命名实体,对目标文本中进行命名实体标注;获取目标文本携带的领域类别标识,根据领域类别标识,查找对应领域的动名词组库;遍历对应领域的动名词组库,对目标文本的进行语句组成成分划分;根据目标文本的语句组成成分以及目标文本的命名实体标注结果,确定目标文本的核心谓语。在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取设定时间范围内发布的文本数据集合;筛选文本数据集合包含相同命名实体组合的多个文本,分别提取多个文本中的核心谓语;将提取的多个核心谓语进行聚类处理,构建预设的舆情关系聚类词库。在一个实施例中,计算机程序被处理器执行时还实现以下步骤:构建包含多个命名实体,以及多个命名实体间的舆情关系的多元数据组;将多元数据组更新至预设的舆情关系数据库,预设的舆情关系数据库中存储有多个包含命名实体组合信息及对应命名实体组合间舆情关系信息的多元数据组。在一个实施例中,计算机程序被处理器执行时还实现以下步骤:接收目标命名实体查询请求,获取目标命名实体查询请求携带的已知命名实体信息和已知舆情关系信息,已知命名实体信息用于描述多元数据组中命名实体组合信息中的已知命名实体,已知舆情关系信息用于描述多元数据组中命名实体组合间的舆情关系信息;遍历预设的舆情关系数据库,查找包含已知命名实体信息和已知舆情关系信息的多元数据组;根据查找到的多元数据组,确定多元数据组的命名实体组合信息中的目标命名实体信息。在一个实施例中,计算机程序被处理器执行时还实现以下步骤:接收舆情关系查询请求,获取舆情关系查询请求携带的已知命名实体组合信息;遍历预设的舆情关系数据库,查找包含已知命名实体组合的多元数据组;根据查找到的多元数据组,确定已知命名实体组合间的舆情关系信息。上述用于实现舆情关系识别方法的计算机可读存储介质,通过获取包含待识别舆情关系的目标文本,将目标文本输入预设命名实体识别模型,得到多个命名实体,确定目标文本中舆情关系的发生对象,根据多个命名实体,利用句法结构对目标文本进行句法分析,识别目标文本的核心谓语,通过命名实体和核心谓语的识别将发生舆情关系的多个命名实体联系起来,缩减了目标文本内容且提炼出目标文本的核心词汇,通过遍历预设的舆情关系聚类词库,确定核心谓语所属的舆情关系类别,利用舆情关系聚类词库,确定该核心谓语所属的舆情类别,便于根据舆情类别确定多个命名实体间的舆情关系,准确识别出目标文本中包含的命名实体间的舆情关系。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和或易失性存储器。非易失性存储器可包括只读存储器ROM、可编程ROMPROM、电可编程ROMEPROM、电可擦除可编程ROMEEPROM或闪存。易失性存储器可包括随机存取存储器RAM或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAMSRAM、动态RAMDRAM、同步DRAMSDRAM、双数据率SDRAMDDRSDRAM、增强型SDRAMESDRAM、同步链路SynchlinkDRAMSLDRAM、存储器总线Rambus直接RAMRDRAM、直接存储器总线动态RAMDRDRAM、以及存储器总线动态RAMRDRAM等。以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
权利要求:1.一种舆情关系识别方法,所述方法包括:获取包含待识别舆情关系的目标文本;将所述目标文本输入预设命名实体识别模型,得到所述目标文本中包含的多个命名实体;根据所述多个命名实体对所述目标文本进行句法分析,识别所述目标文本的核心谓语;遍历预设的舆情关系聚类词库,确定所述核心谓语所属的舆情关系类别;根据所述舆情关系类别和所述多个命名实体,确定所述多个命名实体间的舆情关系。2.根据权利要求1所述的方法,其特征在于,所述将所述目标文本输入预设命名实体识别模型,得到所述目标文本中包含的多个命名实体包括:将所述目标文本输入预设命名实体识别模型,得到所述命名实体初步识别结果;基于预设实体命名数据库,从所述命名实体初步识别结果中筛选出多个命名实体。3.根据权利要求1所述的方法,其特征在于,所述根据所述多个命名实体对所述目标文本进行句法分析,识别所述目标文本的核心谓语包括:根据所述多个命名实体,对所述目标文本中进行命名实体标注;获取所述目标文本携带的领域类别标识,根据所述领域类别标识,查找对应领域的动名词组库;遍历所述对应领域的动名词组库,对所述目标文本的进行语句组成成分划分;根据所述目标文本的语句组成成分以及所述目标文本的命名实体标注结果,确定所述目标文本的核心谓语。4.根据权利要求1所述的方法,其特征在于,所述遍历预设的舆情关系聚类词库,确定所述核心谓语所属的舆情关系类别之前,还包括:获取设定时间范围内发布的文本数据集合;筛选所述文本数据集合包含相同命名实体组合的多个文本,分别提取所述多个文本中的核心谓语;将提取的多个所述核心谓语进行聚类处理,构建所述预设的舆情关系聚类词库。5.根据权利要求1所述的方法,其特征在于,所述根据所述舆情关系类别和所述多个命名实体,确定所述多个命名实体间的舆情关系之后,还包括:构建包含所述多个命名实体,以及所述多个命名实体间的舆情关系的多元数据组;将所述多元数据组更新至预设的舆情关系数据库,所述预设的舆情关系数据库中存储有多个包含命名实体组合信息及对应命名实体组合间舆情关系信息的多元数据组。6.根据权利要求5所述的方法,其特征在于,所述将所述多元数据组更新至预设的舆情关系数据库之后,还包括:接收目标命名实体查询请求,获取所述目标命名实体查询请求携带的已知命名实体信息和已知舆情关系信息;所述已知命名实体信息用于描述多元数据组的命名实体组合信息中的已知命名实体,所述已知舆情关系信息用于描述多元数据组中命名实体组合间的舆情关系信息;遍历所述预设的舆情关系数据库,查找包含所述已知命名实体信息和已知舆情关系信息的多元数据组;根据查找到的所述多元数据组,确定所述多元数据组的命名实体组合信息中的目标命名实体信息。7.根据权利要求5所述的方法,其特征在于,所述将所述多元数据组更新至预设的舆情关系数据库之后,还包括:接收舆情关系查询请求,获取所述舆情关系查询请求携带的已知命名实体组合信息;遍历所述预设的舆情关系数据库,查找包含所述已知命名实体组合的多元数据组;根据查找到的所述多元数据组,确定所述已知命名实体组合间的舆情关系信息。8.一种舆情关系识别装置,其特征在于,所述装置包括:目标文本获取模块,用于获取包含待识别舆情关系的目标文本;命名实体识别模块,用于将所述目标文本输入预设命名实体识别模型,得到所述目标文本中包含的多个命名实体;核心谓语识别模块,用于根据所述多个命名实体对所述目标文本进行句法分析,识别所述目标文本的核心谓语;舆情关系类别确定模块,用于遍历预设的舆情关系聚类词库,确定所述核心谓语所属的舆情关系类别;舆情关系确定模块,用于根据所述舆情关系类别和所述多个命名实体,确定所述多个命名实体间的舆情关系。9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
百度查询: 平安科技(深圳)有限公司 舆情关系识别方法、装置、计算机设备和存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。