首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

数据分析方法、装置、计算机设备及存储介质 

申请/专利权人:平安科技(深圳)有限公司

申请日:2018-10-12

公开(公告)日:2024-06-28

公开(公告)号:CN109388675B

主分类号:G06F16/26

分类号:G06F16/26;G06F16/2458

优先权:

专利状态码:有效-授权

法律状态:2024.06.28#授权;2020.11.03#实质审查的生效;2019.02.26#公开

摘要:本申请涉及到数据处理领域,并公开了一种数据分析方法、装置、计算机设备及存储介质。该方法包括:扫描数据库中的数据表以获取所述数据表的字段信息;识别所述字段信息对应的数据类型,根据所述数据类型对所述字段信息进行分类得到分类字段信息;根据历史字段处理信息确定所述分类字段信息对应的格式处理规则,其中所述历史字段处理信息记录有历史字段与格式处理规则的对应关系;根据确定的格式处理规则对所述分类字段信息进行处理以得到对应的数据信息;基于预先训练的特性预测模型,根据所述数据信息预测所述数据表的数据特性。该方法可提高大数据的分析效率,通过数据特性了解数据价值再加以利用,进而提高了工作效率。

主权项:1.一种数据分析方法,其特征在于,包括:扫描数据库中的数据表以获取所述数据表的字段信息;识别所述字段信息对应的数据类型,并根据所述数据类型对所述字段信息进行分类得到分类字段信息,其中,所述数据类型包括文本类型、维度类型和离散数据类型;根据历史字段处理信息确定所述分类字段信息对应的格式处理规则,其中所述历史字段处理信息记录有历史字段与格式处理规则的对应关系;根据确定的格式处理规则对所述分类字段信息进行处理以得到对应的数据信息;基于预先训练的特性预测模型,根据所述数据信息预测所述数据表的数据特性,其中,所述数据特性包括数据字段类型、数据字段格式以及饱和度;其中,所述根据历史字段处理信息确定所述分类字段信息对应的格式处理规则包括:根据所述字段信息的数据类型确定对应的多个历史字段,并计算所述字段信息和每个所述历史字段的杰卡德相似系数;根据所述杰卡德相似系数确定与所述字段信息最相似的历史字段,将所述最相似的历史字段对应的格式处理规则作为所述字段信息对应的格式处理规则;所述根据确定的格式处理规则对所述分类字段信息进行处理以得到对应的数据信息包括:根据确定的格式处理规则采用分布式处理技术对所述分类字段信息进行处理得到所述分类字段信息对应的数据信息,其中,所述分布式处理技术包括Hadoop系统或Spark系统处理技术。

全文数据:数据分析方法、装置、计算机设备及存储介质技术领域本申请涉及数据处理技术领域,尤其涉及一种数据分析方法、装置、计算机设备及存储介质。背景技术目前,在大数据时代下,常常会面对各种海量数据,接触到各种新的数据源。如果需要使用数据,首先需要先对数据进行分析,这样才能对数据有基本的认识,才能更好地使用数据。如果不知道数据的特性、格式、饱和度等特性信息,对于数据的使用会产生不好的影响,比如会导致关联出错误的结果。现有的方法在使用数据时需要对数据表的每个字段进行查看验证,字段填充的格式情况、饱和度情况和更新情况等信息,如果表字段有几百个,分析起来非常耗时,同时也会对于生产业务产生很大影响。因此,有必要提供一种分析方法以解决上述问题。发明内容本申请提供了一种数据分析方法、装置、计算机设备及存储介质,以提高大数据的分析效率。本申请提供了一种数据分析方法,其包括:扫描数据库中的数据表以获取所述数据表的字段信息;识别所述字段信息对应的数据类型,并根据所述数据类型对所述字段信息进行分类得到分类字段信息;根据历史字段处理信息确定所述分类字段信息对应的格式处理规则,其中所述历史字段处理信息记录有历史字段与格式处理规则的对应关系;根据确定的格式处理规则对所述分类字段信息进行处理以得到对应的数据信息;基于预先训练的特性预测模型,根据所述数据信息预测所述数据表的数据特性。本申请提供了一种数据分析装置,其包括:扫描获取单元,用于扫描数据库中的数据表以获取所述数据表的字段信息;识别分类单元,用于识别所述字段信息对应的数据类型,并根据所述数据类型对所述字段信息进行分类得到分类字段信息;规则确定单元,用于根据历史字段处理信息确定所述分类字段信息对应的格式处理规则,其中所述历史字段处理信息记录有历史字段与格式处理规则的对应关系;信息处理单元,用于根据确定的格式处理规则对所述分类字段信息进行处理以得到对应的数据信息;特性预测单元,用于基于预先训练的特性预测模型,根据所述数据信息预测所述数据表的数据特性。本申请还提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现本申请提供的任意一项所述的数据分析方法的步骤。本申请还提供了一种计算机存储介质,其中所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器执行本申请提供的任意实施例所述的数据分析方法的步骤。本申请实施例提供了数据分析方法、装置、计算机设备及存储介质,通过扫描数据库中的数据表以获取所述数据表的字段信息;识别所述字段信息对应的数据类型,并根据所述数据类型对所述字段信息进行分类得到分类字段信息;根据历史字段处理信息确定所述分类字段信息对应的格式处理规则,其中所述历史字段处理信息记录有历史字段与格式处理规则的对应关系;根据确定的格式处理规则对所述分类字段信息进行处理以得到对应的数据信息;基于预先训练的特性预测模型,根据所述数据信息预测所述数据表的数据特性。由此提升了数据分析的速度,通过数据特性了解数据价值再加以利用,进而提高了工作效率。附图说明为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请一实施例提供的训练特性预测模型的步骤示意流程图;图2是本申请一实施例提供的一种数据分析方法的示意流程图;图3是图2中数据分析方法的子步骤示意流程图;图4是本申请一实施例提供的一种补充数据信息的步骤示意流程图;图5是本申请一实施例提供的一种数据分析装置的示意性框图;图6是本申请另一实施例提供的一种数据分析装置的示意性框图;图7是本申请又一实施例提供的一种数据分析装置的示意性框图;图8是本申请一实施例提供的一种计算机设备的示意性框图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和或其集合的存在或添加。还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。本申请提供了一种数据分析方法、装置、计算机设备及存储介质。该方法可以应用于服务器中,具体可以应用于分布式系统的服务器中,以实现对海量数据分析处理,并在使用数据之前获得该海量数据的数据特性。请参阅图1,图1是本申请一实施例提供的训练特性预测模型的步骤示意流程图。如图1所示,该步骤具体包括以下步骤S101至步骤S103。S101、获取历史数据表的数据作为样本数据。具体地,所述历史数据表为用户已经了解其数据特性对应的数据表,其数据特性包括:数据字段类型、数据字段格式以及饱和度等信息。具体为服务器获取历史数据表并扫描该历史数据表中的数据作为样本数据,该历史数据表可以用户通过终端选定的数据表,并将数据表的标识发送至服务器,由服务器获取该数据表作为历史数据表并扫描读取该历史数据表中的数据作为样本数据。S102、对所述样本数据进行特征抽取以得到特征字段,根据所述特征字段构建特征向量。具体地,对该样本数据进行特征抽取,比如抽取文本类型、维度类型和离散数字类型的字段信息作为特征字段。由此根据该字段构建特征向量,其中特征向量中的数值与每个特征字段对应。S103、基于逻辑回归算法,根据所述特征向量进行模型训练得到预先训练的特性预测模型。具体地,选定相应的逻辑回归算法,当然也可以选择神经网络算法。基于选定的逻辑回归算法,将所述特征向量作为输入,将期望目标值作为输出进行模型训练,比如以数据量和饱和度为目标作为输出,训练特性预测模型,并将经过训练得到特性训练模型作为预先训练的特性预测模型进行保存。请参阅图2,图2是本申请一实施例提供的一种数据分析方法的示意流程图。该方法可以应用于服务器中,具体可以应用于分布式系统的服务器中,以实现对海量数据的特性进行预测。如图2所示,该数据分析方法具体包括步骤S201至S205。S201、扫描数据库中的数据表以获取所述数据表的字段信息。其中,所述数据库为业务系统对应的数据库,该业务系统比如为产险系统、寿险系统、意外险系统和手机银行系统等,该数据库会实时保存业务系统产生的海量数据,数据量较大,如果需要使用该数据库中的数据,在使用之前先了解该数据库中数据的数据特性是有必要,因此需要扫描该数据库的数据表以获取所述数据表中的字段信息。具体地,为了提高数据的处理速度,可通过分布式系统对数据库的数据表进行扫描以获取该数据表中的字段信息。还可定时轮询扫描该数据库的数据表,以获取该数据表中的字段信息,该字段信息的含义、类型和格式均能体现出数据特性。S202、识别所述字段信息对应的数据类型,并根据所述数据类型对所述字段信息进行分类得到分类字段信息。其中,所述数据类型包括文本类型、维度类型和离散数据类型等。所述文本类型对应的字段信息包括文字和英文等文本信息;所述维度类型对应字段信息包括有限数量的信息,比如星座或性别等;所述离散数据类型对应的字段信息包括数字信息,比如银行卡号、电话号码、年龄或生日等。具体地,所述识别所述字段信息对应的数据类型,包括:根据字段信息的特征识别所字段信息对应数据类型,并根据识别到的数据类型对所述字段信息进行分类得到分类字段信息。比如,识别所述字段信息识别到该字段信息为数字,则确定该字段信息为为离散数据类型,并根据该离散数据类型对所述字段信息进行分类得到分类字段信息,具体分类至离散数据类型字段信息类中。通过分类处理可以提高字段信息处理分析速度。S203、根据历史字段处理信息确定所述分类字段信息对应的格式处理规则,其中所述历史字段处理信息记录有历史字段与格式处理规则的对应关系;其中,所述历史字段处理信息为采用相应的格式处理规则处理历史字段信息对应的记录信息。具体地,历史字段信息为TXT类型的字段信息,则采用的格式处理规则为TXT格式处理规则,则可以根据历史字段信息来分析当前字段信息是与其相似,若相似,确定当前字段信息的格式处理规则为所述历史字段信息对应的格式处理规则。在一实施例中,为了快速确定所述字段信息对应的格式处理规则,如图3所示,步骤S203包括子步骤S203a和S203b。S203a、根据所述字段信息的数据类型确定对应的多个历史字段,并计算所述字段信息和每个所述历史字段的杰卡德相似系数;S203b、根据所述杰卡德相似系数确定与所述字段信息最相似的历史字段,将所述最相似的历史字段对应的格式处理规则作为所述字段信息对应的格式处理规则。具体地,杰卡德相似系数Jaccardindex,又称Jaccard系数,用于比较有限样本集之间的相似性和差异性。其中,杰卡德相似系数越大,样本相似度越高。计算所述字段信息和所述历史字段的杰卡德相似系数,具体将所述字段信息和所述历史字段设为两个字段集合,比如为集合A和集合B,计算两个字段集合中的字符串的字符的交集和并集的比值,即杰卡德相似系数。根据所述杰卡德相似系数确定与所述字段信息最相似的历史字段,将所述最相似的历史字段对应的格式处理规则作为所述字段信息对应的格式处理规则。S204、根据确定的格式处理规则对所述分类字段信息进行处理以得到对应的数据信息;具体地,根据确定的格式处理规则对所述分类字段信息进行解析,包括识别分类字段信息的格式、含义以及信息的完整度等。为了进一步地提高字段信息的处理分析速度,根据确定的格式处理规则采用分布式处理技术对所述分类字段信息进行处理得到所述分类字段信息对应的数据信息,其中,所述分布式处理技术包括Hadoop系统或Spark系统处理技术。比如,可以将确定的格式处理规则和分类字段信息对应发送至分布式系统的主机上以使所述主机根据确定的格式处理规则对所述分类字段信息进行处理得到所述分类字段信息对应的数据信息;接收所述主机反馈的数据信息。在一实施例中,如图4所示,在步骤S204之后,还包括以下内容:S204a、判断所述数据信息是否地址信息;S204b、若所述数据信息为地址信息,从匹配地址库中获取完整地址信息补充到数据信息。比如,若所述数据信息为地址信息,该地址信息用户在填写的时候,可能没有填写完整,比如用户某个区某个街道等信息,而没有填写省份等信息,可从匹配地址库中获取完整地址信息补充到数据信息。S205、基于预先训练的特性预测模型,根据所述数据信息预测所述数据表的数据特性。具体地,该特性预测模型为预先训练好的算法模型,其输入参数为数据表的数据信息用于预测数据表中的数据对应的数据特性,以便更好地利用该数据表中的数据,其中数据特性包括数据字段类型、数据字段格式以及饱和度等信息。通过上述方法可以快速理解数据的特性,为后续数据使用提供了帮助。在本实施例中,上述数据分析方法通过扫描数据库中的数据表以获取所述数据表的字段信息;识别所述字段信息对应的数据类型,并根据所述数据类型对所述字段信息进行分类得到分类字段信息;根据历史字段处理信息确定所述分类字段信息对应的格式处理规则,其中所述历史字段处理信息记录有历史字段与格式处理规则的对应关系;根据确定的格式处理规则对所述分类字段信息进行处理以得到对应的数据信息;基于预先训练的特性预测模型,根据所述数据信息预测所述数据表的数据特性。由此提升了数据分析的速度,通过数据特性了解数据价值再加以利用,进而提高了工作效率。图5是本申请实施例提供的一种数据分析装置的示意性框图。如图5所示,对应于以上数据分析方法,本申请还提供一种数据分析装置。该数据分析装置包括用于执行上述数据分析方法的单元,该装置可以被配置于服务器中。如图5所示,该数据分析装置400包括:数据确定单元401、抽取构建单元402、模型训练单元403、扫描获取单元404、识别分类单元405、规则确定单元406、信息处理单元407和特性预测单元408。数据确定单元401,用于获取历史数据表的数据作为样本数据。抽取构建单元402,用于对所述样本数据进行特征抽取以得到特征字段,根据所述特征字段构建特征向量。模型训练单元403,用于基于逻辑回归算法,根据所述特征向量进行模型训练得到预先训练的特性预测模型。扫描获取单元404,用于扫描数据库中的数据表以获取所述数据表的字段信息。识别分类单元405,用于识别所述字段信息对应的数据类型,并根据所述数据类型对所述字段信息进行分类得到分类字段信息。规则确定单元406,用于根据历史字段处理信息确定所述分类字段信息对应的格式处理规则,其中所述历史字段处理信息记录有历史字段与格式处理规则的对应关系。在一实施例中,如图6所示,规则确定单元406包括:确定计算子单元4061和确定设置子单元4062。其中,确定计算子单元4061,用于根据所述字段信息的数据类型确定对应的多个历史字段,并计算所述字段信息和每个所述历史字段的杰卡德相似系数;确定设置子单元4062,用于根据所述杰卡德相似系数确定与所述字段信息最相似的历史字段,将所述最相似的历史字段对应的格式处理规则作为所述字段信息对应的格式处理规则。信息处理单元407,用于根据确定的格式处理规则对所述分类字段信息进行处理以得到对应的数据信息。特性预测单元408,用于基于预先训练的特性预测模型,根据所述数据信息预测所述数据表的数据特性。在一实施例中,如图7所示,该数据分析装置500还包括:信息判断单元501和获取补充单元502。其中,信息判断单元501,判断所述数据信息是否地址信息;获取补充单元502,用于若所述数据信息为地址信息,从匹配地址库中获取完整地址信息补充到数据信息。所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的数据分析装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。上述装置可以实现为一种计算机程序的形式,计算机程序可以在如图8所示的计算机设备上运行。请参阅图8,图8是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备700可以是服务器。参照图8,该计算机设备700包括通过系统总线710连接的处理器720、存储器和网络接口750,其中,存储器可以包括非易失性存储介质730和内存储器740。该非易失性存储介质730可存储操作系统731和计算机程序732。该计算机程序732被执行时,可使得处理器720执行任意一种数据分析方法。该处理器720用于提供计算和控制能力,支撑整个计算机设备700的运行。该内存储器740为非易失性存储介质730中的计算机程序732的运行提供环境,该计算机程序732被处理器720执行时,可使得处理器720执行任意一种数据分析方法。该网络接口750用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备700的限定,具体的计算机设备700可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。其中,所述处理器720用于运行存储在存储器中的程序代码,以实现如下步骤:扫描数据库中的数据表以获取所述数据表的字段信息;识别所述字段信息对应的数据类型,并根据所述数据类型对所述字段信息进行分类得到分类字段信息;根据历史字段处理信息确定所述分类字段信息对应的格式处理规则,其中所述历史字段处理信息记录有历史字段与格式处理规则的对应关系;根据确定的格式处理规则对所述分类字段信息进行处理以得到对应的数据信息;基于预先训练的特性预测模型,根据所述数据信息预测所述数据表的数据特性。在一实施例中,所述处理器720用于运行存储在存储器中的程序代码实现所述扫描数据库中的数据表以获取所述数据表的字段信息之前,还实现如下步骤:获取历史数据表的数据作为样本数据;对所述样本数据进行特征抽取以得到特征字段,根据所述特征字段构建特征向量;基于逻辑回归算法,根据所述特征向量进行模型训练得到预先训练的特性预测模型。在一实施例中,所述处理器720用于运行存储在存储器中的程序代码实现所述根据历史字段处理信息确定所述分类字段信息对应的格式处理规则时,具体实现如下步骤:根据所述字段信息的数据类型确定对应的多个历史字段,并计算所述字段信息和每个所述历史字段的杰卡德相似系数;根据所述杰卡德相似系数确定与所述字段信息最相似的历史字段,将所述最相似的历史字段对应的格式处理规则作为所述字段信息对应的格式处理规则。在一实施例中,所述处理器720用于运行存储在存储器中的程序代码实现所述根据确定的格式处理规则对所述分类字段信息进行处理以得到对应的数据信息时,具体实现如下步骤:根据确定的格式处理规则采用分布式处理技术对所述分类字段信息进行处理得到所述分类字段信息对应的数据信息,其中,所述分布式处理技术包括Hadoop系统或Spark系统处理技术。在一实施例中,所述处理器720用于运行存储在存储器中的程序代码实现所述根据确定的格式处理规则对所述分类字段信息进行处理以得到对应的数据信息之后,还实现如下步骤:判断所述数据信息是否地址信息;若所述数据信息为地址信息,从匹配地址库中获取完整地址信息补充到数据信息。在一实施例中,所述处理器720用于运行存储在存储器中的程序代码实现扫描数据库中的数据表以获取所述数据表的字段信息时,具体实现如下步骤:通过分布式系统定时轮询扫描所述数据库中的数据表以获取所述数据表的字段信息。应当理解,在本申请实施例中,处理器720可以是中央处理单元CentralProcessingUnit,CPU,该处理器720还可以是其他通用处理器、数字信号处理器DigitalSignalProcessor,DSP、专用集成电路ApplicationSpecificIntegratedCircuit,ASIC、现成可编程门阵列Field-ProgrammableGateArray,FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。本领域技术人员可以理解,图8中示出的计算机设备700结构并不构成对计算机设备700的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。本领域普通技术人员可以理解的是实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。如本发明实施例中,该计算机程序可存储于计算机系统的存储介质中,并被该计算机系统中的至少一个处理器执行,以实现包括如上述各方法的实施例的流程步骤。该计算机可读存储介质可以是磁碟、光盘、U盘、移动硬盘、只读存储器ROM,Read-OnlyMemory、磁碟或者光盘等各种可以存储程序代码的介质。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。在本申请所提供的几个实施例中,应该理解到,所揭露的数据分析装置和方法,可以通过其它的方式实现。例如,以上所描述的数据分析装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本申请实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备可以是个人计算机,终端,或者网络设备等执行本申请各个实施例所述方法的全部或部分步骤。以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

权利要求:1.一种数据分析方法,其特征在于,包括:扫描数据库中的数据表以获取所述数据表的字段信息;识别所述字段信息对应的数据类型,并根据所述数据类型对所述字段信息进行分类得到分类字段信息;根据历史字段处理信息确定所述分类字段信息对应的格式处理规则,其中所述历史字段处理信息记录有历史字段与格式处理规则的对应关系;根据确定的格式处理规则对所述分类字段信息进行处理以得到对应的数据信息;基于预先训练的特性预测模型,根据所述数据信息预测所述数据表的数据特性。2.根据权利要求1所述的数据分析方法,其特征在于,所述扫描数据库中的数据表以获取所述数据表的字段信息之前,还包括:获取历史数据表的数据作为样本数据;对所述样本数据进行特征抽取以得到特征字段,根据所述特征字段构建特征向量;基于逻辑回归算法,根据所述特征向量进行模型训练得到预先训练的特性预测模型。3.根据权利要求1所述的数据分析方法,其特征在于,所述根据历史字段处理信息确定所述分类字段信息对应的格式处理规则,包括:根据所述字段信息的数据类型确定对应的多个历史字段,并计算所述字段信息和每个所述历史字段的杰卡德相似系数;根据所述杰卡德相似系数确定与所述字段信息最相似的历史字段,将所述最相似的历史字段对应的格式处理规则作为所述字段信息对应的格式处理规则。4.根据权利要求1所述的数据分析方法,其特征在于,所述根据确定的格式处理规则对所述分类字段信息进行处理以得到对应的数据信息,包括:根据确定的格式处理规则采用分布式处理技术对所述分类字段信息进行处理得到所述分类字段信息对应的数据信息,其中,所述分布式处理技术包括Hadoop系统或Spark系统处理技术。5.根据权利要求1所述的数据分析方法,其特征在于,所述根据确定的格式处理规则对所述分类字段信息进行处理以得到对应的数据信息之后,还包括:判断所述数据信息是否为地址信息;若所述数据信息为地址信息,从匹配地址库中获取完整地址信息补充到数据信息。6.根据权利要求1所述的数据分析方法,其特征在于,所述扫描数据库中的数据表以获取所述数据表的字段信息,包括:通过分布式系统定时轮询扫描所述数据库中的数据表以获取所述数据表的字段信息。7.根据权利要求1所述的数据分析方法,其特征在于,所述数据类型包括文本类型、维度类型和离散数据类型。8.一种数据分析装置,其特征在于,包括:扫描获取单元,用于扫描数据库中的数据表以获取所述数据表的字段信息;识别分类单元,用于识别所述字段信息对应的数据类型,并根据所述数据类型对所述字段信息进行分类得到分类字段信息;规则确定单元,用于根据历史字段处理信息确定所述分类字段信息对应的格式处理规则,其中所述历史字段处理信息记录有历史字段与格式处理规则的对应关系;信息处理单元,用于根据确定的格式处理规则对所述分类字段信息进行处理以得到对应的数据信息;特性预测单元,用于基于预先训练的特性预测模型,根据所述数据信息预测所述数据表的数据特性。9.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述方法的步骤。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器执行如权利要求1至7任意一项所述方法的步骤。

百度查询: 平安科技(深圳)有限公司 数据分析方法、装置、计算机设备及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。