买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】使用源跟踪剖析数据_起元科技有限公司_201811474571.3 

申请/专利权人:起元科技有限公司

申请日:2013-08-02

公开(公告)日:2024-04-26

公开(公告)号:CN110096494B

主分类号:G06F16/215

分类号:G06F16/215;G06F16/00;G06F16/22;G06F16/23;G06F16/245;G06F16/2453;G06F16/25

优先权:["20121022 US 61/716,766"]

专利状态码:有效-授权

法律状态:2024.04.26#授权;2019.08.30#实质审查的生效;2019.08.06#公开

摘要:剖析数据包括访问多个记录集合以为每个特定集合存储量化信息,包括:对于特定集合中记录的至少一个选定字段,值计数条目的相应清单300A‑300C,每个包括出现在所述选定字段中的值以及其中该值所出现的记录数的计数。处理两个或更多个所述集合的所述量化信息包括:对于来自第一集合和第二集合的每个的至少一个字段,将相应清单的所述值计数条目合并302以产生值计数条目组合清单304,并且将所述值计数条目组合清单的值计数条目聚合306,以产生特异字段值条目的清单308,其识别一特异值并且包括对所述两个或更多个集合的每个中该特异值出现的记录数加以量化的信息。

主权项:1.一种用于剖析存储在数据存储系统中的数据的方法,所述方法包括:通过耦合至所述数据存储系统的接口来访问存储在所述数据存储系统中的多个记录集合,来为所述多个记录集合的每个存储量化信息,对于特定集合中记录的至少一个选定字段而言,每个所述特定集合的所述量化信息包括值计数条目的相应清单,每个值计数条目包括至少出现在所述选定字段中的值以及所述值至少出现在所述选定字段中的记录数的计数;以及处理所述特定集合的两个或更多个集合的所述量化信息以产生剖析总结信息,所述处理包括:对于来自所述两个或更多个集合的至少第一集合和第二集合的每个的至少一个字段,将相应清单的所述值计数条目合并以产生值计数条目组合清单,以及将所述值计数条目组合清单的值计数条目聚合,以产生特异字段值条目的清单,所述特异字段值条目的至少一些从所述值计数条目的至少一个中识别出特异值;其中对应于特定集合的值计数条目清单中的每个值计数条目还包括识别所述值至少出现在所述选定字段中的所述特定集合内各个记录位置的位置信息;其中,通过将位置数据结构与所述每个值计数条目相联系,所述位置信息被传送至所述特异字段值条目的清单,所述位置信息在所述特异字段值条目的清单中作为每个聚合后输出数据结构的位置数据结构的矢量。

全文数据:使用源跟踪剖析数据本申请是申请号为201380055099.9对应于PCT国际申请号PCTUS2013053351、发明名称为“使用源跟踪剖析数据”、申请日为2013年8月2日的发明专利申请的分案申请。相关申请的交叉引用本申请要求享有2012年10月22日提交的美国申请号61716,766的优先权,该申请通过引用合并于此。背景技术本申请涉及使用源跟踪sourcetracking剖析数据。存储的数据集常常包括各种特性未知的数据。例如,对于数据集的值范围或典型值,数据集内不同字段之间的关系、或者不同字段的值之间的相关性可能是未知的。数据剖析dataprofiling可能涉及检查数据集的源以便确定这种特性。发明内容在一个方案中,通常,一种用于剖析存储在数据存储系统中的数据,所述方法包括:通过耦合至所述数据存储系统的接口来访问存储在所述数据存储系统中的多个记录集合,来为所述多个记录集合的每个存储量化信息,对于特定集合中所述记录的至少一个选定字段而言,每个所述特定集合的所述量化信息包括值计数条目的相应清单,每个值计数条目包括出现在所述选定字段中的值以及所述值出现在所述选定字段中的记录数的计数;以及处理两个或更多个所述集合的所述量化信息以产生剖析总结信息。所述处理包括:对于来自所述两个或更多个集合的至少第一集合和第二集合的每个的至少一个字段,将相应清单的所述值计数条目合并以产生值计数条目组合清单,以及将所述值计数条目组合清单的值计数条目聚合,以产生特异字段值条目的清单,所述特异字段值条目的至少一些从所述值计数条目的至少一个中识别出特异值并且包括对所述两个或更多个集合的每个中所述特异值出现的记录数加以量化的信息。这些方案可包括一个或多个以下特征。将所述相应清单的所述值计数条目合并包括基于来自所述值计数条目的值来将所述值计数条目排序。将所述值计数条目排序包括基于来自所述值计数条目的所述值根据初级排序次序来排序,以及基于所述两个或更多个集合的标识符根据次级排序次序来排序。处理两个或更多个所述集合的所述量化信息包括处理三个或更多个所述集合的所述量化信息。所述方法还包括,对于所述三个或更多个集合中至少两个集合的第一子集,根据所述特异字段值条目清单产生剖析总结信息,所述剖析总结信息包括所述第一子集中各个记录集合的所述字段之间联合运算的多个模式的结果。所述方法还包括,对于所述三个或更多个集合中至少两个集合的不同于所述第一子集的第二子集,根据所述特异字段值条目清单产生剖析总结信息,所述剖析总结信息包括所述第二子集中各个记录集合的所述字段之间联合运算的多个模式的结果。对应于特定集合的值计数条目清单中的每个值计数条目还包括识别所述值出现在所述选定字段中的所述特定记录集合内各个位置的位置信息。所述处理包括:对于所述两个或更多个集合的第三集合的至少一个字段,读取相应清单的所述值计数条目以更新所述特异字段值条目清单,使得所述特异字段值条目的至少一些从所述第一集合、第二集合和第三集合的相应清单的值计数条目中识别出特异值并且包括对所述第一集合、第二集合和第三集合的每个中所述特异值出现的记录数加以量化的信息。在另一个方案中,通常,一种计算机程序,存储在计算机可读存储介质上,用于剖析存储在数据存储系统中的数据。所述计算机程序包括指令,所述指令用于使计算机系统:通过耦合至所述数据存储系统的接口来访问存储在所述数据存储系统中的多个记录集合,来为所述多个记录集合的每个存储量化信息,对于特定集合中所述记录的至少一个选定字段而言,每个所述特定集合的所述量化信息包括值计数条目的相应清单,每个值计数条目包括出现在所述选定字段中的值以及所述值出现在所述选定字段中的记录数的计数;以及处理两个或更多个所述集合的所述量化信息以产生剖析总结信息。所述处理包括:对于来自所述两个或更多个集合的至少第一集合和第二集合的每个的至少一个字段,将相应清单的所述值计数条目合并以产生值计数条目组合清单,以及将所述值计数条目组合清单的值计数条目聚合,以产生特异字段值条目的清单,所述特异字段值条目的至少一些从所述值计数条目的至少一个中识别出特异值并且包括对所述两个或更多个集合的每个中所述特异值出现的记录数加以量化的信息。在另一个方案中,通常,一种用于剖析存储在数据存储系统中的数据的计算系统,所述计算系统包括:耦合至所述数据存储系统的接口,被配置为访问存储在所述数据存储系统中的多个记录集合,来为所述多个记录集合的每个存储量化信息,对于特定集合中所述记录的至少一个选定字段而言,每个所述特定集合的所述量化信息包括值计数条目的相应清单,每个值计数条目包括出现在所述选定字段中的值以及所述值出现在所述选定字段中的记录数的计数;以及至少一个处理器,被配置为处理两个或更多个所述集合的所述量化信息以产生剖析总结信息。所述处理包括:对于来自所述两个或更多个集合的至少第一集合和第二集合的每个的至少一个字段,将相应清单的所述值计数条目合并以产生值计数条目组合清单,以及将所述值计数条目组合清单的值计数条目聚合,以产生特异字段值条目的清单,所述特异字段值条目的至少一些从所述值计数条目的至少一个中识别出特异值并且包括对所述两个或更多个集合的每个中所述特异值出现的记录数加以量化的信息。在另一个方案中,通常,一种用于剖析存储在数据存储系统中的数据的计算系统,所述计算系统包括:访问装置,用于访问存储在所述数据存储系统中的多个记录集合,来为所述多个记录集合的每个存储量化信息,对于特定集合中所述记录的至少一个选定字段而言,每个所述特定集合的所述量化信息包括值计数条目的相应清单,每个值计数条目包括出现在所述选定字段中的值以及所述值出现在所述选定字段中的记录数的计数;以及处理装置,用于处理两个或更多个所述集合的所述量化信息以产生剖析总结信息。所述处理包括:对于来自所述两个或更多个集合的至少第一集合和第二集合的每个的至少一个字段,将相应清单的所述值计数条目合并以产生值计数条目组合清单,以及将所述值计数条目组合清单的值计数条目聚合,以产生特异字段值条目的清单,所述特异字段值条目的至少一些从所述值计数条目的至少一个中识别出特异值并且包括对所述两个或更多个集合的每个中所述特异值出现的记录数加以量化的信息。在另一个方案中,通常,一种用于剖析存储在数据存储系统中的数据的方法,所述方法包括:通过耦合至所述数据存储系统的接口来访问存储在所述数据存储系统中的多个记录集合,来为所述多个记录集合的每个存储量化信息,对于特定集合中所述记录的至少一个选定字段而言,每个所述特定集合的所述量化信息包括值计数条目的相应清单,每个值计数条目包括出现在所述选定字段中的值以及所述值出现在所述选定字段中的记录数的计数;以及处理两个或更多个所述集合的所述量化信息以产生剖析总结信息。所述处理包括:对于来自所述两个或更多个集合的至少第一集合的至少一个字段,读取相应清单的所述值计数条目以存储包括特异字段值条目清单的输出数据,以及对于来自所述两个或更多个集合的第二集合的至少一个字段,读取相应清单的所述值计数条目,以至少部分基于所述存储的输出数据来存储更新输出数据,使得所述特异字段值条目的至少一些从所述第一集合和第二集合的相应清单的值计数条目中识别出特异值并且包括对所述第一集合和第二集合的每个中所述特异值出现的记录数加以量化的信息。这些方案可包括一个或多个以下特征。处理两个或更多个所述集合的所述量化信息包括处理三个或更多个所述集合的所述量化信息。所述方法还包括,对于所述三个或更多个集合中至少两个集合的第一子集,根据所述特异字段值条目清单产生剖析总结信息,所述剖析总结信息包括所述第一子集中各个记录集合的所述字段之间联合运算的多个模式的结果。所述方法还包括,对于所述三个或更多个集合中至少两个集合的不同于所述第一子集的第二子集,根据所述特异字段值条目清单产生剖析总结信息,所述剖析总结信息包括所述第二子集中各个记录集合的所述字段之间联合运算的多个模式的结果。对应于特定集合的值计数条目清单中的每个值计数条目还包括识别所述值出现在所述选定字段中的所述特定记录集合内各个位置的位置信息。所述处理包括:对于所述两个或更多个集合的第三集合的至少一个字段,读取相应清单的所述值计数条目以更新所述特异字段值条目清单,使得所述特异字段值条目的至少一些从所述第一集合、第二集合和第三集合的相应清单的值计数条目中识别出特异值并且包括对所述第一集合、第二集合和第三集合的每个中所述特异值出现的记录数加以量化的信息。在另一个方案中,通常,一种计算机程序,存储在计算机可读存储介质上,用于剖析存储在数据存储系统中的数据。所述计算机程序包括指令,所述指令用于使计算机系统:通过耦合至所述数据存储系统的接口来访问存储在所述数据存储系统中的多个记录集合,来为所述多个记录集合的每个存储量化信息,对于特定集合中所述记录的至少一个选定字段而言,每个所述特定集合的所述量化信息包括值计数条目的相应清单,每个值计数条目包括出现在所述选定字段中的值以及所述值出现在所述选定字段中的记录数的计数;以及处理两个或更多个所述集合的所述量化信息以产生剖析总结信息。所述处理包括:对于来自所述两个或更多个集合的至少第一集合的至少一个字段,读取相应清单的所述值计数条目以存储包括特异字段值条目清单的输出数据,以及对于来自所述两个或更多个集合的第二集合的至少一个字段,读取相应清单的所述值计数条目,以至少部分基于所述存储的输出数据来存储更新输出数据,使得所述特异字段值条目的至少一些从所述第一集合和第二集合的相应清单的值计数条目中识别出特异值并且包括对所述第一集合和第二集合的每个中所述特异值出现的记录数加以量化的信息。在另一个方案中,通常,一种用于剖析存储在数据存储系统中的数据的计算系统,所述计算系统包括:耦合至所述数据存储系统的接口,被配置为访问存储在所述数据存储系统中的多个记录集合,来为所述多个记录集合的每个存储量化信息,对于特定集合中所述记录的至少一个选定字段而言,每个所述特定集合的所述量化信息包括值计数条目的相应清单,每个值计数条目包括出现在所述选定字段中的值以及所述值出现在所述选定字段中的记录数的计数;以及至少一个处理器,被配置为处理两个或更多个所述集合的所述量化信息以产生剖析总结信息。所述处理包括:对于来自所述两个或更多个集合的至少第一集合的至少一个字段,读取相应清单的所述值计数条目以存储包括特异字段值条目清单的输出数据,以及对于来自所述两个或更多个集合的第二集合的至少一个字段,读取相应清单的所述值计数条目,以至少部分基于所述存储的输出数据来存储更新输出数据,使得所述特异字段值条目的至少一些从所述第一集合和第二集合的相应清单的值计数条目中识别出特异值并且包括对所述第一集合和第二集合的每个中所述特异值出现的记录数加以量化的信息。在另一个方案中,通常,一种用于剖析存储在数据存储系统中的数据的计算系统,所述计算系统包括:访问装置,用于访问存储在所述数据存储系统中的多个记录集合,来为所述多个记录集合的每个存储量化信息,对于特定集合中所述记录的至少一个选定字段而言,每个所述特定集合的所述量化信息包括值计数条目的相应清单,每个值计数条目包括出现在所述选定字段中的值以及所述值出现在所述选定字段中的记录数的计数;以及处理装置,用于处理两个或更多个所述集合的所述量化信息以产生剖析总结信息。所述处理包括:对于来自所述两个或更多个集合的至少第一集合的至少一个字段,读取相应清单的所述值计数条目以存储包括特异字段值条目清单的输出数据,以及对于来自所述两个或更多个集合的第二集合的至少一个字段,读取相应清单的所述值计数条目,以至少部分基于所述存储的输出数据来存储更新输出数据,使得所述特异字段值条目的至少一些从所述第一集合和第二集合的相应清单的值计数条目中识别出特异值并且包括对所述第一集合和第二集合的每个中所述特异值出现的记录数加以量化的信息。这些方案可包括一个或多个以下优点。关系数据库管理系统和其他关系数据存储系统的设计的一个方面是被称为键字的值,其可以被用来识别和或链接或“联接”不同实体中的记录例如,不同的记录集合,诸如不同的表格或数据集。关键字成功地使设计中记录之间的相关运算例如,联合运算所到达的程度称为参照完整性。当插入、更新或删除记录时,随着时间推移保持参照完整性是保持可靠的关系数据存储系统的一个方面。为了这个目的,一些关系数据库提供约束以实施关联完整性例如,除非相应的记录已经存在于另一个实体中,否则具有引用相应记录的主关键字的外关键字的字段值的记录不能被插入一个实体中。但是当下载数据时检查这种约束可能降低性能,所以许多最大的或最活跃的系统可能不具有约束或者已经关闭了这种约束。所以,评估关系型系统的参照完整性可能是评估系统的数据质量的一部分。如果当插入、更新或删除数据时,没有自动实施参照完整性约束,那么可能违反约束并且将破坏系统的参照完整性。在一些系统中,典型的运算可以包括实体之间的联合运算,其中将一个实体的记录的关键字段中的值与另一个实体中记录的关键字段中的值进行比较。在这些相应关键字段中的值被称为联合运算的“关键字”。通过明确地实现对关键字的联接可以直接地评估存储被配置为由关键字联接的两个实体的数据存储系统的参照完整性。当评估参照完整性时可以执行对由联合运算得到的各种联接记录的分析。例如,可以考虑以下的记录计数:由在两个实体中都是唯一的关键字联接的记录的数目,由在一个实体中是唯一的而在另一个实体中不是唯一的关键字联接的记录的数目,由在任一个实体中均不是唯一的关键字联接的记录的数目,在一个实体存在而另一个实体不存在唯一关键字的记录的数目,在一个实体中存在而另一个实体不存在的非唯一关键字的记录的数目。这些计数共同地回答关于关键字唯一性、笛卡儿积例如,在两个联接实体中均为非唯一关键字以及孤立的记录例如,在联接实体中不存在的关键字的问题。这些是参照完整性的一些基本测量的示例。这里描述的技术使得易于计算被剖析的数据的参照完整性的这些和其他测量中的一些。通过以下说明书和权利要求书,本发明的其它特征和优点将变得显而易见。附图说明图1是用于剖析数据的系统的框图。图2A是出现统计的示例的图表。图2B是出现统计的示例的维恩图。图3-图6是示例性数据剖析步骤的示意图。具体实施方式图1示出示例性数据处理系统100,其中可以使用数据剖析技术。系统100包括数据源102,数据源102可以包括诸如存储装置或连接至在线数据流的一个或多个数据源,其每个可以以任意多种存储格式例如,数据库表、电子数据表文件、纯文本文件、或主机所使用的本机格式来存储数据。执行环境104包括剖析模块106和处理模块108。所述执行环境104可能被托管在受合适的操作系统诸如UNIX操作系统控制的一个或多个通用计算机上。例如,所述执行环境104可包括多节点并行计算机系统,该多节点并行计算机系统包括使用多个中央处理器CPU的计算机系统的配置,所述中央处理器可以是本地CPU例如多处理器系统,如SMP计算机、或本地分布式CPU例如多个处理器耦合为集群或MPP处理器、或远程CPU、或远程分布式CPU例如通过局域网LAN或广域网WAN来耦合的多个处理器、或其组合。剖析模块106从数据源102读取数据并且将剖析总结信息存储在由剖析模块106和处理模块108可访问的剖析数据存储110中。例如,剖析数据存储110可以被保存在数据源102的存储装置内,或者被保存在由执行环境104内可访问的单独的数据存储系统中。基于剖析总结信息,处理模块108能够对数据源102中的数据执行多种处理任务,包括清理数据、下载数据至另一个系统、或者管理对存储在数据源102中对象的访问。提供数据源102的存储装置对执行环境104而言可以是本地的,例如,被存储在连接至运行所述执行环境104的计算机的存储介质例如,硬盘驱动器112中、或者可以对执行环境104而言是远程的,例如,被托管在通过远程连接或服务例如,由云计算基础设施提供与运行所述执行环境104的计算机进行通信的远程系统例如,主机114上。剖析模块106能够读取存储在数据源102中的数据并且以有效的方式来执行各种分析,包括有益于评估所存储数据的参照完整性referentialintegrity的分析。如上所述,评估参照完整性的一个方式是通过执行明确的联合运算explicitjoinoperation以及分析最终的联接记录。然而,执行各对实体之间明确的联合运算并不总是评估参照完整性的最有效方式,尤其在其可能为剖析模块106执行的数据剖析的一部分的较宽数据质量评定的情况下。一些数据剖析步骤通过观察一个或多个选定字段或字段的组合的一组中的特异值distinctvalue的集合来描绘数据库质量的特性。为了易于数据剖析,可以执行普查计算censuscomputation来产生普查数据,该普查数据列举了每个选定字段的一组特异值并且包括对具有每个特异值的记录数目的计数。例如,普查数据可以被布置为选定字段的值计数条目valuecountentry的清单,并且每个值计数条目包括在选定字段中出现的特异值以及在选定字段中出现的特异值的记录数目的计数。在一些实施方式中,普查数据被存储在单个数据集中,可选地,由字段索引以用于快速随机访问,而在其他实施方式中,普查数据可以被存储在多个数据集中,例如,每个字段对应一个数据集。一种方法,使用联合分析来评估参照完整性,该联合分析使用描绘与不同类型的联接记录和不同类型的未联接记录相关联的各种量的特性的出现统计occurrencestatistic来总结两个实体的字段之间联合运算的结果。对于第一实体实体A的关键字段字段A与相应第二实体实体B的关键字段字段B之间的联合运算,在图2A的图表中示出不同模式出现次数的示例。“出现次数”表示一个值在字段中出现的次数。出现次数0意味着该值未出现在该字段中。出现次数1意味着该值仅出现在字段的恰好一个记录中。出现值‘M’或‘N’意味着该值在字段的一个以上的记录中。在这个示例中,图表的每排包括与相应模式相关联的计数:‘字段A出现次数’x‘字段B出现次数’。图表的每列包括与特定类型的不同模式相关联的计数。类型‘A-特异’‘B-特异’表示特异值出现在与特定出现模式相关联的实体A实体B的记录中的次数。类型‘A-计数’‘B-计数’表示与特定出现模式相关联的实体A实体B的记录的总次数。类型‘AB-计数’表示与特定出现模式相关联的联接记录的总次数。图表的下半部分即,具有出现模式的行:1x1,1xN,Nx1,NxM表示联接记录其中特定关键值在字段A和B中均出现,并且图表的上半部分即,具有出现模式:1x0,0x1,Nx0,0xN表示未联接记录其中特定关键值仅仅出现在一个字段A或B中。在这个图表中出现的真实计数是由具有以下值的A字段:1个记录中‘a’、1个记录中‘b’、2个记录中‘d’以及具有以下值的B字段:1个记录中‘a’、2个记录中‘c’、1个记录中‘d’和3个记录中‘e’所得到的计数。那么,在实体A中一共有6个记录并且在实体B中有7个记录。图2B示出形象地表示出现统计的另一种形式的维恩图Venndiagram。该图示出在联合运算中不匹配并且在外联结中穿过或在内联结中被拒绝作为与实体A1未联接记录和实体B2未联接记录相关联的圆的未重叠部分中的未联接记录的记录数。这个图表示出在重叠部分的联合运算中匹配的每个实体的剩余记录的数目在实体A中5个记录,在实体B中5个记录。这10个匹配记录产生总共9个联接记录其为列‘AB-计数’中计数的总和。可以使用圆的相对尺寸和重叠的中心来定性地指示每个区域中的计数。根据对实体的真实记录执行真实的联合运算,或者通过对实体的普查数据的各个集合执行‘普查联合’运算可以来执行联合分析例如,如美国专利第7,849,075号中所描述的,通过引用合并于此。在普查联合中,每个实体具有普查记录集合,其中每个记录包括:字段标识符例如,字段A或字段B、出现在该字段中的特异值、以及特异值出现的记录数的计数。通过比较为两个实体的关键字段产生的普查记录,普查联合运算潜在地进行比对两个实体的单个记录的关键字段进行比较的联合运算更少量次数的比较。如果普查联合运算找到两个输入普查记录的值之间的匹配,那么产生的输出记录包含匹配值、基于两个计数出现的相应模式、以及在一对关键字段的联合运算中会产生的总记录次数其仅仅是普查记录中两个计数的乘积。如果没有找到值的匹配,那么也输出带有相应出现模式和总记录次数其是单个普查记录中的单个计数的值。普查联合运算的输出记录内的信息足以编译联合运算的上述出现统计的图表中的所有计数。在一些情况下,能够对多对实体执行联合分析是有用的,例如,用于分析包括多个记录集合的数据源的参照完整性例如,来自一个或多个数据库的多个表格,和或来自一个或多个基于文件数据存储的多个数据集。特定实体可以与许多其他实体配对,以便确定每对的出现统计。然而,代替需要多次读取每个实体的关键字段中的记录、或每个实体的各个普查文件中的普查记录,剖析模块106能够使用对数据源耗时更少的读操作来产生出现统计。例如,如果存在三个数据集A、B和C并且联合分析需要AB、AC和BC的成对出现统计,那么每对单独的独立分析将需要对每个普查文件读取两次。一般地,对于在所有可能组合中独立分析的N个实体,存在NN-12个唯一对,其将要求对每个实体读取N-1次每个其他实体一次。当被分析的实体的数目大于2例如,3或更大,或者比2大很多,诸如10或更大,或者100或更大时,通过使用这里描述的一些技术来一起处理实体可以实现显著的效率。例如,在一些情况下,根据数据库的实体关系图表,对很多实体例如,表格执行联合分析。剖析模块106通过使用产生关于关键字段的多个成对联合运算或多路联合的方法,能够避免对相同普查文件的重复读操作,而无需对实体记录或对普查记录执行真实的联合运算。这种方法的下面两个示例包括访问多个实体来为每个实体的普查文件写入或者读取之前存储的普查文件在每个实体中出现的共用关键字段例如,账号字段。还可能存在联合分析所不需要的其他字段的其他普查文件。“聚合”方法还包括将来自关键字段的相应普查文件的普查记录合并以产生普查记录的排序组合清单或者至少来自普查记录的值和计数,其标有标识符以识别源实体。在一些实施方式中,对每个普查文件内的普查记录进行排序,这使得合并运算在存储和读访问时间方面更有效。在一些实施方式中,不需要将来自不同普查文件的普查记录合并且排序为普查记录的中间组合清单。在“更新”方法中,可以处理即将到来的潜在未排序的普查记录以更新输出数据条目的清单,该输出数据条目清单是根据之前接收到的普查数据产生的、被保存在存储系统或数据结构中、并且由即将到来的普查记录的关键值可以访问的。当新的普查记录到达时,使用来自即将到来的普查记录的关键值从存储中检索输出数据条目,进行更新并且将其写回至存储。支持多种存储系统,包括磁盘、内存中数据结构、以及一次写入式存储其中之前的结果不能被适当地更新而是必须被添加至存储。在“更新”方法中,无需同时处理普查文件,但是随着时间推移当普查文件变得可得时其可以被合并为更新内容。特别地,可以再处理之前处理过的普查文件的后续版本以更新之前的结果。还可以结合单独计算的结果的两个或多个集合。在一些实施方式中,可以混合使用更新方法和聚合aggregation方法。对于同时可得的普查文件,可以使用聚合方法以降低内存占用或者提高性能。对于在不同时刻到达的普查文件,可以使用更新方法以更新之前的结果。可以将聚合方法独立地应用于普查文件的集合,同时稍后使用更新方法将结果进行结合。图3示出聚合方法的示例。在这个示例中,使用对各个源实体:实体A、实体B、实体C的三个普查文件300A、300B、300C作为对剖析模块106的输入尽管该方法适合于任意数量的普查文件。每个普查文件包括以指示普查文件所属的源实体‘A’、‘B’、或‘C’的源标识符开始的普查记录。在源标识符之后,普查记录包括出现在与普查文件相关联的关键字段中的特异关键字段值,然后是包括该关键字段值的记录数目的计数。在这个示例中,普查文件中所有的普查记录是针对实体内相关的特别关键字段。在其他示例中,额外的标识符被包含在识别与每个值相关联的字段的普查记录中。因为仅仅访问联合分析感兴趣的普查记录比读取实体的所有字段的所有普查记录并且丢弃不相干的普查记录更有效,所以一些实施方式针对不同的独立可访问的普查文件内的不同字段来存储普查记录,如这个示例所示。可替代地,不同字段的普查记录可以被存储在被配置为随机访问不同部分的共同文件或者数据存储的不同部分中。通过添加指定将一起进行分析的普查文件的组的另一个标识符,在相同的实行中可以执行不同关键字段的多个联合分析。剖析模块106的合并子模块302从输入普查文件中读取普查记录以产生所有普查记录的普查实体的排序组合清单304。在一些实施方式中,顺序地读取输入普查文件并且可选平行地,如果例如他们被存储在存储介质的分割数据段中。对于并行实现,通过每个普查文件中的关键字段值可以来分割普查记录,使得共享共同关键字段值的所有记录都被放置在相同的数据段中。通过基于来自普查记录的关键字段值的初级排序次序,并且然后基于源标识符的次级排序次序来对来自输入普查文件的普查记录进行排序。在图3所示的清单304中,已经重写了普查实体以首先示出初级排序关键字段值,然后是次级排序关键字段值,然后是记录计数,但是每个普查条目内的这些项可以以任意顺序来排序。如果同时实施关于不同各个组的普查记录的多个联合分析,那么可以添加指定将一起分析的普查文件的组的标签作为初级排序关键字带有关于关键字段值的次级排序、以及关于源标示符的第三排序以确保将一起分析的记录是连续的。剖析模块106的聚合子模块306将来自清单304的条目聚合以产生特异关键字段值条目的清单308,每个特异关键字段值条目识别特异关键字段值以及量化对于由输入普查文件表示的源实体在这个示例中,源实体A、B和C的每个该特异关键字段值在其中所出现的记录数的信息。通过源标识符来聚合例如,使用汇总运算rollupoperation在清单304中共享相同关键字段值的排序普查条目。在一些实施方式中,聚合子模块306将在包含与每个特异关键字段值相关联的两个矢量的数据结构中的条目聚合的结果存储起来。一个矢量存储每个源实体的单个实体记录计数,并且另一个矢量存储每对源实体的成对联合记录计数。所以,根据源实体的数目确定第一矢量的长度,并且根据唯一对源实体的数目确定第二矢量的长度。第一矢量的每个元素对应于特定源实体并且保存包含相关关键字段值的记录的计数,如果计数是非零的那么其是来自普查文件的计数,或者如果关键字段值未出现在普查文件中,那么计数为零。这个数据结构还能够容纳在多个分析中单独组的普查文件中的变化数目的文件。例如,子模块306能够使用诸如存储变量或查表运算的机制来将矢量中的索引与每一组的特定普查文件相联系。第二矢量的每个条目保存由特定对源实体之间的联合运算得到的联合记录数的计数,其被计算为每对在第一矢量中计数的乘积。基于第一矢量中实体的顺序可以来确定第二矢量的索引结构例如,通过形成包含第一索引小于第二索引的所有对索引的多索引。在图3的示例中,存在具有关键字段值“c”的两个普查记录:在实体B和实体C普查文件300B和300C中各一个。在实体B普查记录中实体记录的计数是2,并且在实体C普查记录中实体记录的计数是1。在清单308中的相应聚合后输出数据结构是“c[021][002]”,其中数据结构中的第一项是关键字段值“c”,下一项是分别在实体A、B、C中记录计数的第一矢量,并且最后一项是分别在实体对AB、AC和BC的计数乘积的第二矢量。在一些实施方式中可以省略第二矢量,并且因为其值完全由第一矢量中的值来确定,所以可以代替地稍后产生。根据清单308中的信息,通过访问提供出现统计的清单308中数据结构的合适值,可以为每对源实体计算总结信息诸如图2A中的图表和图2B中的维恩图。对于三向和更高阶联合,类似的总结信息也是可能的。因为通常特别感兴趣的是非唯一性,所以可以单独地报告唯一和非唯一记录的配对的计数。如上所述,可以产生每对的维恩图以形象化地表示联合分析的结果。例如,对于对AB,可以布置圆圈的相对尺寸和圆圈312的定心以及最终的重叠以量化地指示基于相应出现图表310中的信息所确定的每个区域中计数的近似值。在一些实施方式中,在普查文件300A、300B和300C中普查记录的数据结构还可以包括识别出现关键字段值的特定实体内各个记录位置的位置信息。在一个实施方式中,在产生普查记录期间,用具有相关关键字段值的每个记录的唯一记录标识符来填充矢量。如果实体的原始数据中的记录不具有唯一的记录标识符,那么例如通过给每个记录分配连号序列可以产生这种记录标识符并将其添加至记录作为剖析步骤的一部分。然后在合并阶段这个位置信息可以被包括在由普查记录收集的普查条目内,并且可以在聚合阶段进行结合,如下将进行更详细地描述。用于存储位置信息的其他实施方式是可能的,其中一些可以提供性能和或降低的存储空间的优点。例如,可以使用位矢量代替记录标识符的矢量。位矢量bitvector的每一位对应于特定的记录标识符,并且如果具有相应记录标识符的关联记录具有相关的关键字段值那么就设置位。位矢量的位与记录标识符之间的对应关系可以是明确的或隐含的。例如,可以存在将位与相应的记录标识符相联系的明确的映射不非要是一对一的映射,或者可以存在每一位的位置对应于记录位置的顺序次序的隐含映射。在一些实施方式中,压缩最终的位矢量以进一步地节省存储空间。通过将位置数据结构与每个普查条目相联系,这个位置信息可以被传送至清单308,其在清单308中作为每个聚合后输出数据结构的位置数据结构的矢量出现。对于每个源实体,位置数据结构的矢量包括一个位置数据结构例如,位矢量。在清单308的每个聚合后输出数据结构中存在位置数据结构的矢量有助于从结果“深入drilldown”到原始源实体中的相应记录。在一些情况下,如果源实体已经被关键字段值索引,那么可以使用关键字段值本身来查找原始源实体中的记录,对一些源实体可能并非如此。位置数据结构能够用作为原始源实体的属类索引,并且与该源实体相关联的普查文件能够用作为次级索引将关键值链接至位置数据结构内的索引。成对出现图表310和相关维恩图312的产生包含清单308中输出数据结构的聚合。例如,将对应于每个出现种类例如,1x0,1x1等的输出数据结构的计数进行合计以产生合成总计数。还可以结合位置数据结构。在位置数据结构是记录标识符矢量的情况下,对应于特定出现种类的特定源实体中的不同关键字段值的矢量被连结concatenate。在位置数据结构是位矢量的情况下,对与特定出现种类的特定源实体中不同关键字段值对应的位矢量一起进行逻辑“或OR”的运算。这个结果是对应于出现图表中每个条目或维恩图中条目的组合位置数据结构。使用这个位置数据结构,用户可以从这个条目深入至检索这个出现种类的样本记录或记录的完备集exhaustiveset。在参照完整性评估的环境中,例如能够访问复制的或孤立的记录非常重要,并且这提供了这样做的能力。不同的实施方式是可能的,其中对出现图表和维恩图的聚合不会结合位置数据结构本身而是构造对应于清单308中关键字段值的位矢量。在这个实施方式中,构造将位索引与清单308中的每个特异关键字段值配对的位-关键值的映射。在聚合期间,填充表明关键字段值有助于给定出现图表条目的位矢量。现在向下深入可以以两个步骤继续进行。使用出现图表条目的位矢量来找到相关联的关键字段值的集合根据位-关键值的映射。直接地在原始源实体中查找这些关键字段值以检索原始记录,或者查找这些关键字段值以检索例如清单308或普查文件300A-300C中的位置数据结构这进而被用来检索原始记录。这个实施方式可以提供在存储要求和效率方面的优点,尤其是如果原始源实体已经被关键字段值索引时。图4示出更新的方法,其中普查文件400C对于实体C到达剖析模块106的更新子模块406,其更新之前产生的输出清单408AB之前根据实体A和B的普查文件所产生的以产生更新后的清单408ABC。在普查文件400C中的普查条目“Cc1”表示特异关键字段值“c”以及该值出现在实体C的1个记录中的计数1。检索具有关键字段值“c”的408AB中相应的输出数据结构。将示出具有关键字段值“c”的记录的实体A和实体B中计数的第一向量“[02]”更新为“[021]”以添加示出具有关键字段值“c”的实体C中记录计数的元素。类似地,将示出计数的成对乘积的第二矢量从“[0]”更新为“[002]”,其中第二元素是实体A的计数和实体C的计数的乘积0*2=0,同时第三元素是实体B的计数和实体C的计数的乘积1*2=2。结果被写入更新后的数据输出结构的清单408ABC中。图5示出更新方法,其中普查文件500B对于实体B到达更新子模块406,其更新之前产生的输出清单508AB之前根据实体A的普查文件和实体B的普查文件的之前版本所产生的。在普查文件500B中的普查条目“Bc4”表示特异关键字段值“c”以及该值出现在实体B的4个记录中的计数4。根据清单508AB的相应的输出数据结构,之前实体B中对于“c”的计数为2根据第一矢量“[02]”中的第二元素。在第一矢量中使用新的计数来更新这个计数得到“[04]”。然后使用根据实体A和实体B的计数的乘积来更新第二矢量,其中在这个示例中保持不变为“[0]”。将这个结果写入更新后的输出清单510AB。图6示出更新方法的另一个示例,其中将两个单独产生的输出清单进行结合。基于来自实体A和实体B的普查记录的组合来产生输出清单608AB,并且基于来自实体B和实体C的普查记录的组合来产生输出清单608BC。在这个示例中,在产生两个输出清单时使用实体B的相同的普查记录。在其他示例中,普查文件的不同版本为实体B提供不同的普查记录,可以首先使用图5所示的步骤来更新输出数据结构中的实体B值以对应于最新的普查值。剖析模块106的结合子模块606将来自输出数据结构的信息与匹配关键字段值结合,例如,来自清单608AB的输出数据结构“c[02][0]”和来自清单608BC的输出数据结构“c[21][2]”。第一矢量的每个中的元素对应于在每个输出数据结构中表示的各个实体的普查计数。通过采用它们元素的联合来合并两个第一矢量,对于在两个输出数据结构中表示的任意实体仅保留一个元素最新的元素。在这个示例中,组合的结果是更新后的第一矢量“[021]”。然后根据更新后的第一矢量从计数的成对乘积来计算更新后的第二矢量,结果是更新后的第二矢量“[002]”。将更新后的输出数据结构存储在输出清单608ABC中。上述数据剖析方法可以使用执行适当软件的计算机系统来实现。例如,软件可以包括在一个或多个已编程或可编程计算系统可以具有各种架构,诸如分布式、客户端服务器、或网格式上执行的一个或多个计算机程序中的过程,每个计算系统包括至少一个处理器、至少一个数据存储系统包括易失性和或非易失性存储器和或存储元件以及至少一个用户接口用于使用至少一个输入设备或端口来接收输入,以及用于使用至少一个输出设备或端口来提供输出。该软件可包括大型程序的一个或多个模块,例如,该大型程序提供与数据流图的设计、配置和执行相关的其它服务。该程序的模块例如,数据流图的元件可以被实施为数据结构或者符合在数据库中存储的数据模型的其它组织的数据。该软件可以被提供在诸如CD-ROM或其他计算机可读介质之类的有形永久存储介质例如可以被通用或专用计算机系统或装置读取的介质上,或者通过网络的通信介质递送例如编码成传送信号到执行该软件的计算机系统的有形永久介质处。一些或全部处理可以在专用计算机上执行,或者使用诸如协处理器或现场可编程门阵列FPGA或专用集成电路ASIC之类的专用硬件来执行。该处理可以以分布方式实施,在该分布方式中,由该软件指定的不同的计算部分由不同的计算元件执行。每个这样的计算机程序被优选地存储在或下载到可由通用或专用可编程计算机读取的存储设备的计算机可读存储介质例如,固态存储器或介质、或者磁或光介质,用于在计算机读取该存储介质或设备时配置和操作该计算机,以执行此处所描述的处理。也可以考虑将本发明的系统实施为有形永久存储介质,其配置有计算机程序,其中,如此配置的存储介质使得计算机以特定和预定义的方式操作以执行此处所描述的一个或多个处理步骤。已经对本发明的多个实施例进行了描述。然而,应当理解,前面的描述旨在说明而非约束本发明的范围,本发明的范围由以下权利要求书的范围来限定。因此,其它实施例也落在以下权利要求书的范围内。例如,在不脱离本发明的范围的情况下可进行各种修改。此外,上述的一些步骤可以是无顺序关联的,因此可以以不同于所述的顺序来执行。

权利要求:1.一种用于剖析存储在数据存储系统中的数据的方法,所述方法包括:通过耦合至所述数据存储系统的接口来访问存储在所述数据存储系统中的多个记录集合,来为所述多个记录集合的每个存储量化信息,对于特定集合中所述记录的至少一个选定字段而言,每个所述特定集合的所述量化信息包括值计数条目的相应清单,每个值计数条目包括至少出现在所述选定字段中的值以及所述值至少出现在所述选定字段中的记录数的计数;以及处理两个或更多个所述集合的所述量化信息以产生剖析总结信息,所述处理包括:对于来自所述两个或更多个集合的至少第一集合和第二集合的每个的至少一个字段,将相应清单的所述值计数条目合并以产生值计数条目组合清单,以及将所述值计数条目组合清单的值计数条目聚合,以产生特异字段值条目的清单,所述特异字段值条目的至少一些从所述值计数条目的至少一个中识别出特异值;其中对应于特定集合的值计数条目清单中的每个值计数条目还包括识别所述值至少出现在所述选定字段中的所述特定记录集合内各个记录位置的位置信息。2.根据权利要求1所述的方法,其中将所述相应清单的所述值计数条目合并包括基于来自所述值计数条目的值来将所述值计数条目排序。3.根据权利要求2所述的方法,其中将所述值计数条目排序包括基于来自所述值计数条目的所述值根据初级排序次序来排序,以及基于所述两个或更多个集合的标识符根据次级排序次序来排序。4.根据权利要求1所述的方法,其中处理两个或更多个所述集合的所述量化信息包括处理三个或更多个所述集合的所述量化信息。5.根据权利要求4所述的方法,其中,所述处理包括,对于所述三个或更多个集合中至少两个集合的第一子集,根据所述特异字段值条目清单产生剖析总结信息,所述剖析总结信息包括所述第一子集中各个记录集合的所述字段之间联合运算的多个模式的结果。6.根据权利要求5所述的方法,其中,所述处理包括,对于所述三个或更多个集合中至少两个集合的不同于所述第一子集的第二子集,根据所述特异字段值条目清单产生剖析总结信息,所述剖析总结信息包括所述第二子集中各个记录集合的所述字段之间联合运算的多个模式的结果。7.根据权利要求1所述的方法,其中所述处理包括:对于所述两个或更多个集合的第三集合的至少一个字段,读取相应清单的所述值计数条目以更新所述特异字段值条目清单,使得所述特异字段值条目的至少一些从所述第一集合、第二集合和第三集合的相应清单的值计数条目中识别出特异值并且包括对所述第一集合、第二集合和第三集合的每个中所述特异值出现的记录数加以量化的信息。8.一种计算机程序,存储在计算机可读存储介质上,用于剖析存储在数据存储系统中的数据,所述计算机程序包括指令,所述指令用于使计算机系统:通过耦合至所述数据存储系统的接口来访问存储在所述数据存储系统中的多个记录集合,来为所述多个记录集合的每个存储量化信息,对于特定集合中所述记录的至少一个选定字段而言,每个所述特定集合的所述量化信息包括值计数条目的相应清单,每个值计数条目包括至少出现在所述选定字段中的值以及所述值至少出现在所述选定字段中的记录数的计数;以及处理两个或更多个所述集合的所述量化信息以产生剖析总结信息,所述处理包括:对于来自所述两个或更多个集合的至少第一集合和第二集合的每个的至少一个字段,将相应清单的所述值计数条目合并以产生值计数条目组合清单,以及将所述值计数条目组合清单的值计数条目聚合,以产生特异字段值条目的清单,所述特异字段值条目的至少一些从所述值计数条目的至少一个中识别出特异值;其中对应于特定集合的值计数条目清单中的每个值计数条目还包括识别所述值至少出现在所述选定字段中的所述特定记录集合内各个记录位置的位置信息。9.一种用于剖析存储在数据存储系统中的数据的计算系统,所述计算系统包括:耦合至所述数据存储系统的接口,被配置为访问存储在所述数据存储系统中的多个记录集合,来为所述多个记录集合的每个存储量化信息,对于特定集合中所述记录的至少一个选定字段而言,每个所述特定集合的所述量化信息包括值计数条目的相应清单,每个值计数条目包括至少出现在所述选定字段中的值以及所述值至少出现在所述选定字段中的记录数的计数;以及至少一个处理器,被配置为处理两个或更多个所述集合的所述量化信息以产生剖析总结信息,所述处理包括:对于来自所述两个或更多个集合的至少第一集合和第二集合的每个的至少一个字段,将相应清单的所述值计数条目合并以产生值计数条目组合清单,以及将所述值计数条目组合清单的值计数条目聚合,以产生特异字段值条目的清单,所述特异字段值条目的至少一些从所述值计数条目的至少一个中识别出特异值;其中对应于特定集合的值计数条目清单中的每个值计数条目还包括识别所述值至少出现在所述选定字段中的所述特定记录集合内各个记录位置的位置信息。10.一种用于剖析存储在数据存储系统中的数据的计算系统,所述计算系统包括:访问装置,用于访问存储在所述数据存储系统中的多个记录集合,来为所述多个记录集合的每个存储量化信息,对于特定集合中所述记录的至少一个选定字段而言,每个所述特定集合的所述量化信息包括值计数条目的相应清单,每个值计数条目包括至少出现在所述选定字段中的值以及所述值至少出现在所述选定字段中的记录数的计数;以及处理装置,用于处理两个或更多个所述集合的所述量化信息以产生剖析总结信息,所述处理包括:对于来自所述两个或更多个集合的至少第一集合和第二集合的每个的至少一个字段,将相应清单的所述值计数条目合并以产生值计数条目组合清单,以及将所述值计数条目组合清单的值计数条目聚合,以产生特异字段值条目的清单,所述特异字段值条目的至少一些从所述值计数条目的至少一个中识别出特异值;其中对应于特定集合的值计数条目清单中的每个值计数条目还包括识别所述值至少出现在所述选定字段中的所述特定记录集合内各个记录位置的位置信息。11.一种用于剖析存储在数据存储系统中的数据的方法,所述方法包括:通过耦合至所述数据存储系统的接口来访问存储在所述数据存储系统中的多个记录集合,来为所述多个记录集合的每个存储量化信息,对于特定集合中所述记录的至少一个选定字段而言,每个所述特定集合的所述量化信息包括值计数条目的相应清单,每个值计数条目包括至少出现在所述选定字段中的值以及所述值至少出现在所述选定字段中的记录数的计数;以及处理两个或更多个所述集合的所述量化信息以产生剖析总结信息,所述处理包括:对于来自所述两个或更多个集合的至少第一集合的至少一个字段,读取相应清单的所述值计数条目以存储包括特异字段值条目清单的输出数据,以及对于来自所述两个或更多个集合的第二集合的至少一个字段,读取相应清单的所述值计数条目,以至少部分基于所述存储的输出数据来存储更新输出数据,使得所述特异字段值条目的至少一些从所述第一集合和第二集合的相应清单的值计数条目中识别出特异值;其中对应于特定集合的值计数条目清单中的每个值计数条目还包括识别所述值至少出现在所述选定字段中的所述特定记录集合内各个记录位置的位置信息。12.根据权利要求11所述的方法,其中处理两个或更多个所述集合的所述量化信息包括处理三个或更多个所述集合的所述量化信息。13.根据权利要求12所述的方法还包括,对于所述三个或更多个集合中至少两个集合的第一子集,根据所述特异字段值条目清单产生剖析总结信息,所述剖析总结信息包括所述第一子集中各个记录集合的所述字段之间联合运算的多个模式的结果。14.根据权利要求13所述的方法还包括,对于所述三个或更多个集合中至少两个集合的不同于所述第一子集的第二子集,根据所述特异字段值条目清单产生剖析总结信息,所述剖析总结信息包括所述第二子集中各个记录集合的所述字段之间联合运算的多个模式的结果。15.根据权利要求11所述的方法,其中所述处理包括:对于所述两个或更多个集合的第三集合的至少一个字段,读取相应清单的所述值计数条目以更新所述特异字段值条目清单,使得所述特异字段值条目的至少一些从所述第一集合、第二集合和第三集合的相应清单的值计数条目中识别出特异值并且包括对所述第一集合、第二集合和第三集合的每个中所述特异值出现的记录数加以量化的信息。16.一种计算机程序,存储在计算机可读存储介质上,用于剖析存储在数据存储系统中的数据,所述计算机程序包括指令,所述指令用于使计算机系统:通过耦合至所述数据存储系统的接口来访问存储在所述数据存储系统中的多个记录集合,来为所述多个记录集合的每个存储量化信息,对于特定集合中所述记录的至少一个选定字段而言,每个所述特定集合的所述量化信息包括值计数条目的相应清单,每个值计数条目包括至少出现在所述选定字段中的值以及所述值至少出现在所述选定字段中的记录数的计数;以及处理两个或更多个所述集合的所述量化信息以产生剖析总结信息,所述处理包括:对于来自所述两个或更多个集合的至少第一集合的至少一个字段,读取相应清单的所述值计数条目以存储包括特异字段值条目清单的输出数据,以及对于来自所述两个或更多个集合的第二集合的至少一个字段,读取相应清单的所述值计数条目,以至少部分基于所述存储的输出数据来存储更新输出数据,使得所述特异字段值条目的至少一些从所述第一集合和第二集合的相应清单的值计数条目中识别出特异值;其中对应于特定集合的值计数条目清单中的每个值计数条目还包括识别所述值至少出现在所述选定字段中的所述特定记录集合内各个记录位置的位置信息。17.一种用于剖析存储在数据存储系统中的数据的计算系统,所述计算系统包括:耦合至所述数据存储系统的接口,被配置为访问存储在所述数据存储系统中的多个记录集合,来为所述多个记录集合的每个存储量化信息,对于特定集合中所述记录的至少一个选定字段而言,每个所述特定集合的所述量化信息包括值计数条目的相应清单,每个值计数条目包括至少出现在所述选定字段中的值以及所述值至少出现在所述选定字段中的记录数的计数;以及至少一个处理器,被配置为处理两个或更多个所述集合的所述量化信息以产生剖析总结信息,所述处理包括:对于来自所述两个或更多个集合的至少第一集合的至少一个字段,读取相应清单的所述值计数条目以存储包括特异字段值条目清单的输出数据,以及对于来自所述两个或更多个集合的第二集合的至少一个字段,读取相应清单的所述值计数条目,以至少部分基于所述存储的输出数据来存储更新输出数据,使得所述特异字段值条目的至少一些从所述第一集合和第二集合的相应清单的值计数条目中识别出特异值;其中对应于特定集合的值计数条目清单中的每个值计数条目还包括识别所述值至少出现在所述选定字段中的所述特定记录集合内各个记录位置的位置信息。18.一种用于剖析存储在数据存储系统中的数据的计算系统,所述计算系统包括:访问装置,用于访问存储在所述数据存储系统中的多个记录集合,来为所述多个记录集合的每个存储量化信息,对于特定集合中所述记录的至少一个选定字段而言,每个所述特定集合的所述量化信息包括值计数条目的相应清单,每个值计数条目包括至少出现在所述选定字段中的值以及所述值至少出现在所述选定字段中的记录数的计数;以及处理装置,用于处理两个或更多个所述集合的所述量化信息以产生剖析总结信息,所述处理包括:对于来自所述两个或更多个集合的至少第一集合的至少一个字段,读取相应清单的所述值计数条目以存储包括特异字段值条目清单的输出数据,以及对于来自所述两个或更多个集合的第二集合的至少一个字段,读取相应清单的所述值计数条目,以至少部分基于所述存储的输出数据来存储更新输出数据,使得所述特异字段值条目的至少一些从所述第一集合和第二集合的相应清单的值计数条目中识别出特异值;其中对应于特定集合的值计数条目清单中的每个值计数条目还包括识别所述值至少出现在所述选定字段中的所述特定记录集合内各个记录位置的位置信息。19.根据权利要求8所述的计算机程序,其中,将所述相应清单的所述值计数条目合并包括基于来自所述值计数条目的值来将所述值计数条目排序。20.根据权利要求19所述的计算机程序,其中,将所述值计数条目排序包括基于来自所述值计数条目的所述值根据初级排序次序来排序,以及基于所述两个或更多个集合的标识符根据次级排序次序来排序。21.根据权利要求8所述的计算机程序,其中,处理两个或更多个所述集合的所述量化信息包括处理三个或更多个所述集合的所述量化信息。22.根据权利要求21所述的计算机程序,其中,所述处理包括,对于所述三个或更多个集合中至少两个集合的第一子集,从所述特异字段值条目清单产生剖析总结信息,所述剖析总结信息包括所述第一子集中各个记录集合的所述字段之间联合运算的多个模式的结果。23.根据权利要求22所述的计算机程序,其中,所述处理包括,对于所述三个或更多个集合中至少两个集合的不同于所述第一子集的第二子集,从所述特异字段值条目清单产生剖析总结信息,所述剖析总结信息包括所述第二子集中各个记录集合的所述字段之间联合运算的多个模式的结果。24.根据权利要求8所述的计算机程序,其中,所述处理包括,对于来自所述两个或更多个集合的第三集合的至少一个字段,读取相应清单的所述值计数条目以更新所述特异字段值条目清单,使得所述特异字段值条目的至少一些从所述第一集合、第二集合和第三集合的相应清单的值计数条目中识别出特异值并且包括对所述第一集合、第二集合和第三集合的每个中所述特异值出现的记录数加以量化的信息。25.根据权利要求9所述的计算系统,其中,将所述相应清单的所述值计数条目合并包括基于来自所述值计数条目的值将所述值计数条目排序。26.根据权利要求25所述的计算系统,其中,将所述值计数条目排序包括基于来自所述值计数条目的所述值根据初级排序次序来排序,以及基于所述两个或更多个集合的标识符根据次级排序次序来排序。27.根据权利要求9所述的计算系统,其中,处理两个或更多个所述集合的所述量化信息包括处理三个或更多个所述集合的所述量化信息。28.根据权利要求27所述的计算系统,其中,所述处理包括,对于所述三个或更多个集合中至少两个集合的第一子集,从所述特异字段值条目清单产生剖析总结信息,所述剖析总结信息包括所述第一子集中各个记录集合的所述字段之间联合运算的多个模式的结果。29.根据权利要求28所述的计算系统,其中,所述处理包括,对于所述三个或更多个集合中至少两个集合的不同于所述第一子集的第二子集,从所述特异字段值条目清单产生剖析总结信息,所述剖析总结信息包括所述第二子集中各个记录集合的所述字段之间联合运算的多个模式的结果。30.根据权利要求9所述的计算系统,其中,所述处理包括,对于来自所述两个或更多个集合的第三集合的至少一个字段,读取相应清单的所述值计数条目以更新所述特异字段值条目清单,使得所述特异字段值条目的至少一些从所述第一集合、第二集合和第三集合的相应清单的值计数条目中识别出特异值并且包括对所述第一集合、第二集合和第三集合的每个中所述特异值出现的记录数加以量化的信息。31.根据权利要求16所述的计算机程序,其中,处理两个或更多个所述集合的所述量化信息包括处理三个或更多个所述集合的所述量化信息。32.根据权利要求31所述的计算机程序,其中,所述处理包括,对于所述三个或更多个集合中至少两个集合的第一子集,从所述特异字段值条目清单产生剖析总结信息,所述剖析总结信息包括所述第一子集中各个记录集合的所述字段之间联合运算的多个模式的结果。33.根据权利要求32所述的计算机程序,其中,所述处理包括,对于所述三个或更多个集合中至少两个集合的不同于所述第一子集的第二子集,从所述特异字段值条目清单产生剖析总结信息,所述剖析总结信息包括所述第二子集中各个记录集合的所述字段之间联合运算的多个模式的结果。34.根据权利要求16所述的计算机程序,其中,所述处理包括,对于来自所述两个或更多个集合的第三集合的至少一个字段,读取相应清单的所述值计数条目以更新所述特异字段值条目清单,使得所述特异字段值条目的至少一些从所述第一集合、第二集合和第三集合的相应清单的值计数条目中识别出特异值并且包括对所述第一集合、第二集合和第三集合的每个中所述特异值出现的记录数加以量化的信息。35.根据权利要求17所述的计算系统,其中,处理两个或更多个所述集合的所述量化信息包括处理三个或更多个所述集合的所述量化信息。36.根据权利要求35所述的计算系统,其中,所述处理包括,对于所述三个或更多个集合中至少两个集合的第一子集,从所述特异字段值条目清单产生剖析总结信息,所述剖析总结信息包括所述第一子集中各个记录集合的所述字段之间联合运算的多个模式的结果。37.根据权利要求36所述的计算系统,其中,所述处理包括,对于所述三个或更多个集合中至少两个集合的不同于所述第一子集的第二子集,从所述特异字段值条目清单产生剖析总结信息,所述剖析总结信息包括所述第二子集中各个记录集合的所述字段之间联合运算的多个模式的结果。38.根据权利要求17的所述的计算系统,其中,所述处理包括,对于来自所述两个或更多个集合的第三集合的至少一个字段,读取相应清单的所述值计数条目以更新所述特异字段值条目清单,使得所述特异字段值条目的至少一些从所述第一集合、第二集合和第三集合的相应清单的值计数条目中识别出特异值并且包括对所述第一集合、第二集合和第三集合的每个中所述特异值出现的记录数加以量化的信息。

百度查询: 起元科技有限公司 使用源跟踪剖析数据

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。