首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种对输出列进行合并计算的方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:杭州沃趣科技股份有限公司

摘要:本发明涉及数据库查询优化领域,公开了一种对输出列进行合并计算的方法,包括以下步骤:S100、改写各个输出列表达式:将运算表达式按照运算的交换律以及列的ID进行改写,使得对于一个列的集合和表达式最终能生成一个唯一的表达式;S200、初始化各个输出列表达式:对于各个输出列表达式,转换成二叉树进行后续遍历,计算当前表达式中出现的表中列的集合以及表达式的深度;S300、根据各个输出列的最终深度进行排序;S400、标记输出列之间的表达式共享关系,并将其结果存入表达式;S500、根据步骤S400生成的表达式共享关系,在输出列表达式之间直接设置中间状态的共享。本发明最终实现减少了CPU的使用率,从而提高了整个查询计划的执行效率。

主权项:一种对输出列进行合并计算的方法,其特征在于,包括如下步骤:S100、改写各个输出列表达式:将运算表达式按照运算的交换律以及列的ID进行改写,使得对于一个列的集合和表达式最终能生成一个唯一的表达式;S200、初始化各个输出列表达式:对于各个输出列表达式,转换成二叉树进行后续遍历,计算当前表达式中出现的表中列的集合以及表达式的深度;S300、根据各个输出列的最终深度进行排序;S400、标记输出列之间的表达式共享关系,并将其结果存入表达式;S500、根据步骤S400生成的表达式共享关系,在输出列表达式之间直接设置中间状态的共享。

全文数据:一种对输出列进行合并计算的方法技术领域[0001]本发明涉及数据库查询优化领域,特别是涉及一种对输出列进行合并计算的方法。背景技术[0002]目前,在数据库处理SQL的过程主要分为三个阶段:[0003]一、分析阶段:在这个阶段,数据库将来自客户端的标准结构化的查询语句SQL,借助词法语法解析工具转换成数据库可以识别的数据结构一一语法分析树。[0004]二、查询优化阶段:数据库在语法分析树上面施加各种优化的方法也就是数据库中常见的查询改写),然后为参与连接的表计算出一条最优的访问路径,最终生成一个结构来表示最优的查询计划。[0005]三、执行查询计划阶段,执行最优的查询计划,最终获得结果。[0006]在查询优化阶段,会将谓词尽可能下推到底层的表,然后计算谓词的选择率,从而确定每个表的访问方法,最终使用动态规划算法最终获得一个最优的表的连接路径。这个连接路径基本上确定了整个查询计划。[0007]随着目前数据处理技术的不断变化,数据库中SQL也变成更加复杂,输出列的计算相应的占用了大量的CPU时间。因此有必要对输出列进行处理,以提高计算的效率。[0008]目前的数据库中,某些数据库已经实现了对下面场景的优化:假设SQL为SELECTSUM⑻,AVG⑻FROMT1,在计算AVG⑻的时候,实际上是己经能获得SUM⑻的,因此可以省去计算SUM⑻。[0009]但是,对于更加复杂的情况,比如:SELECTSUMX+Y,AVGX+Y*ZFROMT1,目前的优化措施无法让两个表达式共享中间计算结果,因此会造成多次计算某些表达式而浪费了CPU资源。发明内容[0010]本发明针对现有技术中计算资源占有率大的缺点,提供了一种对输出列进行合并计算的方法。[0011]为了解决上述技术问题,本发明通过下述技术方案得以解决。[0012]—种对输出列进行合并计算的方法,包括如下步骤:[0013]S100、改写各个输出列表达式:将运算表达式按照运算的交换律以及列的ID进行改写,使得对于一个列的集合和表达式最终能生成一个唯一的表达式;[0014]S2〇0、初始化各个输出列表达式:对于各个输出列表达式,转换成二叉树进行后续遍历,计算当前表达式中出现的表中列的集合以及表达式的深度;[0015]S300、根据各个输出列的最终深度进行排序;[0016]S400、标记输出列之间的表达式共享关系,并将其结果存入表达式;[0017]S500、根据步骤S400生成的表达式共享关系,在输出列表达式之间直接设置中间状态的共享。[0018]作为优选,步骤S400中,还包括:[0019]S410、初始化两个集合,一个集合是己处理的表达式的集合,一个是未处理的表达式的集合,将所有的输出列表达式放入未处理的表达式集合;[0020]S411、判断未处理的表达式集合是否为空,为空则直接退出;不为空,则进入下一步;[0021]S412、从未处理的表达式集合中取出深度最深的表达式,假设该表达式的深度为K;[0022]S413、从未处理的表达式集合中,按照深度递减的顺序取出其他表达式;[0023]S414、判断未处理的表达式集合中是否还有其他表达式,如果有,则取出深度为K一N的表达式,则进入步骤S415;如不存在,则进入步骤S418;[0024]S415、寻找深度为K和K一N的表达式是否存在共同的表达式:两个表达式相同需要满足两个条件:a、左右子表达式相同,如表达式是引用的列,则需要表达式所引用的列也最终相同;如表达式是常量,则需要常量也相同;b、表达式的操作符相同;[0025]S416、判断二者是否存在共享的表达式:如不存在,则回到步骤S413,处理下一个深度的表达式;如存在,则进入步骤S417;[0026]S417、标注两个表达式的子表达式共享关系,返回步骤S413;[0027]S41S、将当前深度为K的表达式从未处理表达式集合中删除。[0028]本发明由于采用了以上技术方案,具有显著的技术效果:本发明提供了对输出列表达式进行合并计算的方法,使得最终在计算输出列的时候,能够共享一些表达式的结果,从而消除了重复执行一些表达式的开销,最终实现减少了CPU的使用率,从而提高了整个查询计划的执行效率。附图说明[0029]图1是本发明一种对输出列进行合并计算的方法中的流程图;[0030]图2是本发明一种对输出列进行合并计算的方法中的标记输出列的表达式共享关系的流程图;[0031]图3是本发明一种对输出列进行合并计算的方法中求总和的二叉树数据结构示意图;^032]图4是本发明一种对输出列进行合并计算的方法中求总平均值的二叉树数据结构不意图。具体实施方式[0033]下面通过附图和实施例对本发明作进一步详细描述。[0034]如图1至^4所示,一种对输出列进行合并计算的方法,包括如下步骤:[0035]S100、改写各个输出列表达式:将运算表达式按照运算的交换律以及列的ID进行改写,使得对于一个列的集合和表达式最终能生成一个唯一的表达式;[0036]S200、初始化各个输出列表达式:对于各个输出列表达式,转换成二叉树进行后续遍历,计算当前表达式中出现的表中列的集合以及表达式的深度;[0037]S300、根据各个输出列的最终深度进行排序;[0038]S400、标记输出列之间的表达式共享关系,并将其结果存入表达式;[0039]S500、根据步骤S400生成的表达式共享关系,在输出列表达式之间直接设置中间状态的共享。[0040]作为优选,步骤S400中,还包括:[0041]S410、初始化两个集合,一个集合是已处理的表达式的集合,一个是未处理的表达式的集合,将所有的输出列表达式放入未处理的表达式集合;[0042]S411、判断未处理的表达式集合是否为空,为空则直接退出;不为空,则进入下一步;[0043]S412、从未处理的表达式集合中取出深度最深的表达式,假设该表达式的深度为K;[0044]S413、从未处理的表达式集合中,按照深度递减的顺序取出其他表达式;[0045]S414、判断未处理的表达式集合中是否还有其他表达式,如果有,则取出深度为K一N的表达式,则进入步骤S415;如不存在,则进入步骤S418;[0046]S415、寻找深度为K和K一N的表达式是否存在共同的表达式:两个表达式相同需要满足两个条件:a、左右子表达式相同,如表达式是引用的列,则需要表达式所引用的列也最终相同;如表达式是常量,则需要常量也相同;b、表达式的操作符相同;[0047]S416、判断二者是否存在共享的表达式:如不存在,则回到步骤S413,处理下一个深度的表达式;如存在,则进入步骤S417;[0048]S417、标注两个表达式的子表达式共享关系,返回步骤S413;[0049]S418、将当前深度为K的表达式从未处理表达式集合中删除。[0050]本发明提供了对输出列表达式进行合并计算的方法,使得最终在计算输出列的时候,能够共享一些表达式的结果,从而消除了重复执行一些表达式的开销,最终实现减少了PU的使用率,从而提高了整个查询计划的执行效率。[0051]实施例1[0052]在表T1中存在列X、Y、和Z,并且在数据库内部的元数据中,X的ID小于Y的ID,Y的ID小于Z的ID,当前需要处理如下的SQL:[0053]SELECTSUMX+Y,AVGX+Y*ZFROMT1。[0054]在数据库内部,对该SQL经过分析阶段之后得到一个语法分析树,然后进过查询优化得到一个最优的访问路径,该访问路径主要是确定需要全表扫描n表。接下来,施加本发明的处理过程:[0055]1、改写输出表达式,主要是根据运算交换律以及列的ID进行改写表达式,可以采用按照ID进行升序改写,或是降序改写,不管采用哪种排序,都不影响本发明的实施。如果采用列ID降序改写,则SUMX+Y需要改写成SUMY+X,AVGX+Y*Z改写成AVGZ*Y+X。在本实施例中,采用ID升序改写,故输入的表达式和输出的表达式相同。[0056]2、初始化各个输出表达式,主要是遍历表达式来设置输出表达式引用的列名以及表达式的深度。对于SUMX+Y,引用的列名是X和Y,表达式深度为3,AVGX+Y*Z的深度为5,引用的列名是X、Y、Z。[0057]3、根据输出表达式的深度,进行排序,可以是升序或是降序,无论哪种排序或是排序算法不影响本发明的实施。[0058]4、标记输出表达式的共享关系,选择深度为5的AVGX+Y*Z,寻找和深度为3的SUMX+Y之间表达式共享的关系。由于二者引用的列名有交集XY,因此寻找两个输出表达式的二叉树数据结构内的相同的最大的子二叉树。两个输出表达式的二叉树数据结构如下图:[0059]图3为SUMX+Y的二叉树数据结构,图4为AVGX+Y*Z的二叉树数据结构。存在着多种寻找二叉树之间相同子树的算法,不论使用哪种算法都不影响本发明的实施。对于这两个输出表达式,最终寻找到相同的子表达式是X+Y,因此标记两个表达式之间存在共享的表达式。[0060]5、设置输出表达式之间的共享。主要是在初始化输出表达式时,如果发现某个输出表达式和其他的输出表达式存在共享关系,则先去寻找是否存在对应的内存,该内存会缓存表达式的结果,如果不存在,则为其申请一块内存,如果存在则关联对应的内存。[0061]在完成了上述措施后,在数据库执行查询计划时,先从T1中逐一取出每条记录,对于每^记录,取出X、Y、Z字段的值,计算输出表达式:先计算SUMX+Y中的X+Y值,该表达式是共享表达式,因此计算完毕之后,一方面将X+Y的值假设是V缓存到对应的内存块供其他表达式读取,一方面将X+Y的值和上次的结果累加(S卩SUM操作);对于AVGX+Y*Z表达式,则按照图4所示,先计算X+Y,发现是共享表达式,直接去缓存的结果V,然后执行V*Z,接着计算累加值sum和个数累加count。在处理完所有的记录之后,SUMX+Y的结果就是X+Y累加值,而AVGX+Y*Z的结果则是用累加值除以个数的累计值即(SUM的结果除以COUNT的结果)。最终,得到该SQL的输出结果。[0062]总之,以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所作的均等变化与修饰,皆应属本发明专利的涵盖范围。

权利要求:1.一种对输出列进行合并计算的方法,其特征在于,包括如下步骤:S100、改写各个输出列表达式:将运算表达式按照运算的交换律以及列的ID进行改写,使得对于一个列的集合和表达式最终能生成一个唯一的表达式;S200、初始化各个输出列表达式:对于各个输出列表达式,转换成二叉树进行后续遍历,计算当前表达式中出现的表中列的集合以及表达式的深度;S300、根据各个输出列的最终深度进行排序;S400、标记输出列之间的表达式共享关系,并将其结果存入表达式;S500、根据步骤S400生成的表达式共享关系,在输出列表达式之间直接设置中间状态的共享。2.根据权利要求1所述的一种对输出列进行合并计算的方法,其特征在于:步骤S400中,还包括:5410、初始化两个集合,一个集合是己处理的表达式的集合,一个是未处理的表达式的集合,将所有的输出列表达式放入未处理的表达式集合;5411、判断未处理的表达式集合是否为空,为空则直接退出;不为空,则进入下一步;5412、从未处理的表达式集合中取出深度最深的表达式,假设该表达式的深度为K;5413、从未处理的表达式集合中,按照深度递减的顺序取出其他表达式;5414、判断未处理的表达式集合中是否还有其他表达式,如果有,则取出深度为K一N的表达式,则进入步骤S415;如不存在,则进入步骤S418;5415、寻找深度为K和K一N的表达式是否存在共同的表达式:两个表达式相同需要满足两个条件:a、左右子表达式相同,如表达式是引用的列,则需要表达式所引用的列也最终相同;如表达式是常量,贝J需要常量也相同;b、表达式的操作符相同;5416、判断二者是否存在共享的表达式:如不存在,则回到步骤S413,处理下一个深度的表达式;如存在,则进入步骤S417;5417、标注两个表达式的子表达式共享关系,返回步骤S413;5418、将当前深度为K的表达式从未处理表达式集合中删除。

百度查询: 杭州沃趣科技股份有限公司 一种对输出列进行合并计算的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。