首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种分布式图处理系统中加速无检查点故障恢复的方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:华东师范大学

摘要:本发明公开了一种分布式图处理系统中加速无检查点故障恢复的方法,包括感知分区的备份策略以及增量协议。若所述故障涉及无拓扑突变的图算法,则应用感知分区的备份策略;若所述故障涉及拓扑突变的图算法,则感知分区的备份策略及增量协议协同使用。感知分区的备份策略在正常执行期间将系统中各个节点的子图进行备份,并在恢复期间直接通过备份恢复故障节点上的丢失子图,从而减少了无检查点的恢复方式在恢复期间引入的附加开销。增量协议在正常期间将涉及拓扑突变的信息作为日志记录下来,并在恢复期间利用这些日志将系统中所有节点的拓扑恢复至故障发生前的某个时刻,避免了无检查点的恢复方式在处理涉及拓扑突变的故障时导致结果不精确的问题。

主权项:1.一种分布式图处理系统中加速无检查点故障恢复的方法,其特征在于,若所述故障涉及无拓扑突变的图算法,则应用感知分区的备份策略;若所述故障涉及拓扑突变的图算法,则感知分区的备份策略及增量协议协同使用;所述感知分区的备份策略的步骤具体包括:步骤A1:在分布式图处理系统正常执行期间,当系统读入输入数据并完成shuffle过程后,系统要求所有节点将子图备份至分布式文件系统;步骤A2:一旦故障发生,系统利用子图的备份来恢复故障节点的丢失子图;所述备份操作只在迭代数为0时进行;所述增量协议的运行步骤具体包括:步骤B1:在正常执行期间,分布式图处理系统将发生的图拓扑突变写入到位于分布式文件系统的日志中;步骤B1具体包括:步骤B11:在每个迭代Si,系统会监控每个节点是否对图的拓扑进行了修改,如果进行了修改则进入步骤B12;步骤B12:一旦节点在迭代Si对图拓扑进行了修改,节点将生成对应的拓扑突变日志,并写入到位于分布式文件系统的日志文件中;步骤B13:在所有修改了拓扑的节点将日志信息写入到分布式文件系统后,系统将在分布式文件系统上创建一个以Si命名的标志文件,用以表明系统已完整记录发生在迭代Si的拓扑突变信息;步骤B2:一旦故障发生,在通过感知分区的备份策略恢复故障节点的丢失子图后,系统利用日志中记录的拓扑突变信息将所有节点的拓扑恢复至某个迭代,之后系统将执行用户自定义的补偿方法恢复丢失子图的顶点的值,并重新开始进行计算,直到迭代中止;步骤B2具体包括:步骤B21:系统从分布式文件系统读取标志文件的文件名,并据此生成一个迭代列表L;步骤B22:所有节点读取日志文件,并逐条处理日志中有关拓扑突变记录;步骤B23:对于每条记录R,节点获取R中包含的迭代数Si,如果Si属于L,则进入步骤B24,否则进入步骤B25;步骤B24:Si属于L表明系统能够将拓扑恢复至迭代Si处,则节点需要重做R中记录的拓扑突变,以复现拓扑的修改,从而确保节点上子图的拓扑与Si迭代处的子图拓扑相同;步骤B25:Si不属于L表明系统不可将拓扑恢复至Si处,此时R中记录的拓扑突变为多余的拓扑突变,节点应当予以撤销,即执行与R相反的操作;步骤B26:在恢复拓扑之后,系统在丢失的顶点上执行补偿函数,并继续进行计算,直到迭代终止。

全文数据:

权利要求:

百度查询: 华东师范大学 一种分布式图处理系统中加速无检查点故障恢复的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。