买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:迈普通信技术股份有限公司
摘要:本发明公开了一种故障检测方法、LPU和分布式网络通信设备,涉及分布式软件领域,用于对LPU出现故障进行检测。该故障检测方法,用于对LPU的业务任务进行故障检测,该方法包括:在一个业务任务处理控制消息之前,记录第一信息,所述第一信息指示所述业务任务即将进入处理流程;在所述业务任务处理完所述控制消息之后,记录第二信息,所述第二信息指示所述业务任务完成所述处理流程;如果经过连续N次检测,只能检测到所述第一信息而无法检测到所述第二信息,则判断所述业务任务发生故障。本发明的实施例应用于分布式网络通信设备。
主权项:一种故障检测方法,其特征在于,用于对LPU的业务任务进行故障检测,所述方法包括:在一个业务任务处理控制消息之前,记录第一信息,所述第一信息指示所述业务任务即将进入处理流程;在所述业务任务处理完所述控制消息之后,记录第二信息,所述第二信息指示所述业务任务完成所述处理流程;经过设定次数的检测,如果连续检测到所述第一信息与所述第二信息不一致,则判断所述业务任务发生故障。
全文数据:故障检测方法、LPU和分布式网络通信设备技术领域i[0001]本发明涉及分布式软件领域,尤其涉及一种故障检测方法、LPU和分布式网络通信设备。背景技术[0002]参照图1中所示,分布式网络通信设备包括MPU英文全称:masterprocessunit,中文全称:主控处理单元,简称:主控卡)和多个分布式部件LPU英文全称:1ineProcessunit,中文全称:线路处理单元,简称:线卡)。在现有技术中,LPU处理MPU发送的控制消息流程中出现故障后,需要手工对业务任务进行跟踪。这对于一般的技术人员来说,无疑是一个比较大挑战。另外,在无人值守的情况下,LPU出现故障后,可能导致LPU通信长时间中断,需要定位故障和恢复故障。[0003]基于此,LPU上有必要提供一种自动检测业务任务处理MPU的控制消息故障的机制,自动检测业务任务的故障。发明内容[0004]本发明的实施例提供一种故障检测方法、LPU和分布式网络通信设备,用于对LPU出现故障进行检测。[0005]为达到上述目的,本发明的实施例采用如下技术方案:[0006]第一方面,提供了一种故障检测方法,用于对LPU的业务任务进行故障检测,该方法包括:[0007]在一个业务任务处理控制消息之前,记录第一信息,所述第一信息指示所述业务任务即将进入处理流程;[0008]在所述业务任务处理完所述控制消息之后,记录第二信息,所述第二信息指示所述业务任务完成所述处理流程;[0009]经过设定次数的检测,如果连续检测到所述第一信息与所述第二信息不一致,则判断所述业务任务发生故障。[0010]第二方面,提供了一种LPU,其特征在于,用于对LPU的多个业务任务进行故障检测,该LPU包括:[0011]记录单元,用于在一个业务任务处理控制消息之前,记录第一信息,所述第一信息指示所述业务任务即将进入处理流程;[0012]所述记录单元,还用于在所述业务任务处理完所述控制消息之后,记录第二信息,所述第二信息指示所述业务任务完成所述处理流程;[0013]判断单元,用于经过设定次数的检测,如果连续检测到所述第一信息与所述第二信息不一致,则判断所述业务任务发生故障。[0014]第三方面,提供了一种分布式网络通信设备,包括如第二方面所述的LPU和MPU,所述MPU用于向所述LPU发送控制消息。[0015]本发明的实施例提供的故障检测方法、LPU和分布式网络通信设备,通过LinJ上的业务任务在进行处理控制消息之前记录第一消息,在该业务任务完成处理控制消息之后记录第二消息,如果经过多次检测只能检测到第一消息而无法检测到第二消息,则说明该业务任务无法完成控制消息的处理,因此可以认为该业务任务发生了故障,从而实现了对LPU出现故障进行检测。附图说明[0016]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。[0017]图1为本发明的实施例提供的分布式网络通信设备的结构示意图;[0018]图2为本发明的实施例提供的故障检测方法的流程示意图;[0019]图3为本发明的实施例提供的LRJ的结构示意图。具体实施方式[0020]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。[0021]参照图1中所示,本发明实施例提供了一种分布式网络通信设备,该设备包括:MPU11和LPU12MPU11与LPU12通过卡间通信通道互相通信。LPU12上有多个业务模块,每个业务模块对应一个业务任务,MPU11向LPU12的某个业务模块发送控制消息,由LPU12通过控制消息分类发送给对应的业务任务进行处理,LPU12上的各个业务任务向MPU11发送消息或者协议报文。同时,LPU12上还运行监控任务,用于对LPU12的业务任务进行故障检测,MPU11还用于在接收到LPU12发送的故障消息后,根据故障处理策略对故障进行处理。监控任务优先级设置为最高,这样可以使得业务任务即使出现死循环,监控任务仍然能够运行。[0022]本发明的实施例提供的故障检测方法、装置和系统,通过LPU上的业务任务在进行处理控制消息之前和之后分别生成指示消息,如果经过多次检测只能检测到处理控制消息之前的指示消息而无法检测到处理控制消息之后的指示消息,则说明该业务任务无法完成控制消息的处理,因此可以认为该业务任务发生了故障,从而实现了对UU出现故障进行检测。[0023]实施例1、[0024]本发明的实施例提供了一种故障检测方法,应用于上述分布式网络通信设备LPU中的监控任务,参照图2中所示,该方法包括:[0025]S101、在一个业务任务处理控制消息之前,记录第一信息,第一信息指示该业务任务即将进入处理流程。[0026]LPU接收到MPU的控制消息后,将控制消息分类后放入对应业务任务的接收队列。[0027]对应的业务任务从接收队列中获取控制消息,获取到控制消息后,在进行处理之前,记录下第一信息,表示即将进入对该控制消息的处理流程。具体的处理控制消息的流程实现技术有很多种,一般需要进行若干层的函数的调用,在此不再赘述。[0028]第一消息可以有多种表现形式,只要能够表明该业务任务即将进入处理流程即可。例如,可以用第一计数器的计数值来指示第一消息,当第一计数器加M时即表示记录下第一消息,M为正整数,优选为1,M的值可以根据经验值设定。[0029]也可以用第一标志位的取反操作来指示第一消息,当对第一标志位取反时即表示记录下第一消息。第一标志位和第二标志位可以通过全局变量来设置。[0030]本领域技术人员还可以想到其他方式来记录第一消息,本发明在此不作限定。[0031]S102、在该业务任务处理完上述控制消息之后,记录第二信息,第二信息指示该业务任务完成上述处理流程。[0032]与第一消息对应的,第二消息也可以有多种表现形式,只要能够表明该业务任务完成上述处理流程即可。例如,当通过对第一计数器的计数值来指示第一消息时,同样可以用第二计数器的计数值来指示第二消息,当第二计数器同样加M时即表示记录下第二消息。[0033]当通过对第一标志位的取反操作来指示第一消息时,同样可以用第二标志位的取反操作来指示第二消息,对第二标志位取反时即表示记录下第二消息。本领域技术人员还可以想到其他方式来记录第二消息,本发明在此不作限定。[0034]需要说明的是,记录第一消息与第二消息需要采用相同的处理方式,并且当采用相同处理方式时,所采用的默认值应该相同。例如,当都采用对计数值计数时,第一计数器的默认值与第二计数器的默认值相同;当都采用标志位取反操作时,第一标志位的默认值与第二标志位的默认值相同。[0035]S103、经过设定次数的检测,如果连续检测到第一信息与第二信息不一致,则判断该业务任务发生故障。[0036]如果该业务任务记录完第一信息之后,进行控制消息处理时,出现诸如内存访问越界、获取不到信号量、死循环等严重故障时,始终无法退出处理流程,因此不能记录第二信息,即无法更新第二计数器的值或者执行第二标志位取反的操作,监控任务可以连续N次检测,如果连续N次检测第一信息和第二信息的值不一致且第一信息比第二信息值大M,则认为该业务任务出现了故障。N的值可以根据经验值设定。[0037]具体的,当通过对第一计数器的计数来指示第一消息,通过对第二计数器的计数来指示第二消息时,经过设定次数的检测,如果连续检测到第一计数器的值比第二计数器的值多M,则判断该业务任务发生故障。[0038]当通过对第一标志位的取反操作来指示第一消息,通过对第二标志位的取反操作来指示第二消息时,经过设定次数的检测,如果连续检测到第一标志位的值不等于第二标志位的值,则判断该业务任务发生故障。[0039]在监控任务判断所述业务任务发生故障之后,还可以对该业务任务进行函数调用层次跟踪trace,以定位到发生故障的函数,并将函数调用层次关系记录到本地或者以故障消息的形式发送给MPU,由MPU在接收到LPU发送的故障消息后,根据故障处理策略对该故障进行处理,例如把LPU重启。[0040]本发明实施例提供的故障检测方法,通过LPU上的业务任务在进行处理控制消息之前记录第一消息,在该业务任务完成处理控制消息之后记录第二消息,如果经过多次检测只能检测到第一消息而无法检测到第二消息,则说明该业务任务无法完成控制消息的处理,因此可以认为该业务任务发生了故障,从而实现了对LPU出现故障进行检测。[0041]实施例2、[0042]本发明的实施例提供了一种LPU,用于上述故障检测方法,参照图3中所示,该LPU包括:[0043]记录单元1201,用于在一个业务任务处理控制消息之前,记录第一信息,第一信息指示一个业务任务即将进入处理流程;[0044]记录单元1201,还用于在业务任务处理完控制消息之后,记录第二信息,第二信息指示业务任务完成处理流程;[0045]判断单元1202,用于经过设定次数的检测,如果连续检测到记录单元1201记录的第一信息与第二信息不一致,则判断该业务任务发生故障。[0046]可选的,在一种可能的设计中:[0047]记录单元1201,具体用于对第一计数器加M,M为正整数;[0048]记录单元1201,具体用于对第二计数器加M,第二计数器的默认值与第一计数器的默认值相同;[0049]判断单元1202,具体用于经过设定次数的检测,如果连续检测到第一计数器的值比第二计数器的值多M,则判断该业务任务发生故障。[0050]可选的,在一种可能的设计中:[0051]记录单元1201,具体用于对第一标志位取反;[0052]记录单元1201,具体用于对第二标志位取反,第二标志位的默认值与第一标志位的默认值相同;[0053]判断单元1202,具体用于经过设定次数的检测,如果连续检测到第一标志位的值不等于第二标志位的值,则判断该业务任务发生故障。[0054]可选的,在一种可能的设计中,参照图3中所示,LPU还包括:[0055]跟踪单元1203,用于在判断单元12〇2判断该业务任务发生故障之后,对该业务任务进行函数调用层次跟踪,并将函数调用层次关系记录到本地或者发送给MPU。[0056]由于本发明实施例中的LHJ可以应用于上述故障检测方法,因此,其所能获得的技术效果也可参考上述方法实施例,本发明实施例在此不再赘述。[0057]需要说明的是,记录单元、判断单元和跟踪单元可以为单独设立的处理器,也可以集成在控制器的某一个处理器中实现,此外,也可以以程序代码的形式存储于控制器的存储器中,由控制器的某一个处理器调用并执行以上记录单元、判断单元和跟踪单元的功能。这里所述的处理器可以是一个中央处理器英文全称:centralprocessingunit,英文简称:CPU,或者是特定集成电路英文全称:applicationspecificintegratedcircuit,英文简称:ASIC,或者是被配置成实施本发明实施例的一个或多个集成电路。[0058]应理解,在本发明的各种实施例中,上述各流程的序号的大小并不意味着执行顺序的先后,各流程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施流程构成任何限定。[0059]本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能宄竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。[0060]所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作流程,可以参考前述方法实施例中的对应流程,在此不再赘述。[0061]在本申请所提供的几个实施例中,应该理解到,所揭露的系统、设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。[0062]所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。[0063]另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。[0064]所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备可以是个人计算机,服务器,或者网络设备等执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器英文全称:read-onlymemory,英文简称:ROM、随机存取存储器英文全称randomaccessmemory,英文简称:RAM、磁碟或者光盘等各种可以存储程序代码的介质。[0065]以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
权利要求:1.一种故障检测方法,其特征在于,用于对LPU的业务任务进行故障检测,所述方法包括:在一个业务任务处理控制消息之前,记录第一信息,所述第一信息指示所述业务任务即将进入处理流程;在所述业务任务处理完所述控制消息之后,记录第二信息,所述第二信息指示所述业务任务完成所述处理流程;经过设定次数的检测,如果连续检测到所述第一信息与所述第二信息不一致,则判断所述业务任务发生故障。2.根据权利要求1所述的方法,其特征在于,所述记录第一信息,包括:第一计数器加M,M为正整数;所述记录第二信息,包括:第二计数器加M,所述第二计数器的默认值与所述第一计数器的默认值相同;所述连续检测到所述第一信息与所述第二信息不一致,包括:连续检测到所述第一计数器的值比所述第二计数器的值多M。3.根据权利要求1所述的方法,其特征在于,所述记录第一信息,包括:第一标志位取反;所述记录第二信息,包括:第二标志位取反,所述第二标志位的默认值与所述第一标志位的默认值相同;所述连续检测到所述第一信息与所述第二信息不一致,包括:连续检测到所述第一标志位的值不等于所述第二标志位的值。4.根据权利要求1所述的方法,其特征在于,在所述判断所述业务任务发生故障之后,所述方法还包括:对所述业务任务进行函数调用层次跟踪,并将函数调用层次关系记录到本地或者发送给MPU。5.—种LPU,其特征在于,用于对LPU的业务任务进行故障检测,所述LPU包括:记录单元,用于在一个业务任务处理控制消息之前,记录第一信息,所述第一信息指示所述一个业务任务即将进入处理流程;所述记录单元,还用于在所述业务任务处理完所述控制消息之后,记录第二信息,所述第二信息指示所述业务任务完成所述处理过程流程;判断单元,用于经过设定次数的检测,如果连续检测到所述第一信息与所述第二信息不一致,则判断所述业务任务发生故障。6.根据权利要求5所述的LPU,其特征在于,所述记录单元,具体用于对第一计数器加M,M为正整数;所述记录单元,具体用于对第二计数器加M,所述第二计数器的默认值与所述第一计数器的默认值相同;所述判断单元,具体用于经过设定次数的检测,如果连续检测到所述第一计数器的值比所述第二计数器的值多M,则判断所述业务任务发生故障。7.根据权利要求5所述的LPU,其特征在于,所述记录单元,具体用于对第一标志位取反;所述记录单元,具体用于对第二标志位取反,所述第二标志位的默认值与所述弟志位的默认值相同;所述判断单元,具体用于经过设定次数的检测,如果连续检测到所述第一标志位的值不等于所述第二标志位的值,则判断所述业务任务发生故障。8.根据权利要求5所述的LPU,其特征在于,所述LPU还包括:跟踪单元,用于在所述判断单元判断所述业务任务发生故障之后,对所述业务任务进行函数调用层次跟踪,并将函数调用层次关系记录到本地或者发送给MPU。9.一种分布式网络通信设备,包括如权利要求5-8中任一项所述的LPU和MPU,所述MPU用于向所述LPU发送控制消息。10.如权利要求9所述的分布式网络通信设备,其特征在于,所述MPU还用于在接收到所述LPU发送的故障消息后,根据故障处理策略对故障进行处理。
百度查询: 迈普通信技术股份有限公司 故障检测方法、LPU和分布式网络通信设备
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。