一种故障定位分析的方法及系统的制作方法_3

文档序号:9633684阅读:来源:国知局
作对象、操作类型和操作结果的数据。
[0078]具体地,操作日志数据包括操作人员在网管系统中对网元、或者业务进行了哪些操作,为了模拟网管系统的故障,需要代理网元接收与网元相同的操作。因此在场景复现系统与快照网元系统进行交互时,同样采用操作日志数据对代理网元进行设置。
[0079]其中,在场景复现系统与快照网元系统中的代理网元之间进行信息交互时,该方法还包括:
[0080]监控场景复现系统与快照网元系统之间的信息交互。
[0081]在场景复现系统与快照网元系统中的代理网元在进行信息交互时,快照网元系统需要监控每个代理网元与场景复现系统之间是进行了哪些操作,以及场景复现系统设置或者访问的是哪个网元,从而方便快照网元系统反馈相应的报文信息。
[0082]其中,S102中根据快照网元系统反馈的报文信息确定故障,包括:
[0083]当快照网元系统中的代理网元接收到场景复现系统的查询或者设置请求时,获取该代理网元的报文命令码;
[0084]快照网元系统根据报文命令码,以及从场景复现系统中获取的通信报文数据,确定响应报文;
[0085]快照网元系统将响应报文反馈给场景复现系统;
[0086]场景复现系统根据响应报文定位故障。
[0087]需要说明的是,响应报文包括报文的命令码和响应的内容。若快照网元系统接收到场景复现系统的查询或者设置请求,且查询或设置的网元是代理网元N,例如,记为Request-N,则快照网元系统通过查询场景复现系统中的网元快照信息得到代理网元N的报文命令码,记为Index-N-M,M代表报文N的命令码;且通过查询到的代理网元N的报文命令码获得响应报文,记为Response-N。其中响应报文中包括报文的命令码Index-N-M,和响应的内容Code-N-M。其中代理网元的响应报文可以为多片。最后快照网元系统将响应报文反馈给场景复现系统,场景复现系统根据响应报文的内容定位出故障出现的位置以及原因。
[0088]需要说明的是,若快照网元系统将响应报文反馈给场景复现系统后,场景复现系统没有出现网管系统出现的故障,则需要重新根据网元快照信息中的操作日志数据,使场景复现系统再次对快照网元系统中的代理网元进行设置或者查询的请求,并继续循环上述过程。
[0089]综上所述,本发明实施例提供的故障定位分析的方法,是利用网管系统在工程运行中产生故障时存储的网管配置数据、操作日志数据和通信报文数据来构建与网管系统相同的场景复现系统,以及与网管系统交互的网元相同的快照网元系统,得到网管系统在工程运行中的故障的再现,从而根据快照网元系统反馈的响应报文数据进一步确定故障的位置。因此,本发明通过软件对故障进行定位分析,减少了投入的设备;通过与网管系统产生故障时的网管配置数据、通信报文数据和操作日志数据进行故障的复现,从而提高了故障定位分析的成功率;通过场景复现系统和快照网元系统进行故障的复现,减少了工作量的投入。
[0090]为了更加进一步描述网管系统、场景复现系统和快照网元系统各自的工作过程,下面通过具体实施例进行详细描述。
[0091]实施例2
[0092]下面结合附图进行详细说明网管系统、场景复现系统和快照网元系统的实现步骤。
[0093]首先介绍一下网管系统在产生故障前或者故障时的工作场景。
[0094]参见图2,一种网管系统存储备份网元快照信息的方法,该方法包括:
[0095]S201、开启网管系统的故障监控模式;
[0096]其中,操作人员可以根据实际需要开启故障监控模式。例如对于资源丰富的网管系统可以一直开启故障监控模式,对于资源有有限或者比较网管系统的性能不够优越的网管系统,可以根据需要进行周期开启或者手动开启。
[0097]S202、网管系统备份网元快照信息;
[0098]其中,网元快照信息包括网管配置数据、通信报文数据和操作日志数据。具体包括将当前网管系统的网元配置信息,包括每个网元的设备类型、IP地址、板卡、端口、交叉配置以及其他业务配置参数进行备份。还包括操作人员对网管系统的任何操作情况的记录等。
[0099]S203、根据网元快照信息判断是否出现故障,若已经出现故障则结束备份网元快照信息的操作,若没有出现故障,则执行S204 ;
[0100]其中,判断故障是否出现是操作人员根据网元快照信息中的报文响应进行判断,具体判断原则与现有技术相同,此处不再赘述。
[0101]S204、操作人员重新操作网管配置数据,对网元重新进行数据的配置;
[0102]其中,操作人员通过操作网管系统的方式对网元进行操作,使得故障重新出现。一般地,对于必现的故障,操作人员可以重新操作并直接获取网元快照信息,对于偶发的故障,可以使网管系统开启故障监控模式的同时对网管系统进行正常操作,直到故障出现后结束备份网元快照信息的操作。
[0103]S205、记录操作日志数据;
[0104]其中,网管系统将操作人员对网管系统的操作均记录在日志中,包括操作日志、操作对象、操作类型和操作结构等信息。
[0105]S206、记录网元与网管之间的通信报文数据;
[0106]其中,操作人员通过网管系统对网元进行操作的步骤均记录在通信报文数据中,包括网管系统下发给设备的查询或设置报文、网元返回给网管系统的响应报文等信息,每个网元的一个操作形成一条记录。具体地,网管系统对网元的查询,可以定义为“GET”,网管系统对网元的设置可以定义为“SET”,以及网元返回给网管系统的响应报文包括报文命令码和响应内容,其中,报文命令码可以用“ Index”标识,响应内容可以用“Code ”标识。每个报文命令码Index加响应内容Code形成一条完整的报文。其中,若响应报文包括的内容较多,则可以分为多片进行回复,每片报文的内容即为一个报文的子内容。
[0107]需要说明的是,报文命令码和响应内容的标识均为较佳实施例,并不限于仅用该方式进行标识。
[0108]S207、判断是否需要对操作日志数据、通信报文数据以及网管配置数据的清理,若需要则执行步骤S208,否则执行步骤S203 ;
[0109]S208、清理操作日志数据、通信报文数据以及网管配置数据,并返回步骤S203。
[0110]其中,对数据的清理可以根据网管系统的实际存储空间或者性能设定预设条件,若满足该预设条件,则将删除较早存储的网元快照信息。另外,对数据的清理还可以通过设置手动删除,或者根据周期删除。例如,若操作人员看到网管系统的存储空间不足,或者性能变差,则删除较早存储的网元快照信息;若设置删除网元快照信息的周期为5S,则每经过5S将存储的网元快照信息进行删除;或者,若网元快照信息产生的文件个数超过预设阈值,则进行一次数据的清理;若网元快照信息产生的文件大小超过预设阈值,则进行一次数据的清理等等。
[0111]通过图2所示的网管系统的操作流程,在网管系统产生故障时,将网元快照信息进行存储并备份。
[0112]参见图3,一种故障定位分析的方法,该方法包括步骤:
[0113]S301、操作人员将网管系统产生故障时存储的网元快照信息复制到场景复现系统和快照网元系统;
[0114]其中,将网管配置数据和操作日志数据复制到场景复现系统,将网管配置数据和通信报文数据复制到快照网元系统中。
[0115]S302、操作人员根据网管配置数据和操作日志数据搭建场景复现系统,根据网管配置数据和通信报文数据搭建快照网元系统;
[0116]其中,操作人员根据网管配置数据搭建的场景复现系统与网管系统产生故障时的工程场景的水平相同,根据操作日志数据确定产生故障时操作人员对哪些设备或网元进行的操作的具体过程,使得场景复现系统与产生故障时的网管系统完全相同。
[0117]操作人员根据网管配置数据中包括的网元个数以及各个网元的类型和IP地址建立代理网元,且每一代理网元与网管系统交互的网元完全相同,根据通信报文数据确定哪些代理网元与场景复现系统产生信息的交互,以及返回的响应报文。
[0118]S303、复现场景系统根据通信报文数据对快照网元系统进行查询或者设置;
[0119]例如,若根据通信报文数据确定网管
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1