使用诊断分析大盘定位故障方法、系统及介质与流程

文档序号:25543545发布日期:2021-06-18 20:40阅读:116来源:国知局
使用诊断分析大盘定位故障方法、系统及介质与流程

本发明涉及企业信息化系统运行状态监控及故障定位处理技术领域,具体地,涉及使用诊断分析大盘定位故障方法、系统及介质。



背景技术:

为了保证企业信息化系统发生故障时,运维人员通过诊断分析大盘直观的从功能性、可用性、可维护性、性能等方面全方位、多维度分析故障,快速准确定位原因,及时处理故障,让系统始终处于可用、好用的最佳状态。

企业信息化系统日常故障通常发生在操作系统、应用服务器、数据库、虚拟机、物理机、因特网出口等it资源上。为了保证企业信息化系统正常运行,企业信息化系统上都会部署监控工具,将实际的it资源抽象成一个个配置项,针对操作系统、中间件、数据库等不同类型配置项建立关系,譬如:数据库宿主在操作系统上、操作系统宿主在虚拟机上,通过监控工具统一管理这些it资源。除了识别配置项并建立关系,监控工具还要识别每种配置项的关键指标、配置采集策略,按周期采集数据,结合运维经验配置分析联动策略。一旦采集数据满足分析联动策略异常判断,就会产生故障告警并以短信或电话方式通知运维工程师处理。

本发明的应用目的是通过配置数据库、应用服务器、因特网出口、操作系统的诊断分析大盘,从功能性、可用性、可维护性、性能等方面将配置项自身及关联的配置项的属性、关键指标数据、发生的关键运维活动(告警、变更、重启、错误日志、自动化)以可视化展示。诊断分析大盘支持灵活选择时间范围,统一查看配置项在发生故障前后自身及关联配置项的所有信息,将这些关键信息以可视化方式汇总在一起,方便快速定位故障原因。同时,诊断分析大盘在日常工作中不断完善,将有利于定位故障的指标或数据不断加入,利于将好的运维经验沉淀下来。

现有运维工程师在收到配置项的某个指标故障告警通知后,故障定位处理方式通常是查看告警描述、查看故障产生时间点前后的指标监控数据、远程登陆操作系统终端分析操作系统运行情况、分析应用日志等。这种故障定位方法能定位解决日常大部分故障,但有以下不足:

1、主要依靠运维工程师经验,从不同的角度去分析判断定位原因;

2、耗时较长,没有统一的视角去查看配置项及关联配置项的指标监控数据、历史发生的关键运维活动等;

3、运维经验未沉淀,换个运维工程师处理相同问题仍需要定位一遍原因。



技术实现要素:

针对现有技术中的缺陷,本发明的目的是提供一种使用诊断分析大盘定位故障方法、系统及介质。

根据本发明提供的一种使用诊断分析大盘定位故障方法,包括:

要分析的资源识别步骤:分析配置诊断分析大盘的资源主体及关联资源,识别配置项的具体信息;

资源具体分析项识别步骤:根据识别的配置项的具体信息,分析每个配置项信息中可用于故障诊断定位的信息,获得资源故障定位分析项;

诊断分析大盘模板配置步骤:根据获得的资源故障定位分析项,配置到诊断分析大盘模板上显示;

诊断分析大盘与故障告警关联步骤:查看某个配置项告警,通过操作界面,打开该配置项的诊断分析大盘,查看诊断分析大盘上展示的该配置项及相关配置项分析项信息图表,通过切换时间周期查看各分析项在故障发生期间的数据变化来定位故障原因。

优选地,所述要分析的资源识别步骤:

定位资源故障时,需识别故障与哪些资源相关,所述识别故障与哪些资源相关指识别故障涉及的配置项及关联配置项,可通过资源配置管理中定义的配置项间关系来识别,输出识别的配置项的具体信息。

优选地,所述资源具体分析项识别步骤:

所述分析每个配置项信息中可用于故障诊断定位的信息:

从以下四个方面来分析每个配置项哪些信息用于故障诊断定位:

功能性:资源主体及关联资源的功能性包括的信息;

可用性:可以判断资源主体是否可用的信息;

可维护性:可以查看资源主体及关联资源的运维活动信息;

性能:可以分析资源主体及关联资源的运行性能的信息。

优选地,所述诊断分析大盘模板配置步骤:

根据获得的资源故障定位分析项,配置诊断分析大盘模板,大盘上展示资源分析项信息;

已配置的资源诊断分析大盘模板支持通过传入配置项编码参数展示其资源类别下某个配置项实例的诊断分析大盘,显示该配置项实例的分析项信息;

所述大盘上展示资源分析项信息的方式包括:图表、列表。

根据本发明提供的一种使用诊断分析大盘定位故障系统,包括:

要分析的资源识别模块:分析配置诊断分析大盘的资源主体及关联资源,识别配置项的具体信息;

资源具体分析项识别模块:根据识别的配置项的具体信息,分析每个配置项信息中可用于故障诊断定位的信息,获得资源故障定位分析项;

诊断分析大盘模板配置模块:根据获得的资源故障定位分析项,配置到诊断分析大盘模板上显示;

诊断分析大盘与故障告警关联模块:查看某个配置项告警,通过操作界面,打开该配置项的诊断分析大盘,查看诊断分析大盘上展示的该配置项及相关配置项分析项信息图表,通过切换时间周期查看各分析项在故障发生期间的数据变化来定位故障原因。

优选地,所述要分析的资源识别模块:

定位资源故障时,需识别故障与哪些资源相关,所述识别故障与哪些资源相关指识别故障涉及的配置项及关联配置项,可通过资源配置管理中定义的配置项间关系来识别,输出识别的配置项的具体信息。

优选地,所述资源具体分析项识别模块:

所述分析每个配置项信息中可用于故障诊断定位的信息:

从以下四个方面来分析每个配置项哪些信息用于故障诊断定位:

功能性:资源主体及关联资源的功能性包括的信息;

可用性:可以判断资源主体是否可用的信息;

可维护性:可以查看资源主体及关联资源的运维活动信息;

性能:可以分析资源主体及关联资源的运行性能的信息。

优选地,所述诊断分析大盘模板配置模块:

根据获得的资源故障定位分析项,配置诊断分析大盘模板,大盘上展示资源分析项信息;

已配置的资源诊断分析大盘模板支持通过传入配置项编码参数展示其资源类别下某个配置项实例的诊断分析大盘,显示该配置项实例的分析项信息;

所述大盘上展示资源分析项信息的方式包括:图表、列表。

根据本发明提供的一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序被处理器执行时实现上述中任一项所述的使用诊断分析大盘定位故障方法的步骤。

与现有技术相比,本发明具有如下的有益效果:

1、本发明能够在各种故障场景下,节约人的故障定位时间,提高了运维效率,确保企业信息化系统快速恢复正常运行。

2、本发明能够将运维经验沉淀下来,确保新人能快速上手运维工作。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:

图1为本发明提供的诊断分析大盘模板配置及应用流程示意图。

图2为本发明提供的数据库诊断分析大盘示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。

根据本发明提供的一种使用诊断分析大盘定位故障方法,包括:

要分析的资源识别步骤:分析配置诊断分析大盘的资源主体及关联资源,识别配置项的具体信息;

资源具体分析项识别步骤:根据识别的配置项的具体信息,分析每个配置项信息中可用于故障诊断定位的信息,获得资源故障定位分析项;

诊断分析大盘模板配置步骤:根据获得的资源故障定位分析项,配置到诊断分析大盘模板上显示;

诊断分析大盘与故障告警关联步骤:查看某个配置项告警,通过操作界面,打开该配置项的诊断分析大盘,查看诊断分析大盘上展示的该配置项及相关配置项分析项信息图表,通过切换时间周期查看各分析项在故障发生期间的数据变化来定位故障原因。

具体地,所述要分析的资源识别步骤:

定位资源故障时,需识别故障与哪些资源相关,所述识别故障与哪些资源相关指识别故障涉及的配置项及关联配置项,可通过资源配置管理中定义的配置项间关系来识别,输出识别的配置项的具体信息。

具体地,所述资源具体分析项识别步骤:

所述分析每个配置项信息中可用于故障诊断定位的信息:

从以下四个方面来分析每个配置项哪些信息用于故障诊断定位:

功能性:资源主体及关联资源的功能性包括的信息;

可用性:可以判断资源主体是否可用的信息;

可维护性:可以查看资源主体及关联资源的运维活动信息;

性能:可以分析资源主体及关联资源的运行性能的信息。

具体地,所述诊断分析大盘模板配置步骤:

根据获得的资源故障定位分析项,配置诊断分析大盘模板,大盘上展示资源分析项信息;

已配置的资源诊断分析大盘模板支持通过传入配置项编码参数展示其资源类别下某个配置项实例的诊断分析大盘,显示该配置项实例的分析项信息;

所述大盘上展示资源分析项信息的方式包括:图表、列表。

本发明提供的使用诊断分析大盘定位故障系统,可以通过本发明给的使用诊断分析大盘定位故障方法的步骤流程实现。本领域技术人员可以将所述使用诊断分析大盘定位故障方法,理解为所述使用诊断分析大盘定位故障系统的一个优选例。

根据本发明提供的一种使用诊断分析大盘定位故障系统,包括:

要分析的资源识别模块:分析配置诊断分析大盘的资源主体及关联资源,识别配置项的具体信息;

资源具体分析项识别模块:根据识别的配置项的具体信息,分析每个配置项信息中可用于故障诊断定位的信息,获得资源故障定位分析项;

诊断分析大盘模板配置模块:根据获得的资源故障定位分析项,配置到诊断分析大盘模板上显示;

诊断分析大盘与故障告警关联模块:查看某个配置项告警,通过操作界面,打开该配置项的诊断分析大盘,查看诊断分析大盘上展示的该配置项及相关配置项分析项信息图表,通过切换时间周期查看各分析项在故障发生期间的数据变化来定位故障原因。

具体地,所述要分析的资源识别模块:

定位资源故障时,需识别故障与哪些资源相关,所述识别故障与哪些资源相关指识别故障涉及的配置项及关联配置项,可通过资源配置管理中定义的配置项间关系来识别,输出识别的配置项的具体信息。

具体地,所述资源具体分析项识别模块:

所述分析每个配置项信息中可用于故障诊断定位的信息:

从以下四个方面来分析每个配置项哪些信息用于故障诊断定位:

功能性:资源主体及关联资源的功能性包括的信息;

可用性:可以判断资源主体是否可用的信息;

可维护性:可以查看资源主体及关联资源的运维活动信息;

性能:可以分析资源主体及关联资源的运行性能的信息。

具体地,所述诊断分析大盘模板配置模块:

根据获得的资源故障定位分析项,配置诊断分析大盘模板,大盘上展示资源分析项信息;

已配置的资源诊断分析大盘模板支持通过传入配置项编码参数展示其资源类别下某个配置项实例的诊断分析大盘,显示该配置项实例的分析项信息;

所述大盘上展示资源分析项信息的方式包括:图表、列表。

根据本发明提供的一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序被处理器执行时实现上述中任一项所述的使用诊断分析大盘定位故障方法的步骤。

下面通过优选例,对本发明进行更为具体地说明。

优选例1:

本发明的主要思想是为企业信息化系统的关键配置项配置诊断分析大盘模板,将自身及关联的配置项监控信息、运维活动、关键属性统一可视化展示。一旦配置项产生故障告警,运维工程师通过诊断分析大盘,以直观统一视角查看故障前后该配置项及关联配置项某些指标数据异常情况、是否有发生变更、错误日志、自动化操作等分析故障产生的原因。本发明的关键是针对企业信息化系统的关键配置项(操作系统、应用服务器、数据库、因特网出口等)配置诊断分析大盘模板,具体流程如1所示。

1、识别要分析的资源

分析配置诊断分析大盘的资源主体及关联资源。定位某类资源故障时,需要识别故障与哪些资源相关,即故障可能涉及的配置项及关联配置项,可通过资源配置管理中定义的配置项间关系来识别。在配置该类资源的诊断分析大盘模板时,需展示这些配置项的具体信息。譬如:要定位因特网出口产生的故障,通过配置项间关系,识别出涉及因特网出口、因特网带宽资源池、带宽管理设备、因特网带宽等配置项,配置因特网出口诊断分析大盘模板时,需展示这些配置项信息。

2、识别资源具体分析项

上一步明确了诊断分析大盘模板上要展示哪些配置项的信息,这一步将从以下四个方面来具体分析每个配置项哪些信息用于故障诊断定位,并最终配置到诊断分析大盘模板上显示,以因特网出口配置项举例说明:

1)功能性:资源主体及关联资源的功能性包括哪些信息?譬如:因特网出口的主要用途是什么?公网ip地址是什么?对应的域名是什么?何时启用的?使用的因特网带宽情况是怎样的?等等。

2)可用性:如何判断资源主体可用?有哪些监控指标数据可以判断?譬如:根据ip连通性、端口连通性等指标判断因特网出口是否可用。

3)可维护性:从哪些方面查看资源主体及关联资源的运维活动信息?譬如:查看一段时间范围因特网出口有没有产生过告警?有没有做过变更?有没有执行过自动化操作?

4)性能:有哪些监控指标可以分析资源主体及关联资源的运行性能?譬如:因特网出口的响应时间是否在预期范围内?有多少实时连接数?使用的因特网带宽速率是多少?

3、配置诊断分析大盘模板

根据已识别的资源故障定位分析项,配置诊断分析大盘模板,大盘上以图表、列表等不同形式展示资源分析项信息。已配置的资源诊断分析大盘模板支持通过传入配置项编码参数展示其资源类别下某个配置项实例的诊断分析大盘,显示该配置项实例的分析项信息。

4、诊断分析大盘与故障告警关联

查看某个配置项告警,通过操作界面,打开该配置项的诊断分析大盘。运维人员通过查看诊断分析大盘上展示的该配置项及相关配置项分析项信息图表,具体包含第二步从功能性、可用性、可维护性、性能四个方面识别的故障定位分析项,通过切换时间周期查看各分析项在故障发生期间的数据变化来定位故障原因。

优选例2:

为了使本发明的目的、技术方案更加清晰明白,以下结合附图及实施例,对本发明进行进一步地详细说明,应当说明,此处所描述的实施例仅仅用以解释本发明,并不用于限定本发明。本实例按照方案描述中步骤说明数据库配置项诊断分析大盘配置过程。

1、分析资源识别

资源本体:数据库配置项;关联资源:操作系统配置项、x86虚拟机配置项、x86服务器配置项。

2、分析项识别

1)功能性:

当前数据库是被哪个租户的哪套应用系统所使用?用途?当前数据库类型、版本、运行时间、数据库规模?数据库所宿主的主机是否有告警,若有告警,可查看告警列表。

2)可用性:

数据库响应时间、数据库核心进程状态、数据库端口监听状态、数据库表空间状态、所宿主操作系统网络连通性、文件系统状态、所宿主虚拟机运行状态。

3)可维护性:

数据库产生的告警;数据库及所宿主的操作系统、虚机发生的变更;数据库上执行的自动化;数据库上发生的关键运维活动,譬如:宿主的虚机漂移;数据库及所宿主的操作系统、虚机上产生的错误日志。

4)性能:

从数据库、所宿主的操作系统、宿主的虚机及x86服务器来分析性能:

数据库session连接数、lockwait、响应时间、buffer命中率;所宿主操作系统的系统负荷、磁盘io平均等待时间、网络io输出/输入速率;所宿主虚机及物理机配置、虚拟化饱和度、x86服务器cpu/内存使用率。

3、配置诊断分析大盘模板

将识别的分析项通过可视化工具配置数据库诊断分析模板(如图2所示):

4、诊断分析大盘与故障告警关联

运维工程师打开告警详情处理时,点击“诊断分析”按钮,进入诊断分析大盘,定位故障原因。

本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1