【笔记】问题控制与管理&故障、问题、已知错误、变更请求之间的逻辑关系&问题管理流程

发布时间 2023-10-18 19:26:39作者: DbWong_0918

【笔记】问题控制与管理&故障、问题、已知错误、变更请求之间的逻辑关系

问题控制与管理

与故障管理的尽可能快地恢复服多的目标不同,问题管理是要防止再次发生故障

**例如你制作了一个报表,用户填写了问题数据进去,因此报错提示了,让用户换个数据或者和用户说不要这样填写的方法就算是故障管理,问题还存在,只不过故障消失了,而将这个填写数据的地方进行了防呆处理让问题和故障都消失则是问题管理
**
因此,问题管理流程需要更好地进行计划和管理,特别是对那些可能引起业务严重中断的故障更要重点关注并给予更高的优先级

已知错误是问题经过诊断分析后,找到故障产生的根本原因,并制定出可能的解决方案时所处的状态

错误控制是管理、控制并成功纠正已知错误的过程

问题控制和管理的目标:
(1)将由IT基础架构中的错误引起的故障和问题对业务的影响降到最低限度
(2)找出出现故障和问题的根本原因,防止再次发生与这些错误有关的故障
(3)实施问题预防,在故障发生之前发现和解决有关问题

故障、问题、已知错误、变更请求之间的逻辑关系

(1)故障是任何系统本身的问题,任何不符合标准的操作,已经或者可能引起系统服务中断或服务质量下降的事件。产生原因较明显,不需要进-步调查就能解决
(2)问题是导致一起或多起故障的潜在不易发现的原因。影响度的确定要综合考虑业务的实际潜在影响以及起因相同或相似的故障数量。与故障是多对多的关系
(3)已知错误是问题经过诊断分析后,找到故障产生的根本原因,并制定出可能的解决方案时所处的状态。解决的过程需要提交变更请求,在实施永久变更前一直存在。和问题的是多对多的关系
(4)变更请求适用于有关变更内容的书面文件和电子文档,是针对基础架构的配置项和与基础架构相关的程序和规章制度进行的

问题管理流程

(1)信息输入:故障信息、故障处理定义的应急措施、系统配置信息、供应商提供的产品和服务的信息
(2)主要活动:问题控制、错误控制、问题预防、制作管理报告
(3)输出信息:已知错误、变更请求、更新的问题记录(包括解决方法和应急措施)、已解决问题的记录、故障与问题和已知错误的匹配信息、其他管理信息

问题控制

发现问题有多种途径,常见的问题如下:
(1)在故障初步阶段和支持阶段没能把故障与问题或者己知错误匹配成功
(2)分析故障数据发现重复出现的故障
(3)分析故障数据排除已存在的问题和已知错误成功匹配的故障
(4)分析IT基础架构发现可能导致故障的问题

问题归类的标准涉及以下4个方面:目录、影响度、紧迫性、优先级

问题控制的第一步 是发现和记录问题,原则上所有的原因未知的故障都可被称为问题

问题归类目的:
1、便于评价问题对服务级别的影响
2、确定查找和恢复故障的配置项所需的人力和资源

问题分析方法

kepner&tregoe法、 鱼骨图法、头脑风暴法、流程图法
Kepner&tregoe法(理性分析法)
问题分析的5个阶段:
(1)定义问题,明确指出IT服务偏离服务级别协议的情况
(2)描述问题,从问题标识、位置、时间和频度、规模和范围几个方面表示
(3)查找产生问题的可能原因
(4)测试评价最可能的原因
(5)验证问题原因

鱼骨图波(石川图法、因果图法、特性因素图法)
是将系统或服务的故障或者问题作为“结果“,以导致系统发生失效的诸因素作为“原因”绘出图形,其问题分析法的分析步骤:

(1)按具体需要选择因果图中的结果,放在因果图中的右边
(2)用带箭头的粗实线或用表示直通结果的主干线
(3)通过调查分析,判断影响结果的所有原因。先画大原因,再画次原因,再画小原因
(4)主要的或关键的原因常用框框起来,以表示醒目,根据实际需要,对这些关键或主要的原因还可以作单独的特性因素图,以便进一步重点分析

示例:
image

头脑风暴法
常用于解决问题的方法的前3步:明确问题原因分类和获得解决问题的创新性方案
遵循的原则:畅所欲言、强调数量、不做评论、相互结合

流程图法
通过梳理系统服务的流程和业务运营的流程,画出相应的流程图,关注各个服务和业务环节交接可能出现异常的地方,分析问题的原因所在。流程途中应包括系统服务中所涉及到的软硬件设备、文件、技术和管理人员等所有问题的相关因素

错误控制

错误控制流程
发现和记录错误评价错误、记录错误解决过程、终止错误、跟踪监督错误解决过程。如下图:
image

问题预防

问题预防流程主要包括两项活动:趋势分析和制定预防措施

趋势分析的目的是能够主动采取措施提高服务质量,包括:
(1)找出T基础架构中不稳定的部件,分析其原因,以便采取措施降低其配置项的故障对业务的影响
(2)分析已发生故障和问题,发现某些趋势
(3)通过其他方式和途径分析(系统管理工具、会议、用户反馈、与客户和用户的座谈会、客户和用户调查)

损害指数:故障出现次数、受影响的客户数、解决故障所需时间和成本、业务损失

制作管理报告

管理报告的内容
(1)事件报告
(2)质量报告
(3)管理效果
(4)常规问题管理与问题预防管理之间的关系
(5)问题状态和行动计划
(6)改进问题管理的意见和建议