SRE Google运维解密 4-9章-526互联

第四章服务质量目标

如果不详细了解服务中各种行为的重要程度，并且不去度量这些行为的正确性的话，就无法正确运维这个系统，更不要说可靠低运维了。那么，不管是对外服务，还是内部API，我们都需要制定一个针对用户的服务质量目标，并且努力去达到这个质量目标。

服务质量指标（SLI）

服务质量目标（SLO）

服务质量协议（SLA）

这三项分别指该服务最重要的一些基础指标、这些指标的预期值，以及当指标不符合预期时的应对计划。

服务质量术语

指标

SLI 是指服务质量指标（indicator）——该服务的某项服务质量的一个具体量化指标。

大部分服务都将请求延迟——处理请求所消耗的时间——作为一个关键的 SLI。其他常见的 SLI 包括错误率（请求处理失败的百分比）、系统吞吐量（每秒请求数量）等。这些度量通常是汇总过的：在某一个度量时间范围内将原始数据收集起来，计算速率、平均值、百分比等汇总数据。

可用性（availability）是另外一个 SRE 重视的 SLI，代表服务可用时间的百分比。该指标通常利用 "格式正确的请求处理成功的比例" 来定义，有时也称为服务产出（yield）。对数据存储系统来说，持久性（durability）——数据能够完成保存的时间——也是一个重要指标。

目标

SLO 是服务质量目标：服务的某个 SLI 的目标值，或者目标范围。（SLI < 目标值或范围下限 < SLI < 范围上限）

选择一个合适的 SLO 是非常复杂的过程。

无法确定一个具体的值
多个 SLO 是息息相关的（比如 QPS 和延迟）

好处：SLO的选择和公布可以帮助设立用户对服务质量的预期。该策略可以应对那些没有根据的抱怨——"服务太慢了"

协议

：指服务于用户之间的一个明确的，或者不明确的协议，描述了在达到或没有达到SLO之后的后果。这些后果可以是财务方面的——退款或者罚款——也可能是其他类型的。

指标在实践中的应用

运维人员和最终用户各关心什么

一般来说，四五个具有代表性的指标对系统健康程度的评估和关注就足够了。

常见的服务，根据它们的相关 SLI通常会归类为以下几个大类。

用户可见的服务系统（是否能正常处理请求？每个请求花费的时间是多少？多少请求可以被处理？）
存储系统通常强调：延迟、可用性和数据持久性。（读写需要多少时间？是否可以随时访问数据？数据是否一段时间内还能被读取？）
大数据系统，例如数据处理流水线系统，一般来说关系吞吐量和端到端延迟。（处理了多少数据？数据从输入到产出需要多少时间？）
所有的系统都应该关注：正确性。是否返回了正确的回复，是否读取了正确的数据，或者进行了正确的数据分析操作。

指标的收集

Borgmon

Prometheus

日志分析系统

指标的标准化

汇总间隔：每一分钟汇总一次
汇总范围：集群中的全部任务
度量频率：每10秒一次
包含哪些请求：从黑盒监控任务发来的 HTTP GET请求
数据如何获取：通过监控系统获取服务器端信息得到
数据访问延迟：从收到请求到最后一个字节被发出

目标在实践中的应用

目标的定义

SLO 应该具体指出它们是如何被度量的

目标的选择

不要仅以目前的状态为基础选择目标
保持简单
避免绝对值
SLO越少越好

控制手段

监控并且度量系统的SLI
比较SLI和SLO，以决定是否需要执行操作
如果需要执行操作，则要决定究竟什么操作需要被执行，以便满足目标
执行这些操作

第五章减少琐事

琐事的定义：运维服务中手动性的、重复性的，可以被自动化的，战术性，没有持久价值的工作。而且，琐事与服务呈线性关系的增长。

什么算工程工作

（engineering）是一种新颖的、本质上需要主观判断的工作。它是符合长期战略的，会对你的服务进行长久性的改善的工作。工程工作通常是有创新性和创造性的，着重通过设计来解决问题，解决方案越通用越好。

典型的SRE活动分为以下几类：

软件工程
系统工程：配置生产系统，修改现存配置，或者用一种通过一次性工作产生持久的改进的方法来书写系统文档
流程负担（overhead）：与运维服务不直接相关的行政工作。例如招聘、人力资源书面工作、团队/公司会议、任务系统的定期清理工作、工作总结、同行评价和自我评价，以及培训课程等。

第六章分布式系统的监控

术语定义

监控

：收集、处理、汇总，并且显示关于某个系统的实时量化数据，例如请求的数量和类型，错误的数量和类型，以及处理用时，应用服务器的存活时间等。

警报

分类：工单、email警报、紧急警报（page）

根源问题（root cause）

指系统（软件或流程）中的某种缺陷。这个缺陷如果被修复，就可以保证这种问题不会再以同样的方式发生。

节点或机器

这两个术语可以互换

为什么要监控

分析长期趋势

：数据库目前的数据量，以及增长速度。

跨时间范围的比较，或者是观察实验组与控制组之间的区别

报警

：需要立刻修复

临时性的回溯分析

有没有其他的现象同时发生

对监控系统设置合理预期

监控系统信噪比应该很高，发出紧急警报的组件需要非常简单而且可靠。产生警报的监控系统规则应该非常容易理解，同时代表一个清晰的故障场景。

4个黄金指标

延迟，流量，错误和饱和度（saturation）

饱和度：服务容量有多 '满'

设计监控系统

那些最能反映真实故障的规则应该越简单越好，可预测性强，非常可靠
那些不常用的数据收集、汇总，以及警报配置应该定时删除
收集到的信息，但是没有暴露给任何监控台，或者被任何警报规则使用的应该定时删除

在为监控系统和警报系统增加新规则时，回答下列问题可以帮助减少误报：

该规则是否能够检测到一个目前检测不到的、紧急的、有操作性的，并且即将发生或者已经发生的用户可见故障?
是否可以忽略这条警报？什么情况可能会导致用户忽略这条警报，如何避免？
这条警报是否确实显示了用户正在受到影响？是否存在用户没有受到影响也可以触发这条规则的情况？例如测试环境和系统维护状态下发出的警报是否应该被过滤掉。
收到警报后，是否要进行某个操作？是否需要立即执行该操作，还是可以等到第二天早上再进行？该操作是否可以被安全地自动化？该操作的效果是长期的，还是短期的？
是否也会有其他人收到相关的紧急警报，这些紧急警报是否是不必要的?

以上这些问题其实反映了在应对紧急警报上的一些深层次的理念：

每当收到紧急警报时，应该立即需要我进行某种操作。每天只能进入紧急状态几次，太多就会导致“狼来了”效应。
每个紧急警报都应该是可以具体操作的。
每个紧急警报的回复都应该需要某种智力分析过程。如果某个紧急警报只是需要一个固定的机械动作，那么它就不应该成为紧急警报。
每个紧急警报都应该是关于某个新问题的，不应该彼此重叠

监控系统的长期维护

在现代生产环境中，监控系统需要跟随不断演变的软件一起变化，软件经常重构，负载特性和性能目标也经常变化。

小结

健康的监控和警报系统应该是非常简单、易于理解的。紧急警报应该关注于现象，针对原因的一些启发性分析应该作为调试过程的补充，而不应该进行报警。监控的技术栈层面越高，监控现象越容易，但是监控某些子系统(如数据库) 的饱和度和性能参数可能要在该子系统内部直接进行。E-mail 警报的价值通常极为有限，很容易变成噪声。我们应该倾向于构建一个良好的监控台页面，直接显示所有的非紧急的异常情况。