SRE(运维工程师)成长路线

发布时间 2023-03-23 15:32:18作者: flytoyou

第一个运维工程师

一天,玛丽的儿子劳伦在摆弄 MIT 。当她在键盘上乱按的时候,一条错误信息突然出现。劳伦不知怎地启动了一个叫做 PO1 的预运行程序,原本正在飞行状态的模拟器一下子崩溃了。

虽然一般来说宇航员不会犯这样的错,但玛格丽特还是想加一段代码防止这种状况的发生。这一提议被 NASA 否决,[他们一遍又一遍地跟我说宇航员不会犯任何错误,他们被训练得近乎完美,,玛格丽特说。她转而加了一句程序说明,所有 NASA 工程师和宇航员都能看到:[不要在飞行过程中按下 PO1]。她回忆说,[所有人都说,[那样的事情永远都不会发生]。]

但事情的的确确发生了。时间大约在1968年的圣诞节,进入阿波罗8号飞船的第五天飞行,宇航员吉姆洛威尔(im Lovell)不小心在飞行中启动了 PO1 程序。当电话从休斯顿打来的时候,玛格丽特正在仪器实验室的 2层会议室。启动 PO1程序导致此的导航数据全部清空,阿波罗计算机无法计算出如何返回地球。

多亏了玛格丽特,还有调皮的劳伦,阿波罗号上的宇航员才得以重返地球

我对运维的理解

运维的技术含量低?

  • 承上启下,厚积而薄发的岗位
  • 可以做的很深,也可以做的很广

运维到底学什么技术

  • 操作系统/硬件/开发/算法/
  • 业务理解和掌控

运维跟SRE关系

  • SRE目前在国内大厂专指业务运维
  • 百度、字节、美团等SRE都是指业务运维

我对SRE的理解

SRE的全名:Site Reliability Engineer (网站可靠性工程师)。
来说一下我对SRE的理解,SRE是最根本的目标是时刻保证线上的稳定和安全。
如果说线上服务是上帝,那么SRE就是网址的专职医生。

对于专职医生的职能体系包括:
1.健康检查和指标观察
2.快速诊断
3.快速治疗
4.疾病预防
5.专项提升

那么对于SRE工程来说,同样对应的工作体系包括:
1.监控发现:线上指标的检查和监控
2.快速定位:如何快速发现问题
3.止损体系:线上止损、日常操作
4.预防体系:容量规划和预测,架构优化等等
5.活动体系:节假日大型活动

SRE的三个核心工作 :定性、成本、效率
稳定性是基本盘