本文原作者:Alex Hidalgo

Overview Link to heading

当刚认识的人问我做什么工作时,我通常会说:“我是一名站点可靠性工程师。我们负责保障大型计算机服务的稳定性。”对很多人来说,这听起来足够乏味了,我们的寒暄也就这样继续下去。不过,偶尔也会遇到一些比这更好奇的人:“哦,听起来挺有意思的!你是怎么做到(让大型计算机服务稳定运行)的?”

这可真是个棘手的问题!SRE 们究竟在做什么呢?多年来,我往往只是罗列一堆事情——其中一些后来也出现在了本书的篇章里。虽然这样的回答并非全错,却总觉得不尽如人意。必须有一个更凝练的答案,而当我回顾自己十年来的工作历程时,我想我终于找到了。SRE 们几乎所做的一切,都依赖于我们具备六种核心能力(六字箴言):量(衡量)、析(分析)、择(决策)、行(行动)、思(反思)和返(重复)。

Link to heading

衡量并不仅仅意味着收集数据。要衡量某件事,你心中必须有一个目标。你不会为了烤蛋糕而收集面粉,而是要测量面粉;否则,一切都会乱套。SRE(站点可靠性工程师)需要衡量事物,因为单纯的数据是不够的。我们的数据需要具有意义。我们需要能够回答这个问题:“这项服务是否在满足用户的需求?”

Link to heading

一旦你有了测量数据,下一步就是分析它们。这时,一些基础统计和概率分析就能派上用场了。通过运用数学家们为我们传承下来的数百年研究和知识,尽可能多地从你所测量的对象中汲取洞见。

Link to heading

现在,你已经尽力去测量和分析某件事是如何运作的。利用这份分析,来决定未来该如何最佳地推进吧!

Link to heading

作出决策后,你必须行动起来。你实际上需要去做你决定要做的那件事。也许,这个行动恰恰就是什么也不做!

Link to heading

最后,在完成工作之后,不妨回头审视一下自己的所作所为。用一种既严格又不妨害感情的眼光,审视你做过的任何事。通常情况下,从这个反思过程中,你能学到远比最初测量分析时更多的东西。

Link to heading

现在,你需要重新开始。你的决定要么改变了世界,要么没有,你需要持续衡量,才能看清这一行动或无所作为的真实影响。不断衡量、分析、决策、反思,并循环往复。这就是SRE的方法。渐进式的进步是唯一可靠的可靠性之道。

总结 Link to heading

可靠性工程是一个涵盖广泛的领域。我们时常需要扮演软件工程师、系统管理员、网络工程师、系统架构师,甚至教育者或顾问等多重角色,但贯穿所有这些角色的核心原则是:SRE(站点可靠性工程师)的工作必须以数据为驱动。你需要衡量那些需要衡量的指标,分析收集到的数据,根据分析结果制定行动方案,基于你的发现采取行动,反思你的决策,然后不断重复这一过程,循环往复。