全球都在享用 Google 首屈一指的線上服務群,但直到他們在 2016 年出版了 Site Reliability Engineering 一書,世人才第一次全面認識到該如何支持這種深度廣度的系統維運。
全球性線上服務系統,規模與複雜度遽增,只靠傳統的人力或獸力是無法長久維運下去的。面對這問題,擁有第一流軟體研發能量的 Google,大膽拋開傳統作法,改從一個獨特的提問出發:「如果我們賦予軟體研發工程師一個任務,讓他們有機會從頭去設計維運系統,那會是什麼模樣?」
更進一步的提問是:「如果我們限制他們最多只能投入 50% 的時間在維運上,那會是怎麼樣的工作方式?」
從這角度出發,便是目前我們現在看到的 SRE。