當自主運維有效時,它是無形的。沒有告警觸發。沒有事件發生。沒有人類需要。但他們仍然在那裡——只是不在做他們曾經做過的事。

這是最後一層,也許是最重要的:人類監督層。它不是關於人類在晚上處理危機。它是關於人類設計系統、設置邊界、處理系統無法做的事情以及從它所做的每個決定中學習。

中心洞察:當 AI 或自動化處理 90% 的運維工作時,剩餘的 10% 變得指數級更重要。那 10% 是困難的部分。那 10% 是工程判斷無法替代的地方。它是組織構建持久的運維卓越還是發現他們的自主系統在沒有人理解原因的情況下做出決定的地方。

剩餘的 10%

成熟的自主運維系統自動處理可預測的、日常的事件:服務重啟、資源擴展、根據 SLO 違反回滾部署。這些不是微不足道的——它們防止了大多數運維混亂。但它們是有先例的。

需要人類判斷的事件是那些沒有先例的事件:

  • 新故障模式。 從未發生過的條件組合。你的系統沒有被訓練過它。不存在運行手冊。自動化響應不是為它設計的。
  • 模棱兩可的商業背景。 事件發生在技術上可以用自動化修復解決。但解決它會違反服務 B 的 SLO 以修復服務 A。哪個權衡是正確的?那是商業決定,不是技術。
  • 設計缺陷。 事件揭示了你的架構有根本弱點。自動化修復可以修補症狀,但有人需要認識到模式並修復根本原因。
  • 升級決定。 當自動化系統達到其極限並將控制轉交給人類時,人類需要理解:這是我應該覆蓋系統的情況嗎?這是我應該讓它失敗以查看發生什麼的情況嗎?這是我應該呼叫 CEO 的情況嗎?

這些按計數代表也許 10% 的事件。但它們代表 90% 的影響,如果処理不當。

判斷層的四項責任

責任 1:定義自動化被允許做什麼

不是每個問題都應該自動解決。有些問題應該提醒人類並等待批准。其他應該被完全防止。

設置這些邊界需要工程判斷:

  • ✅ 自動:服務健康檢查失敗時重啟服務
  • ✅ 自動:CPU > 80% 時擴展
  • ⚠️ 需要批准:刪除資料庫複本
  • ⚠️ 需要批准:將 100% 流量轉移到新地區
  • ❌ 禁止:關閉資料庫服務器
  • ❌ 禁止:刪除客户數據

責任 2:設置可靠性目標(SLO)推動一切

Layer 2 展示了 SLO 如何驅動自動化。但誰設定 SLO?誰決定 99.9% 是否足夠或需要 99.99%?

這不是技術問題。它是首要原則業務問題:業務實際需要什麼?錯過目標的後果是什麼?

責任 3:評審自動化決定並從中學習

每個自動化修復都是一個數據點。聚合它。研究它。問:

  • 哪些運行手冊最頻繁被觸發?
  • 每個修復的成功率是多少?
  • 我們是修復症狀而不是根本原因嗎?
  • 有我們錯過的模式嗎?

責任 4:處理系統無法做的事

對於新故障——沒有先例、沒有運行手冊、沒有自動化解決方案的故障——人類必須負責。

這是 SRE 工作最高價值發生的地方。不是事件響應(自動化處理)。不是運行手冊執行(自動化處理)。這是不確定下的架構決策制定。

SRE 角色轉變

如果你正確設計 Layer 4,SRE 角色從根本上改變:

之前(事件驅動 SRE):

  • 待命輪換響應告警
  • 事件發生 → 工程師滅火 → 應用修復 → 火熄滅
  • 成功指標:「我們有多快響應?」
  • 倦怠:高(告警疲勞、凌晨 3 點頁面、英雄文化)

之後(設計驅動 SRE):

  • 待命輪換最少(僅用於新故障)
  • 工程師花時間:設計可靠系統、改進可觀測性、演進運行手冊自動化
  • 成功指標:「我們防止了多少事件?我們消除了多少日常工作?」
  • 倦怠:低(認知工作、商業對齐、可持續)

學習組織

在自主運維中卓越的組織將 Layer 4 視為學習系統。每個事件——無論由自動化還是人類處理——都被捕獲、分析並用於改進系統。

這需要:

  • 結構化事件評審。 不是責備。不是「什麼出錯了」。而是「這個事件教了我們什麼?我們如何防止下一個類似的事件?」
  • 趨勢分析。 Grafana 儀表板顯示:哪些組件最經常失敗?哪些運行手冊最有效?工程時間最佳花費在何處?
  • 有意的 SLO 評審。 季度:「這些 SLO 仍然正確嗎?我們是過度還是不足構建?」
  • 自動化效能指標。 自動化本季度節省了多少待命時間?每個運行手冊的 ROI 是多少?

最後的洞察

當人們問「自主運維是否意味著我們不需要 SRE?」,答案是不。它意味著我們需要基本上更高能力水平的 SRE。我們需要能夠設計架構的 SRE。我們需要能夠設計系統很少失敗的 SRE。我們需要能審查新事件並追蹤到設計缺陷的 SRE。我們需要能設置商業對齐的 SLO 並為之辯護的 SRE。

從事件響應到系統設計的轉變不是 SRE 工作價值的減少。它是一個提升。它是治療疾病和治療症狀之間的區別。它是構建最持久、可維護、可靠系統的地方。

完成架構

你現在已經看到所有五層:

  • Layer 0:可觀測性 — 基礎。你無法自動化你看不到的。
  • Layer 1:運行手冊自動化 — 消除已知日常工作。讓人類專注於未知問題。
  • Layer 2:SLO 作為控制迴圈 — 讓可靠性目標驅動部署、擴展和資源決定。
  • Layer 3:不可變基礎設施 — 使系統安全地被摧毀和重建。啟用有信心的修復。
  • Layer 4:人類監督 — 設計判斷層。定義邊界。評審決定。學習和改進。

這些不是獨立的。它們是相互依賴的先決條件。在 Layer 0 穩固之前你無法跳到 Layer 3。如果 Layer 1 自動化不可靠,你無法期望 Layer 4 有效。

但如果你以紀律和意圖順序構建它們,你到達目的地:一個自己運行的系統,自己改進,對故障有彈性——人類最終可以自由地做他們無法做的工作。

在 AIDARIS,我們引導了許多團隊通過這個旅程。我們已經看到組織發現他們的「自主運維」只是脆弱基礎上破碎的自動化。我們也看到組織達到他們能自信地運行的地方,其中事件是學習機會而不是危機,其中 SRE 工作被尊為建築學科。如果你在這個路徑上並對差距不確定,讓我們談談你在哪裡以及你想去哪裡