Layer 4：人類監督 — 工程判斷層

2026 年 4 月 · 14 分鐘閱讀 · Aidaris Technologies 架構系列

人工智能協作SRE組織設計判斷

當自主運維有效時，它是無形的。沒有告警觸發。沒有事件發生。沒有人類需要。但他們仍然在那裡——只是不在做他們曾經做過的事。

這是最後一層，也許是最重要的：人類監督層。它不是關於人類在晚上處理危機。它是關於人類設計系統、設置邊界、處理系統無法做的事情以及從它所做的每個決定中學習。

中心洞察：當 AI 或自動化處理 90% 的運維工作時，剩餘的 10% 變得指數級更重要。那 10% 是困難的部分。那 10% 是工程判斷無法替代的地方。它是組織構建持久的運維卓越還是發現他們的自主系統在沒有人理解原因的情況下做出決定的地方。

剩餘的 10%

成熟的自主運維系統自動處理可預測的、日常的事件：服務重啟、資源擴展、根據 SLO 違反回滾部署。這些不是微不足道的——它們防止了大多數運維混亂。但它們是有先例的。

需要人類判斷的事件是那些沒有先例的事件：

新故障模式。 從未發生過的條件組合。你的系統沒有被訓練過它。不存在運行手冊。自動化響應不是為它設計的。
模棱兩可的商業背景。 事件發生在技術上可以用自動化修復解決。但解決它會違反服務 B 的 SLO 以修復服務 A。哪個權衡是正確的？那是商業決定，不是技術。
設計缺陷。 事件揭示了你的架構有根本弱點。自動化修復可以修補症狀，但有人需要認識到模式並修復根本原因。
升級決定。 當自動化系統達到其極限並將控制轉交給人類時，人類需要理解：這是我應該覆蓋系統的情況嗎？這是我應該讓它失敗以查看發生什麼的情況嗎？這是我應該呼叫 CEO 的情況嗎？

這些按計數代表也許 10% 的事件。但它們代表 90% 的影響，如果処理不當。

不是每個問題都應該自動解決。有些問題應該提醒人類並等待批准。其他應該被完全防止。

設置這些邊界需要工程判斷：

Layer 2 展示了 SLO 如何驅動自動化。但誰設定 SLO？誰決定 99.9% 是否足夠或需要 99.99%？

這不是技術問題。它是首要原則業務問題：業務實際需要什麼？錯過目標的後果是什麼？

每個自動化修復都是一個數據點。聚合它。研究它。問：

對於新故障——沒有先例、沒有運行手冊、沒有自動化解決方案的故障——人類必須負責。

這是 SRE 工作最高價值發生的地方。不是事件響應（自動化處理）。不是運行手冊執行（自動化處理）。這是不確定下的架構決策制定。

如果你正確設計 Layer 4，SRE 角色從根本上改變：

之前（事件驅動 SRE）：

之後（設計驅動 SRE）：

在自主運維中卓越的組織將 Layer 4 視為學習系統。每個事件——無論由自動化還是人類處理——都被捕獲、分析並用於改進系統。

這需要：

當人們問「自主運維是否意味著我們不需要 SRE？」，答案是不。它意味著我們需要基本上更高能力水平的 SRE。我們需要能夠設計架構的 SRE。我們需要能夠設計系統很少失敗的 SRE。我們需要能審查新事件並追蹤到設計缺陷的 SRE。我們需要能設置商業對齐的 SLO 並為之辯護的 SRE。

從事件響應到系統設計的轉變不是 SRE 工作價值的減少。它是一個提升。它是治療疾病和治療症狀之間的區別。它是構建最持久、可維護、可靠系統的地方。

你現在已經看到所有五層：

這些不是獨立的。它們是相互依賴的先決條件。在 Layer 0 穩固之前你無法跳到 Layer 3。如果 Layer 1 自動化不可靠，你無法期望 Layer 4 有效。

但如果你以紀律和意圖順序構建它們，你到達目的地：一個自己運行的系統，自己改進，對故障有彈性——人類最終可以自由地做他們無法做的工作。

在 AIDARIS，我們引導了許多團隊通過這個旅程。我們已經看到組織發現他們的「自主運維」只是脆弱基礎上破碎的自動化。我們也看到組織達到他們能自信地運行的地方，其中事件是學習機會而不是危機，其中 SRE 工作被尊為建築學科。如果你在這個路徑上並對差距不確定，讓我們談談你在哪裡以及你想去哪裡。