那剩下的 10%：為什麼 AIOps 讓 SRE 工程師更不可或缺

2026 年 3 月 · 約 7 分鐘 · Aidaris Technologies 工程哲學

SRE AIOps 可靠性

AIOps 的核心主張令人嚮往：自動化事件偵測、響應與修復，讓工程師不再疲於救火，而能專注於建構更好的系統。在最積極的實踐中，目標是將人工介入降至所有運維事件的 20%，甚至 10%。更少的 on-call 負擔、更少的告警疲勞、更少的重複性勞動。

但現實中存在一個反直覺的真相：當 AI 承擔 90% 的工作，剩下的 10% 反而變得空前關鍵——負責這 10% 的工程師亦然。 AIOps 不會讓 SRE 工程師變得可有可無，而是讓頂尖的 SRE 成為真正無可取代的存在。

讓 AIOps 得以出現的問題根源

今天的 SRE 團隊並非被複雜度淹沒，而是被量給壓垮的。一家中型 SaaS 公司每天可能產生數千則告警，其中絕大多數是誤報，或者照著既有 runbook 就能解決的事件。工程師每週花費大量時間在確認、分類、處理那些完全可預測的事件。這不是工程工作——這是維護性勞動，長期下來會同時侵蝕士氣與認知能量。

AIOps 直接回應這個問題。結合機器學習異常偵測與自動化 runbook 執行的現代可觀測性平台，已能在無需人工介入的情況下處理相當比例的運維事件：

關聯相關事件，將告警風暴收斂為單一可行動的訊號
在不需人工調查的情況下，從分散式 trace、log 與 metrics 中定位根本原因
根據學習到的模式執行已知的修復動作——重啟服務、擴容、觸發 rollback
從事件時間軸自動產生事件摘要與事後分析草稿
提前數小時乃至數天預測容量耗盡的風險

這引出一個誠實的問題：如果 AI 能做到這一切，SRE 的存在意義到底是什麼？

那剩下的 10%——以及為何它是最難的部分

AI 無法解決的事件，不會是簡單的那些。而是從未發生過的那些——從新架構決策、非預期的第三方行為，或任何訓練資料從未見過的條件組合中所衍生的全新故障模式。而這恰恰是人類判斷力最不可取代、出錯代價也最高昂的地方。

但人工職責的這 10% 不只是事件響應。它涵蓋了定義整個系統可靠性承諾的決策：

「可靠」對這個產品意味著什麼？ 99.9% 和 99.99% 的 SLO 不只是數字上的差異，它們意味著截然不同的成本結構、架構約束與客戶期望。只有具備完整業務脈絡的人，才能做出這樣的承諾。
AI 可以自動執行到什麼程度？ 多數情境下，自動重啟是安全的。在資料庫遷移期間自動 rollback，則未必如此。定義這些邊界，需要的領域知識不是光靠歷史事件就能學到的。
這次事件透露了系統設計上的什麼問題？ 能夠進而帶動架構改變的事後分析，是一種本質上屬於人類的能力。AIOps 可以浮現出模式；只有工程師能判斷這些模式是否指向值得修正的設計缺陷——以及修正的代價是否可接受。
何時代表 AI 已到達極限、需要人工接手？ 辨別出一個事件是真正的新類型——而非系統見過的某種變體——本身就是一種需要深刻系統理解的判斷力。

AI 放大了槓桿，也提高了賭注

以下是 AIOps 世界中 SRE 人才更加關鍵而非較不重要的機制。

在 AIOps 之前，五名 SRE 可能管理一個服務十萬名使用者的系統。當 AIOps 吸收了例行運維工作，同樣這五個人，現在可能在管理一個服務百萬名使用者的系統——或三個各有三十萬使用者的系統。槓桿倍增了，每一個決策的後果也隨之倍增。

想想啟用了自動駕駛的商業飛行員。自動駕駛並不降低飛行的技術要求，它改變了那些技術必須覆蓋的範疇。今天的飛行員需要深入理解自動化系統，知道何時信任它、何時超越它，以及當它以設計者未預料的方式失效時如何復原。沒有任何一家航空公司因為有了自動駕駛就讓駕駛艙變得較不稱職。最優秀的航空公司反而讓它更稱職——因為自動駕駛無法應對的那些時刻，正是最關鍵的時刻。

同樣的邏輯適用於 AIOps 環境中的 SRE：

每一個架構決策都承載更大的份量。 有缺陷的可靠性設計，現在影響的是一個以前根本無法用相同人力管理的系統。錯誤在規模中擴散。
治理 AI 系統需要真正的專業能力。 調整異常偵測的閾值、驗證自動修復 runbook 的正確性、審查 AI 生成的事後分析是否準確——這些新任務需要對 AI 系統本身與其所管理的基礎設施都有深刻理解，無法委由缺乏領域知識的人來做。
新型故障，從定義上就是最難的那些。 在 AIOps 環境中抵達人工工程師的事件，都是 AI 無法處理的那些。這些不是例行事件，它們需要那種難以養成、也不可能自動化的第一性原理式分析。

判斷力層次的稀缺性

還有一個值得明確說出的維度：如果 AIOps 提高了 SRE 職位的門檻，它同時也提高了能達到這個門檻的人的稀缺程度。

一位能夠設計可靠性架構、治理 AI 運維系統、並在規模化環境中對新型事件做出穩健判斷的 SRE，是真正稀有的存在。工具在變好；能夠有效指揮這些工具的人，並沒有變得更普遍。更小的團隊管理更大的系統，意味著真正的 SRE 專業能力在供需關係上只會更加珍貴——而非更不珍貴。

當自動化接管了製造業的重複性組裝工作，同樣的模式出現了：機器變得商品化，設計、校準並改進機器所需的工程判斷力，成了稀缺資源。理解這一點的團隊建立起了持久的競爭能力；把它當成降低人力成本機會的團隊，發現自己裁撤掉的正是大規模出錯時最需要的那種能力。

這對建構 SRE 團隊意味著什麼

對組織來說，結論不是「我們需要更少的 SRE」，而是「我們需要能力輪廓截然不同、且顯著更高的 SRE」。

停止招募 on-call 吞吐量。 靠著照 runbook 解決 PagerDuty 告警的能力，越來越多是 AIOps 在做的事。改為招募那些能夠從根本上設計出幾乎不需要人工介入的系統的人——以及在真正需要介入時有判斷力的人。
招募能主導可靠性架構的工程師。 這個系統應該承諾什麼樣的 SLO？它的可靠性邊界在哪裡？哪些故障模式是可接受的？這些問題應該佔據 SRE 團隊的大部分認知資源，而回答好這些問題，需要的能力遠比執行 runbook 深厚。
有意識地設計人機交接點。 AI 自動處理什麼、什麼需要人工升級，這個邊界不是自明的。它必須被明確設計、持續調整、清晰歸屬。這是系統層次的 SRE 工作，而且隨著時間推移會複利增值。
認識到工程流程決定 AIOps 的品質上限。 AI 從你的歷史事件中學習。如果你的系統可觀測性不足、runbook 不完整、事後分析流於形式，你的 AIOps 系統就會繼承這些局限——並在規模中放大它們。奠定這個基礎的工程師，不是你 AIOps 策略的周邊角色，他們就是那個基礎。

那 10% 不是縮減，而是濃縮

當我們說 AIOps 讓工程師可以聚焦在 10% 的運維工作上，風險在於這聽起來像是重要性的降低。事實恰恰相反。那 10% 不是 AI 處理掉例行事務之後剩下的輕鬆部分，而是 AI 在結構上無法處理的那部分：新型故障、作為商業決策的可靠性、系統治理，以及在不確定性下的架構判斷。

讓工程時間集中在那 10% 上，不是成本削減策略，而是品質提升策略。這意味著你的可靠性工程人才，終於可以把時間花在只有他們能解決的問題上——而不是任何一個訓練充分的模型都能處理的雜訊。

在 AIDARIS，我們建構的系統是設計來值得它所承諾的可靠性——而不是在可靠性缺失的情況下設法繞過去。在 AIOps 的世界裡，這種奠基性的工程工作比以往任何時候都更加關鍵。如果你正在思考，隨著 AI 承擔越來越多的運維負擔，你的 SRE 職能需要演變成什麼樣子，我們希望參與這個對話。