2 個工程師維運 8 個產品的營運心法

海衫科技 HarrysonTech | | 閱讀時間:12 分鐘
H
HarrysonTech Engineering
AI-driven tech team · 2 engineers · 8 active products · 0 on-call incidents(6 個月)
2 個工程師維運 8 個生產產品不崩潰的關鍵不是工作更努力,而是讓系統的大部分工作自動完成。海衫科技的做法:90% 的事件由自動化系統處理,人工只介入那 10% 真正需要判斷的問題。

📌 關鍵要點 Key Takeaways

核心原則:不要做系統可以做的事

工程師的時間只能用在三件事:設計系統、處理系統無法自動解決的問題、改進系統讓它能處理更多自動化。所有其他事情都應該被自動化或外包。

聽起來像廢話,但執行起來需要嚴格的自律。每次有問題發生,第一個問題不是「我怎麼解決這個問題」,而是「怎麼讓這個問題下次不需要我介入就能被解決」。

自動化監控:40 個健康檢查,全天候

8 個產品的監控設定,每分鐘執行 40 個健康檢查:

監控類型工具檢查頻率告警閾值
Endpoint uptimeBetterStack每分鐘連續 2 次失敗
Response timeBetterStack每分鐘P99 > 3 秒
Error rateVercel Analytics即時5xx > 1%
Database health自建腳本每 5 分鐘連接數 > 80%
API quota自建腳本每小時使用量 > 70%
SSL certificateBetterStack每天到期前 14 天

告警通道:全部走 Telegram bot。分兩個群組:

為什麼是 Telegram 不是 PagerDuty?PagerDuty 要 $19/用戶/月,功能 80% 我們用不到。Telegram 免費,bot 自己寫,2 小時搞定。

事件回應 SOP

收到告警的標準流程,不允許跳步驟:

  1. 確認(2 分鐘):這是真實問題還是誤報?查監控 dashboard 確認
  2. 分類(3 分鐘):P1(影響用戶)/ P2(有風險但用戶尚未受影響)/ P3(技術問題,低優先)
  3. 隔離(5 分鐘):問題在哪一層?前端、API、資料庫、外部服務?
  4. 緊急緩解(15 分鐘):先讓服務恢復,再找根本原因(rollback、feature flag 關閉、快取清除)
  5. 根本原因分析(事後):問題真正的原因,防止復發的措施
P1:立即響應(5 分鐘內)
定義:用戶無法使用核心功能、資料遺失風險、安全漏洞
例子:API 全面 5xx、資料庫連接斷開、付款系統失敗
P2:今天內處理(30 分鐘內)
定義:部分功能異常、效能明顯下降、有復發風險的問題
例子:特定 API endpoint 慢 3 倍、某個功能對 5% 用戶失敗
P3:排入工作計劃
定義:技術債、非關鍵 bug、優化機會
例子:測試覆蓋率降低、程式碼品質問題、文件不完整

優先級判斷的本質

大部分人的優先級判斷是錯的,因為他們用「緊急程度」代替「重要程度」。一個發瘋在 Slack 追問的用戶讓你感覺很緊急,但他的問題可能是 P3。一個沉默的資料庫問題可能是 P1。

我們用兩個維度判斷:

這兩個維度決定優先級,不是「誰叫得最大聲」。

什麼要自己做,什麼要外包

外包判斷框架——同時滿足這三個條件才考慮外包:

我們目前外包的事:

我們不外包的事:

每週 1 小時技術債追蹤

技術債不管理就會累積成危機。我們每週一固定 1 小時:

  1. 回顧上週所有 P3 問題(15 分鐘)
  2. 評估技術債的「利息成本」:這個問題如果繼續放著,會讓每個相關功能的開發時間增加多少?(20 分鐘)
  3. 決定本週要處理哪些技術債(10 分鐘)
  4. 排入下週工作計劃(15 分鐘)

關鍵指標:我們追蹤「技術債利息總和」——所有現有技術債加起來讓我們每週多花多少時間。這個數字如果超過 4 小時/週,當週的新功能開發要讓位給技術債清理。

最重要的一件事

如果只能選一件事,那是:讓你的系統在你睡覺時能自我診斷和自我恢復。不是更努力工作,不是更快回應告警,而是讓系統在大多數情況下不需要你。

這需要前期投資——建立自動化監控、寫 runbook、設計 circuit breaker 和 fallback 機制。但這個投資的回報是:你可以在晚上睡覺、在週末不看手機,同時知道系統在正常運作。

想把你的營運效率提升到這個水準?

海衫科技提供小團隊 AI 化改造諮詢

免費諮詢 →