當 Agile 遇見 AI：變與不變

Scrum Guide 問世至今已經超過 15 年。到了 GenAI 與 coding agents 時代，Scrum 算不算過時？

我傾向先把問題換個方式問。AI 改變的主要不是 Agile 的核心，而是它的流程外殼。尤其是那些建立在人類口頭同步上的做法，會先鬆動。真正值得看的，是當 AI 已經能查 repo、寫 ticket、開 PR、跑測試之後，哪些工作還是得由人承擔，哪些做法則得改成機器也用得上。

現在很多團隊碰到的，不是工作自己做完了，而是塞車的位置換了。

你讓 agent 跑了一整晚。隔天早上，GitHub 上可能已經躺著幾個有待 review 的 PR、兩三種看起來都說得通的重構方向、一些測試全綠卻仍讓人不安的修改，外加幾個碰了系統邊界卻未必自知的變更。Peter Steinberger 談 OpenClaw 時，也提過自己曾讓系統跑上數小時，甚至隔夜處理重構；他甚至認為 “prompt requests” 也會變成新的日常。¹

這裡真正變快的，是程式碼產出。沒有一起變快的，則是審查、驗收、風險辨識、責任承擔和後續決策。表面上看起來像是寫得更快，實際上常常只是把瓶頸往後推。

這也是為什麼，接下來 Agile 最先被改寫的，通常不是短回饋本身，而是團隊怎麼同步、怎麼協作、怎麼把資訊往前整理。很多原本得靠人類口頭交換的內容，現在可以先由機器整理、摘要、比對、補齊，甚至先展開幾種可能方案。

很多人在正式會議前，本來就會先和 AI 討論，再把整理過的結論帶進會議。既然這件事早就在發生，那差別往往只剩下：團隊要不要正式承認它。說穿了，就是要不要把那隻早就在場外跑著的龍蝦 (OpenClaw)，正式接進協作流程裡。

先變薄的部分

Daily Scrum：從同步到排除障礙

Daily 最容易先變形，因為它最常被實作成站會、報進度、同步阻礙。若 AI 已經能自動整理昨天的 commit、ticket 狀態、PR 變化、CI 結果、風險訊號與依賴狀況，很多原本要靠人輪流講一遍的資訊，自然可以退出例行會議。

Daily 之後會更像一個更窄、更直接的介面。平時以非同步更新為主，必要時再同步排除障礙與重新對焦 Sprint Goal。它還是有用，只是用途會收斂得更清楚。

Planning / Refinement：agent 會先進來

Planning 和 Refinement 會很早被改寫，因為這兩個環節本來就有大量前期整理與方案展開的工作。

Agent 可以先整理 repo 現況、歷史 issue、相依模組、潛在技術債、風險、限制條件與驗收線索，也可以先把問題空間攤開：列出幾種可能方向、補上 edge cases、模擬不同 stakeholder 的質疑，或把一句模糊需求推成幾版可比較的 backlog candidates。

這會直接改變會議本身的重心。以前團隊常常花很多時間把資料湊齊、把可能性從零展開；現在更可能直接從幾個已經展開的選項開始討論。AI 在這裡的價值，不只是幫忙整理答案，而是先把問題空間、方案空間和限制空間攤到桌上。

但這也立刻放大 artifact 品質的問題。若 backlog item 寫得模糊、驗收條件不清、優先順序背後沒有說明清楚的價值假設，agent 只會更快放大原有的模糊。AI 可以幫忙展開選項，卻不能替代產品與工程團隊對「為什麼現在做、做到哪裡算足夠、哪種風險不能接受」的共同判斷。

所以到了 AI 時代，Planning / Refinement 的價值不會縮水，只是重心會往前移。人不再主要負責把資料從零湊齊，而是負責設邊界、做取捨、定優先順序。

Review：準備工作能外包，判斷不能

Review 很適合由 agent 深度前置支援。它可以先整理 demo 重點、摘要變更、用數據展示品質趨勢、風險列表，甚至預測 stakeholder 可能會問什麼。

但 Review 的核心工作還是看完成果之後，團隊要不要調整後續方向。資訊展示可以大幅前置自動化；價值判斷、取捨與 adaptation 仍然要由人承擔。

Sprint 本身：時間盒會重估

AI 明顯壓縮了實作與局部驗證時間，如果 Sprint 仍然固定在兩週或更長的週期，當然會開始顯得肥厚。某些團隊會把 Sprint 縮短，自動化程度高、跨團隊依賴程度低的團隊，甚至可能轉向更接近 Kanban 那種持續流動的節奏。

接下來要重新看的，是什麼節奏最適合吸收風險、整合回饋、維持責任鏈。在高合規、高風險、跨職能協作密集的環境裡，時間盒仍然可能很有用；只是到了 AI 時代，它不必再理所當然地綁定某一個固定長度。

反而變更硬的部分

Retrospective：更重要，也更脆弱

如果說 Daily、Planning、Refinement、Review 有些部分會被 AI 削薄，那麼 Retrospective 則可能會往另一個方向走：它會變得更重要。

Retro 處理的是團隊診斷、坦白與集體學習。這裡最關鍵的東西不是效率，而是心理安全、信任，以及組織能不能把一次失敗轉成下一輪行動。

同樣一句話「這次卡住，其實是因為我不敢太早提反對意見」，在純人類的 retro 裡，也許有人會講；但如果現場多了一個在記錄、歸因、評估，甚至長期留痕的 agent，這句話就很可能消失。不是因為 AI 一定會懲罰誰，而是因為人會重新計算：這句話說出去之後，會怎麼被理解、保存、引用或放大。²

所以，如果 retrospective 還要有診斷價值，團隊就得很清楚地界定 AI 在裡面的角色。它可以幫忙整理議題、歸納模式、追蹤 action items；但只要它強化了監看感、記錄感或績效聯想，retro 最有價值的那部分就會先破壞掉。

Artifacts：要給人，也要給機器用

比起只盯著 Scrum 的 events，我更在意另一件事：artifacts 在 AI 時代會比以前更重要，而且得重寫。

Scrum Guide 一直強調 artifacts 的角色，是讓工作與價值具備透明性。Agent 普遍介入之後，artifact 不再只是給人看的共識載體，也會變成人機協作的介面。Backlog item、acceptance criteria、Definition of Done、測試規格、architecture decision record、runbook、incident template——這些文件如果還只是寫到「人類大概懂」，對 agent 來說通常就不夠。

AI 時代，好的 artifacts 通常得同時滿足三件事：

讓人能理解為什麼要做。
讓機器能可靠地執行或協助執行。
讓責任可以在事後被追溯。

Artifacts 精度直接決定產出品質，因此，很多過去被嫌文件太笨重的東西，之後可能會以另一種形式回歸。

這裡說的回歸，指的是另一類 artifacts：輕量、可持續修訂、直接服務於協作、生成、驗收與追溯。它們會跟著 sprint 推進而演化，會貼著程式碼、測試、部署與實際決策一起更新，也會持續接受回饋修正。這種文件更像高精度介面，負責讓人與 agent 在同一組邊界條件下工作。

Agile Manifesto 裡那句 working software over comprehensive documentation，放到今天依然成立。關鍵不在於文件多或少，而在於它有沒有直接服務於 working software。只要文件仍然貼近交付、能被持續修訂、能幫助團隊更快收斂到可驗收的結果，它就還在敏捷的精神之內。

從傳統產品實務看，這其實並不陌生。很多團隊早就會用 INVEST 來檢查 user story 是否至少夠獨立、可協商、有價值、可估、夠小且可驗證。這些要求在 AI 時代沒有失效，反而更像最低門檻。差別在於：過去一則 story 只要寫到讓人類團隊大致能接手，常常就能往下做；現在若連 agent 都要參與展開、拆分、測試與實作準備，那 backlog 就得再往前一步，寫到目標、非目標、限制條件、驗收方法與 sign-off 都足夠明確。

舉個最簡單的例子。

壞寫法：

作為使用者，我希望登入更快。

這句對 PM 或工程師也許還能繼續聊，但對 agent 來說，邊界幾乎是空的。

好寫法：

目標：將登入首屏可互動時間降低 30%。

非目標：不改動身份驗證供應商。

限制：不得影響現有風控規則。

驗收：iOS 與 Web 端在指定設備與網路條件下達成 X 指標；由產品經理與前端負責人共同 sign-off。

同樣是一個 backlog item，後者才提供了真正可用的人機介面：目標是什麼、邊界在哪裡、什麼算完成、誰負責最後收件。AI 可以根據這些資訊幫忙拆工作、產生測試、準備 PR；它之所以幫得上忙，是因為 artifact 先被寫清楚了。

責任鏈與工程護欄：生成越快，越要卡住

不少人對 AI 的第一直覺，是既然寫程式變便宜，那很多流程大概都能省掉。這種想像只對了一半。

AI 的確讓某些執行工作變便宜了，但它完全沒有削弱 accountability。事情如果上線出錯，最後還是得有人承擔；需求如果方向錯了，還是得有人為取捨負責；安全性、法遵、效能和使用者體驗，也不會因為程式碼是 agent 幫忙寫的，就自動退到後面。

接下來真正要被重構的，是整條責任鏈：誰定義任務、誰設邊界、誰接收產出、誰有權否決、誰來為結果簽名。這些問題沒先講清楚，只把 agent 接進流程，最後通常不會更敏捷，只會更快地製造混亂。

工程護欄也會一起變硬。程式碼生成量一旦上來，不可能靠線性增加人工 review、每個人更辛苦地看更多東西來搞定。最後撐得住的，是那些能把品質判斷前移、自動化、制度化的做法：持續整合、快速測試、明確的 Definition of Done、嚴格的 code review gate、穩定的 observability、必要時的 evals，以及對產線風險有感知的 release discipline。

從這個角度看，XP 裡那些常被嫌麻煩、嫌慢、嫌太講究的實踐，在 AI 時代反而更像必要基礎設施。原因不在於它們很傳統，而在於它們能承接高速生成之後帶來的品質壓力。 ³

別把判斷力一起外包

AI 的介入，還引出另一個更根本的問題：當執行越來越便宜，我們怎麼避免把判斷力一起外包出去。

這裡說的判斷力，不是抽象的道德說教，而是幾種很具體的能力：

看出哪裡不對勁的能力。
在多個看起來都合理的方案裡做取捨的能力。
在壓力下願意為結果簽名負責的能力。

如果一個團隊長期把 AI 當成「先幫我做完，我再大致看一下」的工具，被侵蝕的往往不只是「寫程式」這一項技能，而是對錯誤的敏感度、對邊界的感知、對系統後果的直覺，以及在不完整資訊下做判斷的肌肉。⁴

更麻煩的是，這件事未必會以很戲劇化的方式發生。多數時候，它不是讓人突然完全不會做，而是讓人慢慢失去深入理解的動機。表面上每件事都做得更快，實際上團隊可能越來越依賴一套自己不完全理解、也不太知道怎麼挑戰的生成流程。最後留下來的，不是高效，而是脆弱。

所以我不太接受那種把 AI 對團隊的影響簡化成「速度提升」的說法。速度當然重要。真正決定團隊長期能力的，還是判斷、責任與學習能不能一起跟上。

結語：Agile 沒有過時，介面在變

Scrum 未必過時。現在鬆動的，是建立在人類同步成本上的那一層介面。

接下來要進一步重構的，是人、機器與責任之間的介面。

流程會被改寫，但判斷、責任和學習不會消失，只會加重。

OpenClaw 作者 Peter Steinberger 在接受 Lex Fridman Podcast #491 訪談時提到，讓系統處理重構，可能會跑上數小時，甚至隔夜，也提到 review pull request，甚至 “prompt request” 會變成他日常工作的一部分。這很適合拿來說明：當 agent 讓產出暴增時，人類瓶頸常常會被推向 review 與判斷。 ↩︎
這裡的推論應該寫得保守一點。Edmondson (1999) 與 Google re:Work 所談的心理安全，確實都支持「人要在團隊裡敢說真話，必須感到不會因提出疑問、異議或錯誤而受到懲罰」這件事。Partnership on AI 與 APA 的材料也指出，當 AI 被用來強化監看、侵入隱私，或讓人感到自己正被持續觀察時，心理安全可能受損。Dorner 與 Fellner-Röhling (2025) 的研究則更直接涉及信任與自動化控制，而不是 retro 場景本身。把這些材料放進 retrospective 的脈絡，只能支撐一個較保守的判斷：一旦 retro 帶出強烈的監看感、記錄感或評價感，團隊的坦白程度很可能下降。 ↩︎
請參考我在〈AI 會寫程式之後，軟體工程真正變貴的是什麼〉一文做的探討。 ↩︎
這裡我同樣刻意寫得保守。關於 AI 是否會侵蝕學習與理解，Anthropic 2026 年的一項研究 “How AI Assistance Impacts the Formation of Coding Skills” 發現，接受 AI 協助的學習者，在剛做過的概念測驗上分數較低；但長期的 deskilling 與組織後果，目前仍缺少更長時間尺度的直接證據。 ↩︎