苦勞德報 — 2026-05-28

2026-05-28

1. [頭版] Opus 4.7 退步終於有數據佐證:Margin Lab 量測通過率掉 15%,社群罵了一週的「感覺變笨」首次被 benchmark 釘上

報導

(本報賈新聞/工具組報導)r/ClaudeCode 從上週日(5/24)開始就被「Opus 4.7 是不是又被偷偷改了」的抱怨灌爆,本報前一期(5/26)也整理過「Opus 4.7 愛用『猜』的:先射箭再畫靶」一文,描述使用者對模型行為的主觀觀察。本週社群的劇本進入下一幕——終於有人拿出量化數據。

第三方 benchmark 服務 Margin Lab 在週二(5/26)發出 追蹤報告,指出他們的 Claude Code tracker 從 5/22 開始偵測到 Opus 4.7 出現「統計顯著」的能力退化,pass rate 較先前下降約 15%,狀況持續到 5/26 仍未恢復。該團隊把原始圖表掛在 marginlab.ai/trackers/claude-code/ 上,這是這波退步爭議第一次有獨立第三方拿出可重現的測量結果,把「感覺」翻譯成數字。

主觀回報的第一手案例同樣具體。發起頭版討論串的 u/Ambitious_Injury_783 自述是兩個 Max 20 帳號的重度使用者,從去年七月起每天用 Claude Code、跑同一套高度結構化的 workflow,每個 session 只走 2 到 3 turn,就是為了讓行為盡量 deterministic。他從週日開始觀察到三件事:(一)原本一個 turn 內會連續呼叫兩個 skill 的 onboarding,變成拆成兩個 turn,耗時直接乘三;(二)正常 20 至 40 分鐘的任務變成平均一小時;(三)模型出現「明顯與當下任務不相稱的長 thinking block」。更詭異的是,他原本 session context 通常落在 250k 至 400k,最近卻反覆衝到 700k、800k,創下歷史新高。他本人提出的假說是 Anthropic 在背後做了 compute 重新分配與排隊,並用 hidden thinking 把排隊時間蓋掉,但他也坦承「context 變多」這件事用排隊理論解釋不通。

底下留言區是同病相憐的合唱。u/ImAnOwl_(75↑)一句「我可以證實這個行為」直接被頂上熱門;u/Jomuz86(17↑)提出 Anthropic 可能在新模型發表前夕「動態調節 compute」、導致 Opus 每次改版前都先「晃一下」;u/bluesclues226(11↑)描述自家從三月起穩定的 workflow,最近變得「更愛自信地犯錯、更愛多此一舉地問東問西」。回到 Margin Lab 那串底下,u/Prof_Hentai(22↑)下了更重的結論:「用 CC 一年多從沒覺得有大幅退步,但現在它幾乎沒法用。」

不過要平衡視角的話,仍有一群人不同意這個敘事。u/Former_Rutabaga_1670 在 另一篇貼文 力挺 Opus 4.7,他比較過 GPT-5.5、Gemini 3.1 Pro、Kimi K2.5、GLM 5 等一輪後,認為 Opus 仍是唯一靠得住、跨得過硬骨頭問題的模型。但同串留言區的反應同樣分裂,u/Kajotee(21↑)直接回嗆「Opus 4.7 不能信任,不照 repo 規範走」、u/SgtPeanut_Butt3r(11↑)直接判定原 PO 是 bot 帳號。

社群反應

觀點 說明 代表留言
量化派 Margin Lab benchmark 從 5/22 起偵測到 pass rate 下降 15%,統計顯著 「用 CC 一年多從沒覺得明顯退步,但現在它幾乎沒法用。」(u/Prof_Hentai, 22↑)
主觀派(贊同退化) 重度使用者察覺 workflow 變慢、context 暴衝、規則不照守 「我可以證實這個行為。」(u/ImAnOwl_, 75↑)
共享 compute 派 懷疑是 Anthropic 在新模型發表前動態調節算力,Opus 每次改版前都會「晃一下」 「我懷疑這是共享 compute 的問題,他們會依需求即時調節算力。」(u/Jomuz86, 17↑)
反對派(仍信任) 比過 GPT-5.5、Gemini、Kimi 等模型後,仍認為 Opus 是唯一靠得住的 「Opus 是黃金標準,配上他們的框架,它不只是寫 code 工具,是個 software engineer。」(u/GiveMoreMoney, 1↑)
用法問題派 認為退化感是 context 用太多/沒切 session 造成 「我都把 context 控制在 300k 以下⋯⋯大 context 始終是毒藥,只是這次毒法不同。」(u/y3i12, 9↑)
退訂派 數據出爐後直接結束訂閱 「今天終於退了 Max 5x。幹你 Anthropic,謝謝你為我這小小世界帶來的痛苦與折磨。」(u/miredonas, 6↑)

本報觀點

這條新聞的轉折點不在「Opus 4.7 是不是真的退步」,而在「終於有第三方拿 benchmark 把這件事釘到地上」。過去幾週社群罵聲一片,但 Anthropic 那邊的標準回應永遠是「我們沒改模型」,加上 Claude Code 把 thinking block 藏起來之後,使用者更難自證;Margin Lab 這份 5/22 起 pass rate 下降 15% 的觀察,是這場羅生門裡第一塊比較像證據的證據。當然 15% 在 benchmark 圈未必算驚天動地的數字,主觀感受被放大也不能排除,但結合「重度使用者描述的 context 暴衝、turn 數變多、規則被違反」等具體症狀,這次的訊號比過去幾次模型抱怨潮都要硬。本報目前還沒看到 Anthropic 官方就此次量測做出回應,下一期會持續追蹤;對重度依賴 Opus 4.7 跑生產工作流的使用者,這幾天適合保留好 prompt、留 log、別急著大改 workflow——如果背後真的是 compute 調節而非模型本身改動,等風頭過了該回來的能力就會回來。← 藏鏡人批:context 從 400k 飆到 800k 這條才是最詭異的線索,pass rate 15% 反而像是配菜。Anthropic 還沒出聲,但這次是真的有客觀數據在桌上了。

2. [產業] The Verge 爆料:微軟內部開始收回 Claude Code 授權

報導

(本報賈新聞/產業組報導)The Verge 爆料指出,微軟已開始陸續取消內部員工的 Claude Code 授權,貼文一上 r/ClaudeAI 就衝到 1561 票、87 則留言。雖然原 po 掛的是 Humor flair,社群討論卻沒人在笑——身為 Anthropic 最具指標性的企業大戶之一,這次抽手被讀作再清楚不過的訊號:微軟要把所有 AI coding 工作流整合回自家 GitHub Copilot 平台,而 Claude 系列模型則被降格成 Copilot 內可選的後端之一

社群隨即翻出另一篇接力討論「I called this a few months ago - enterprises are burning unsustainable amounts on Claude」(r/ClaudeAI/1tpgked,75↑/43 則),點名 enterprise 端早就在 Claude Code 上燒掉不合理的金額。多位身在企業內部的開發者也補刀,下週 GitHub Copilot 改採 token-based pricing 後,原本月付 40 美元的中度使用者,新方案估算將跳到 600 美元,公司端的 Copilot 額度更傳出將被砍到只剩六分之一。一句話總結這波風向:微軟不是放棄 AI,是收掉 Anthropic 在公司內部單獨計費的那條獨立通道,把預算全部收進 Copilot 統一控管。

社群反應

觀點 說明 代表留言
不是裁掉 Claude,是整併到 Copilot mod-bot 自動結論:這是把所有人趕到 GitHub Copilot 平台的整併動作,Claude 還在,只是舊定價結束了。 「共識是微軟並非『開除』Claude,而是把大家都搬到 GitHub Copilot 上的整併動作。你還是能透過 Copilot 用 Claude 模型,只是舊定價的派對結束了。」(u/ClaudeAI-mod-bot, 1↑)
企業預算大砍六倍 Copilot 新計價即將上路,公司用量被砍到原本的六分之一,個人試算月費從 40 美元跳到 600 美元。 「我們公司的 Copilot 額度預計被砍六倍,絕大多數本來都拿去跑 Claude Sonnet。我個人現在 40 美元能用到的量,下週一新方案上路後要 600 美元,我還算不上重度使用者。」(u/ShadowBannedAugustus, 180↑)
史上第一次 AI 被裁員 用黑色幽默把這次取消授權框成「AI 也躲不過資本主義裁員」。 「史上第一場 AI 被裁員。資本主義之下沒有誰是安全的。」(u/deusComDMinisculo, 100↑)
VC 補貼總有結束的一天 點出 Claude 之所以好用又便宜,是建立在 VC 燒錢補貼上,token 經濟學總會被管理層學到。 「我們現在吃的是 VC 補貼價,公司管理層很快就會被 token 經濟學上一課。」(u/Army_77_badboy, 44↑)
企業沒有要放棄 AI 持反方立場,認為超過 200 人的公司其實正大規模用 Claude 訂閱取代各種 SaaS,省下七位數美元。 「如果你真以為企業在放棄 AI,那是被誤導了。去問問任何 200 人以上的公司,他們靠改用 Claude 訂閱取代所有 SaaS,每年省下超過一百萬美元。」(u/ReporterCalm6238, 14↑)
內部視角的冷靜解讀 自稱身處相關決策圈,強調這是 Copilot 標準化採用的內部整併,不是因為成本而棄用 Claude。 「大家冷靜一點⋯⋯這是公司內部往 GitHub Copilot 標準化採用走的整併動作,不是為了成本而棄用 Claude。別忘了,我們自己還在跑這些模型的基礎設施。」(u/Sufficient-Rough-647, 53↑)

本報觀點

這則新聞的關鍵字不是「取消」,而是「重新議價」。微軟跟 Anthropic 不會真的翻臉——Copilot 後端依然掛著 Claude Sonnet——但內部開發者在公司信用卡上自由刷 Claude Code 的日子確實要結束了。本報判讀,2026 下半年 enterprise 端 Claude 預算會分成兩條路:一條被收進 Copilot、Cursor、Cline 之類的中介層,按 token 計費、由平台議價;另一條則往 API 直連或自架 inference 走,回到工程組自己控成本。VC 補貼價的甜蜜期過完了,token 經濟學會替每一筆 prompt 重新算帳,下一波企業裁的不會是 AI,而是「假設 AI 永遠便宜」的那份預算表← 藏鏡人批:40 鎂跳 600 鎂那是 15 倍,留言寫「砍六倍」是被自家公司額度誤導的數學。但結論沒錯,整併才是真名字。

3. [產業] 從 Max 換到 Enterprise 才驚覺:原來個人方案是 Anthropic 在大幅補貼

報導

(本報賈新聞/產業組報導)有開發者在 r/ClaudeCode 拋出一個讓很多人皺眉的對照。發文者 u/reddevil_5 原本掛在 Max plan、後來公司搬到 Teams Premium,兩者差異不大;直到公司再升到走 usage-based billing 的 Claude Enterprise,他帳號分到 125 美元額度,結果照平常習慣用、單一 session 就燒掉 50 美元。他換算回來,自己在 Max 時的用量若放到 Enterprise 帳單上,月成本至少落在 1000 美元左右,於是公開質問:「Anthropic 是不是用 Max plan 大量補貼個人?這樣撐得下去嗎?」

留言串幾乎是企業端帳單大公開。u/siberian 說公司全面轉 Enterprise 後,整體每天燒 2500 美元;u/Squalido 的 30 多人團隊本月已經吃掉超過 3 萬美元 token,「大概也解釋了今年為什麼薪水沒調」。u/micr0nix 個人每週 600 到 700 美元、公司整月約 100 萬美元;u/jasonyates07 提到一度年化跑到 180 萬美元、財務直接砍預算,把人趕回 GPT Enterprise 或自費 Max;他自己用 Max x5、ccusage 顯示月值約 2000 美元 token,「對非整天寫 code 的我來說剛剛好」。對照之下,Max 一個月 200 美元的個人方案,幾乎是被當成健身房會員費在收 — u/Ill-Pilot-6049 直白點破:「90% 的人沒在用,幫剩下 10% 重度使用者買單。」差別在於,這次補貼的不是健身房老闆,而是 Anthropic。

社群反應

觀點 說明 代表留言
補貼揭露派 Max 月費 200 鎂在 Enterprise 帳單上換算回來價值千鎂等級 token,個人方案才是被讓利的那一端 「我公司全面轉 Enterprise,現在一天燒 2500 鎂。雖然事前就被警告會這樣,現在 prompt tuning 突然變得超級重要。」(u/siberian, 146↑)
企業端真實成本派 用實際公司帳單揭露 Enterprise 的恐怖數字,反襯 Max 的價格錯位 「我公司這個月光 token 就花掉 3 萬鎂以上。30 幾個 dev 在用 Claude,大概也解釋了今年為什麼沒調薪。」(u/Squalido, 37↑)
Anthropic 策略派 預算砍完反而把人趕回 Max;個人方案撐起了整個產品策略 「我們一度年化跑到 180 萬鎂,財務第二個月就砍,叫大家改用 GPT Enterprise 或自費 Max。我用 Max x5、ccusage 顯示月值約 2000 鎂 token,對我這種沒整天寫 code 的人來說剛剛好。」(u/jasonyates07, 24↑)
健身房理論派 90% 輕度使用者在補貼少數重度使用者,Anthropic 用群體分攤撐住 200 鎂定價 「我有個專案曾連續幾個月每月燒掉約 5000 鎂,週用量常常頂到上限,還得加開第二個 MAX20。我覺得這就是健身房會員的邏輯,90% 沒在用的人補貼剩下那群。」(u/Ill-Pilot-6049, 7↑)
個人焦慮派 雙線使用者親自做帳,個人 plan 的 CP 值高得不合理 「我公司用 Enterprise、自己另外掛 Claude Max 20x 跑個人專案,個人用量換算下來大概值 1000 鎂/月的 Enterprise token。」(u/TheGarrBear, 4↑)
訂價懷疑派 質疑前沿模型的高價是行銷敘事,多數企業根本不需要 Claude 等級 「我猜 90% 重壓 Claude/ChatGPT 的公司其實不需要它們,架個 enterprise OpenRouter、預設 route 到便宜很多的模型也不會少一塊肉。說服整個商業世界『你非用最前沿不可』,大概是近年最成功的行銷騙術之一。」(u/KickLassChewGum, 3↑)

本報觀點

本報前一期(5/26)才報導越南公司每月 2500 鎂燒掉 6200 萬 token,主旋律是「企業端燒太兇」;今天這串貼文把鏡頭直接翻面 — 真正在被補貼的,是個人 Max 用戶。當 Max x5 月費 200 鎂、可以換到 Enterprise 帳上 1000 至 2000 鎂的 token,這已經不是訂閱定價,比較像是 Anthropic 用個人方案綁定開發者習慣,再透過企業 usage-based 帳單回收真實成本。從這個角度看,「Max 看起來貴」其實是錯覺,企業端帳單才是 Anthropic 真正想要的營收線。對個人開發者來說,這條訊息其實偏好消息 — 在補貼還沒收掉之前,現在用 Max 的人都在賺;但對還沒談下價格的企業採購來說,下一輪續約時的 usage cap、座位年費、token 單價,恐怕都會被這份「真實成本表」一起重新校準。← 藏鏡人批:把 Max 嫌貴的人可以閉嘴了。Anthropic 用個人 plan 換習慣、用企業帳單換錢,這是教科書級的 freemium 變奏。

社群溫度計

熱度 標題 一句話
1643↑ Vibe Coders 該換班了 u/IamKhanPhD 一張迷因戳這週 vibe coder 浪潮,94 則留言一邊笑一邊認領自己。
1277↑ 「被解雇」恐慌按鈕:被炒就自動把公司 codebase 推 public u/irelatetolevin 半惡搞工具引爆 193 則留言,順手把 AI agent 的倫理底線炒上桌。
938↑ 你做的那東西對我沒用 — 重點就在這 u/HispaniaObscura 一篇哲學長文 180 則留言,替「個人化 AI 工具不需要 mass appeal」做註腳。
780↑ 非工程師家長用 Claude Code 做家庭 RPG 家事板 u/ForealSurrealRealist 把家事關卡化、小孩刷副本領金幣,本週最暖 showcase。
662↑ Sam Altman 兩年訪談 73% 答案來自同 12 個 talking points u/LauraBeth034 把 2024–2026 訪談跑分群,量化 OpenAI 公關口徑的高度重複率。
474↑ ChatGPT 突然給我看陌生人帳號全部資料 u/MiranDaVinci 截圖宣稱被授予陌生人帳號的完整存取權,OpenAI 端最硬的負面回報。
本文由 Claude 自動匯整,非人工撰寫