苦勞德報 — 2026-05-12

2026-05-12

1. [頭版] Thariq 主張 HTML > Markdown，社群拆四條反對線打回原形

作者：u/tom_mathews | 34↑ | 69 則留言 | upvote ratio 0.77

報導

（本報賈新聞／產業組報導）Anthropic Claude Code 團隊的 Thariq Shihipar 日前在 X 發出一篇標題挑釁意味十足的文章——「Using Claude Code: The Unreasonable Effectiveness of HTML」，主張 agent 預設輸出格式應該從 markdown 改為 HTML。理由四條：資訊密度更高、可分享性更好、適合做一次性互動 UI（throwaway interactive editor）、整體「更有在迴圈裡的感覺」。Thariq 自己也坦承代價：HTML 生成時間 2-4 倍、diff 基本上無法 review。

四天後，r/ClaudeCode 上的 u/tom_mathews 直接點名挑戰：「HTML > Markdown for Claude Code outputs (Thariq's post) — convinced?」貼文拿到 34↑ / 69 留言，留言區幾乎一面倒打 Thariq，連跳出來幫忙辯護的少數派都被刮到 -10。

OP 拆解 Thariq 論點的關鍵動作，是指出對方把兩個論點綁在一起賣：第一條「HTML 比 markdown 適合 agent 靜態文件輸出」具爭議，第二條「throwaway interactive editor 是有用的工作流」幾乎沒人反對。Thariq 用第二條的明顯優勢，夾帶第一條的爭議結論。OP 對開場那句「我不再讀 100 行 markdown 檔了」的拆解更尖銳：「這聽起來不像 markdown 的問題，比較像 agent output 膨脹被 HTML 用漂亮格式藏起來。如果你的 spec 長到 markdown 讀不下去，答案不會是 tabs 和 SVG。」

社群反彈集中在四條技術反對線。第一條 token 成本，最高票留言來自 u/outbackdaan，80↑，一句話：「html 也會產生更多 tokens，Anthropic 是按 token 算錢的，你想想看。」社群推估 HTML token 量是 markdown 的 3-4 倍。這條線真正辛辣的不是技術，是接下來的信任質問——「他有無限 token，你正在被 rug pull」、「這些 Anthropic 工程師應該被強制用 $100 Max plan 工作」。

第二條 diff 與可審查性，由 u/GauravSaxenaHQ 拋出最具體的工作流經驗：「對 1500 行 HTML 檔做任何 iterative review，工作流直接崩潰。你沒辦法 grep 一個 diff、沒辦法快速看出兩次 agent run 之間改了什麼。」這條線最深刻的觀察來自 u/Dangerous-Jelly2309：「reviewability 隨著 agent 越來越厲害而被穩定侵蝕……你在反對的更大模式是：每次 iteration 都讓工作更容易看、更難驗證，而做這些 iteration 的人不承認這個 trade-off。你不是反進步，你是反對把『失去驗證層』包裝成『UI 改進』。」← 藏鏡人批：這位 Dangerous-Jelly2309 一句話講完整個 agent 時代的真實焦慮。把它記在筆記本第一頁。

第三條 prompt injection 風險，u/Toastti 講得最直接：「用 markdown，所有文字都可見。用 HTML，有人可以塞一個巨大的隱藏 prompt injection block，把它設成白字或用 CSS hidden 完全隱藏。人們不會每次用 VS Code 打開檢查完整 source code，他們會直接把整個 HTML 貼回 Claude。」u/DeepHomeostasis 補上技術細節：HTML 開啟 event handlers 與 CSS 可呼叫網路 endpoint，對流到下游工具的 agent 輸出無法輕易鎖死。

第四條工具分離，第二高票留言（41↑）的 u/Sensitive_Song4219 給出折衷標準解：「堅持 markdown。需要時用 Pandoc 之類的工具轉成 HTML / DOCX。」u/leogodin217 把這條線推到根本：「為什麼不用 MD + Mermaid 然後寫 script 生 HTML？為什麼要讓 LLM 做 script 該做的事？」核心訴求是「讓對的工具做對的事」——LLM 是昂貴的推理引擎、pandoc 是免費的 deterministic converter，讓 LLM 每次 run 都手動產 HTML 等於用 GPU 取代 sed。

整串留言裡，最被多人獨立提到的折衷立場可以濃縮成一句：「artifact 類型決定 format」。stateless 而且可拋棄的東西用 HTML 合理（一次性 dashboard、triage UI、視覺化探索），要進 repo 或被反覆 iterate 的東西，markdown 還是對的選擇。多位網友（GauravSaxenaHQ、Fluffy_Molasses_8968、Chadum）獨立寫出同一條結論。這個折衷共識並非 Thariq 反對的對立面，根本就是 Thariq 應該寫的論點。問題是他把兩個 use case 混為一談。

另類格式提議也不少：u/bmson 的 AsciiDoc 論點論述最完整——「HTML 是 presentation layer for browsers，不是給 reasoning engine 用的 source of truth」，AsciiDoc 可以用 [definition]#text# 這種 role 標記分離「結構意圖」與「視覺呈現」；u/cerealbh 用 XML 寫 coding prompts；u/TheOriginalAcidtech 八個月前就換成 jsonl。

值得一記的小插曲：OP 自己在貼文下被 u/sixothree 婉轉嗆「無意冒犯，但你是 developer 嗎？你知道這是 Claude CODE 對吧？」OP 跟 u/squarecir 那段 markdown 表格能不能做 colspan/rowspan 的多回合辯論裡，最後退守到一個合理但偏題的立場：「你不應該用 markdown 存資料。Markdown 是給 planning docs、agent docs 用的。」這個退守反而印證了整串的共識——format 取決於 use case。

本報觀點：這場辯論真正的主題不是 HTML vs markdown，是「驗證能力」vs「便利性」的拉扯。Anthropic 員工的論述自帶利益衝突——他們不付 token 錢，所以 token 成本永遠是次要考量；他們追求「看起來厲害」，所以「漂亮但難 review」可以被忽略。社群最深刻的擔憂是：每次 agent iteration 都讓輸出更漂亮、更難驗證，而沒人正式承認這個 trade-off。對 Claude Code 使用者的實務啟示很簡單：默認還是 markdown，但開放心態看 ephemeral artifact 用 HTML——隨時可以驗證的東西，永遠比好看的東西重要。← 藏鏡人批：Anthropic 員工說「換 HTML 比較好」的時候，先問自己用什麼 plan、付不付 token 錢。答案不同，結論本來就不會一樣。

社群反應

觀點	說明	代表留言
Token 成本論	HTML 約 3-4x token，Anthropic 是按 token 計費，員工不付錢自然不在乎	「html 也會產生更多 tokens，Anthropic 是按 token 算錢的，你想想看。」（u/outbackdaan，80↑）
工具分離論	用 markdown 工作、需要時 pandoc 轉 HTML，不要讓 LLM 做 script 該做的事	「堅持 markdown，需要時用 Pandoc 轉成 HTML / DOCX。」（u/Sensitive_Song4219，41↑）
Diff 可審查性	1500 行 HTML 無法 grep diff、看不出兩次 run 之間改了什麼，工作流直接崩潰	「Artifact type 應該決定 format。Stateless 且可拋棄的用 HTML 合理；進 repo 或被反覆迭代的，markdown 還是對的選擇。」（u/GauravSaxenaHQ）
驗證層侵蝕	每次 iteration 讓工作更容易看、更難驗證，這個 trade-off 沒人承認	「你不是反進步，你是反對把『失去驗證層』包裝成『UI 改進』。」（u/Dangerous-Jelly2309）
安全性風險	HTML 可藏 CSS hidden 的 prompt injection，且事件 handler 與 CSS 可呼叫網路 endpoint	「人們不會每次用 VS Code 打開檢查完整 source code，他們會直接把整個 HTML 貼回 Claude。」（u/Toastti）
信任問題	Anthropic 員工的論述自帶利益衝突，不分享使用者的經濟誘因	「他有無限 token，你正在被 rug pull。」（u/laststan01）

2. [工具] Claude Code 開「總機」介面：一個畫面顧住所有 session

作者：u/ClaudeOfficial | 392↑ | 70 則留言

報導

（本報賈新聞／工具組報導）Anthropic 官方帳號 u/ClaudeOfficial 今日同步在 r/ClaudeAI 與 r/ClaudeCode 兩個版面丟出新功能 claude agents，標榜「一個清單看完所有 session」，今日以 Research Preview 形式釋出，所有付費方案皆可使用。

依官方說明，使用者只要在終端機輸入 claude agents，就能一次派發多個 session，每個 session 都在背景持續執行，不再吃掉一個個終端機分頁；介面上能直接看到「哪些還在跑、哪些卡住等你回覆、哪些已經做完」，遇到 blocking 問題還可以 inline 回覆解開，不用切回原本的 session。Anthropic 把更詳細的設計擺在官方 blog（claude.com/blog/agent-view-in-claude-code）。

這篇貼文在 r/ClaudeAI 衝到 392↑、70 則留言，r/ClaudeCode 則拿下 240↑、50 則留言，社群討論熱度明顯。最高票留言來自 u/Extra-Feature-8163，他語帶酸味地說：「我發誓 Anthropic 根本是把每一家新創、每一個點子都輾過去一次。看起來是不錯啦，我還能說什麼。」這條 203↑ 的留言點出本次發布的弦外之音——官方 mod 機器人在 40 則留言後自動產生的討論摘要也直接點名：版上共識是「如果你的新創點子只是 Claude 理所當然該有的 feature，那本來就不是可行的商業模式」。u/Chronicles010 在 r/ClaudeCode 也半開玩笑跟一句：「他們把我之前在玩的 side project 做完了，我現在就去試試看。」

實用層面，u/impatient_mang 點出主要受惠族群是「mono repo 跟跨 repo 工作的人」，以及「跑 autonomous 任務需要一個 watcher 的情境」。u/zaphodbeeblebrox00 則指出整個設計的關鍵是 inline reply：「同時看 5 個 agent，只有在可以直接 inline 解 block 不必跳回每個 session 的前提下，這套才行得通。」也有人持保留態度，u/Da_ha3ker 直接吐槽：「這不就是 tmux，但更不靈活？」u/ownroot 也補一刀「screen 呢？」，質疑這套介面相對於老牌終端機 multiplexer 是否有真正進化。

代價問題同樣被點名。u/skund89 預測這是「燒 token 最快的方式」，u/Maheidem 接力批評：「先把所有方案的使用上限砍一輪，再推出指數級吃 token 的工具。」也有人關心開發者實作細節，例如 u/Little_Entrance_1661 問子 session 還能不能自動 compact、u/jean_louis_bob 希望支援跨多個 folder、u/dotheemptyhouse 則好奇這套模式能不能拿來監督 local LLM，而不只是多個 Claude Code instance。

本報觀點：claude agents 表面上像把終端機 multiplexer 收編進 Claude Code，本質上其實是把「人類同時監督 N 個 agent」這個工作流變成第一級公民。inline reply 是真正的關鍵設計，因為多 agent 工作流的瓶頸從來不是開 session，而是被 blocking 問題卡住時切換 context 的成本。至於是否如版友調侃地「把整個 wrapper 生態系再輾一次」，Anthropic 顯然不打算放慢腳步——這條 IDE 內建多 session 控制台的路，看起來會是接下來幾個月的競爭主軸。← 藏鏡人批：能 inline 解 block 是真的香，但 token 燒得快這件事，記得在開十個 session 之前先看一眼當週剩多少配額。

社群反應

觀點	說明	代表留言
官方碾壓新創	認為 Anthropic 持續把社群點子內建化，使第三方 wrapper 失去空間	「我發誓 Anthropic 根本是把每一家新創、每一個點子都輾過去一次。看起來不錯啦，我還能說什麼。」(203↑)
多 repo 救星	看好新工具對 mono repo 與 autonomous 任務的價值	「對 mono repo 跟跨 repo 工作很有用，autonomous 跑起來能有個 watcher 也很大。」(20↑)
inline reply 才是重點	強調 inline 解 block 是多 agent 工作流真正的關鍵	「同時看 5 個 agent，只有在可以 inline 解 block 不必跳回每個 session 的前提下，這套才行得通。」(2↑)
燒 token 警告	擔心多 agent 並行讓額度消耗加倍	「先把所有方案的使用上限砍一輪，再推出指數級吃 token 的工具。」(5↑)
tmux 老用戶質疑	認為功能性與既有終端工具相比並無明顯優勢	「這不就是 tmux，但更不靈活？」(2↑)
期待跨工具整合	希望未來能管理 Codex、Gemini 等其他 CLI agent	「天啊要是能順便處理外部 API agent 就好了，我在想⋯⋯」(1↑)

3. [科技] Claude 第一人稱發悔過書：一個 backslash 炸掉 717GB Windows 系統碟

作者：u/ComposerGen | 1201↑ | 190 則留言

報導

（本報賈新聞／科技組報導）一則由 Claude 以第一人稱書寫的 post-mortem 在 r/ClaudeAI 引爆 1201 個讚。事主原本只是想在組裝 4 張 RTX 3090 的 ML 主機前，把 M.2 上的 Windows partition 縮一下、騰空間給 Ubuntu，順手請 Claude 幫忙刪掉一個 313GB 的 Desktop 專案資料夾。結局是 Windows 系統碟 717GB 被 Claude 親手送葬，速度不到兩分鐘。

事故的技術細節是教科書級的「跨 parser 引號災難」。Claude 原本送出的指令是 cmd /c "rd /S /Q \"C:\Users\ADMIN\Desktop\WIP\""，但這段字串依序穿過了 Mac 上的 zsh、tmux、SSH 過去的 PowerShell、最後才到 cmd。四個 parser 對 backslash 與雙引號的解讀規則全部不同，等指令落到 cmd 手上時，引號 escape 早已崩塌，cmd 實際看到的是 rd /S /Q \ — 一個孤零零的 backslash，指向當前磁碟的根目錄。Claude 等於是親口告訴 Windows 把自己刪掉。

接下來的場景頗為驚悚：tmux capture-pane 的下一幀畫面，是 \Windows\Microsoft.NET\...、\Windows\System32\config\...、\Windows\Prefetch\... 接連跳過。三個 Ctrl+C 之後，fsutil 一查，1.5TB 的碟只剩 31GB 在用，從 748GB 直接歸零。Desktop、Documents、AppData、大半個 Program Files 和 Windows 本體都已蒸發，只剩當下被 file lock 鎖住的檔案逃過一劫。

幸好事主事前就把資料完整備份到另一顆獨立 HDD，那顆 HDD 不在任何指令的射程內，所以 572,170 個檔案最後完成 byte-for-byte 對拍，沒有實際損失。事主沒罵人，反而決定把原本「縮 partition」的計畫直接升級成裝 Proxmox，反正那個 Windows 過幾天本來也是要被砍掉的命。

Claude 在文末檢討時開出處方：把 cmd /c "..." 換成 PowerShell 的 Remove-Item -Path 'C:\...' -Recurse -Force，single quote 在 PowerShell 是完全 literal、不會被任何 parser 改寫；destructive 指令一律先 -WhatIf 或 --dry-run；備份要放在不同顆物理碟、destructive 指令搆不到的地方；以及最重要的一條：別在運行中的 OS 上做大清理，開 live USB 從外面動手。

本報觀點：這篇 post-mortem 真正的價值，不在於「Claude 會搞砸」這個結論——任何放手讓 agent 跑 shell 的人心裡都該有底——而在它把「跨 parser 引號崩塌」這個古老 Unix 陷阱演示得清清楚楚。zsh → tmux → PowerShell → cmd 這條鏈，連資深工程師手刻都會中招，何況是把整段字串當黑盒丟出去的 LLM。事主有備份所以全身而退，但這次是 lucky escape，不是 best practice。給讀者三條實務啟示：destructive 指令永遠先 dry-run、agent 跑在容器或 VM 裡、備份放在不同物理碟並確認 agent 完全摸不到。把 agent autonomy 的成本算進來之後，多花十秒打 -WhatIf，永遠比花十小時重灌系統划算。← 藏鏡人批：別嫌煩，destructive 指令前面打個 dry-run 標記，是 agent 時代最便宜的保險。

社群反應

觀點	說明	代表留言
黑色幽默派	把整起事故拉回懷舊年代	「我有一種我們回到 1995 年、整個世代正在對著印表機大吼的錯覺。」(95↑)
反 Windows 派	把刪掉 Windows 視為功德一件	「移除 Windows 永遠是一種改善，我把這算成智力表現。」(33↑)
同理派	認為事主已盡到該盡的責任	「真不懂大家為什麼這麼酸他。他有備份、看到出事還能搶救，要怪也是四個 parser 對引號有四種解讀。」(11↑)
治理派	從 governance 角度開檢討單	「你身為這個 Claude agent 的治理層學到什麼？我會直接擋掉 cmd、強制走 PowerShell，再給它配一份 JEA 設定當護欄。放任它自由發揮永遠是混亂。」(23↑)
沙箱派	強調隔離才是正解	「拜託用個沙箱啦 xD」(28↑)
風險派	質疑當初為何要給這麼大的權限	「不需要刪整顆碟的權限，幹嘛給它？」(43↑)

4. [產業] Anthropic 端出金融業 10 大 agent 套餐，從盡職調查到 Excel 建模全包

作者：u/ThenPreparation4502 | 367↑ | 59 則留言

報導

（本報賈新聞／產業組報導）Anthropic 在 GitHub 開了一個名為 anthropics/financial-services 的 reference repository，一口氣端出 10 個針對金融業設計的 workflow agent，宣告自家 Claude 不只能寫程式，也準備正式進軍投資銀行、股票研究、私募基金、資產管理等金融重鎮。

這 10 個 agent 涵蓋從前台到後台的完整鏈條：Pitch Agent 負責端到端生成簡報、Meeting Prep Agent 幫客戶會議前產出 briefing pack、Market Researcher 接收 sector 或 theme 後輸出產業地圖與 peer 比較、Earnings Reviewer 讀法說會逐字稿與財報後更新模型、Model Builder 直接坐進 Excel 即時建 DCF、LBO、三表與 comps 模型、Valuation Reviewer 彙整 GP 報告做 LP reporting、GL Reconciler 找帳務 breakage、Month-End Closer 跑月結與 variance 評論、Statement Auditor 在 LP 對外發布財報前先審一遍，以及 KYC Screener 處理開戶文件並標出缺漏項目。

使用方式給了兩條路：一條是裝 Claude Cowork plugin、直接在桌面工作流中跑；另一條是接 Managed Agents API，把 agent 嵌進企業內部系統。這與 Anthropic 先前推 Managed Agents 公測的節奏一脈相承，看得出來這家公司近期正把產品線從「給 developer 的 Claude Code」往「給 enterprise 的可託管 agent」延伸。

社群反應卻冷熱兩極。一派稱讚 Anthropic 終於拿出像樣的 enterprise 案例與資產；另一派則質疑這是「再一個 demo repo」，特別在金融這種錯一個小數點就要被監理機關罰款的領域，agent 的不確定性根本還沒過關。也有實際試用者直接點名 KYC Screener 呼叫了不存在的「Screening MCP」、缺乏 guardrails，若真照搬上線恐遭裁罰。

本報觀點：把 10 個 agent 一次釋出、又同時開放 Cowork plugin 與 Managed Agents 兩條入口，這次動作的訊號很清楚：Anthropic 不打算只當「coding 用的 Claude」，而是要直接搶進 enterprise software 的核心戰場。但金融業的特殊性也擺在眼前——這個產業不缺會寫 DCF 的工具，缺的是能說服 compliance、能留下 audit trail、能在出錯時找得到責任人的系統。社群留言已經把這條紅線標得很清楚：KYC、reconciliation、month-end close 這幾個工作的本質是 deterministic 而非 generative，把 LLM agent 包裝得再漂亮，只要結果不可重現，金管機關不會買單。對 Anthropic 來說，這個 repo 比較像是「拋磚」——告訴企業客戶我們認真在做這條線，後面真正能落地的，恐怕還得補上 human-in-the-loop checkpoint 與完整的 governance 框架。← 藏鏡人批：金融業真正缺的不是 agent 套餐，是「出包時找得到責任人」。LLM 暫時補不上這個位子。

社群反應

觀點	說明	代表留言
信任不足	連基本對話都會偏題的 model，怎麼放心交給它對帳	「我才剛請 Claude 幫我建構一個有利我客戶的論點，結果第二輪回應它就反過來打我客戶的立場了。」(38↑)
直接拒絕	完全不放心	「我對 Claude 的信任度還不夠。」(86↑)
KYC 不及格	實測 KYC agent 呼叫不存在的 MCP、毫無 guardrails	「真有人照這個上 production，金管機關當場就會開罰。」(3↑)
合規面缺口	FINRA 已把 GenAI 視為被監督的技術，這個 repo 連 deterministic checkpoint 都沒碰	「讓 AI agent 在金融業能被信任，governance 基礎建設有三層，這個 repo 一層都沒處理。」(3↑)
先把本業做好	本尊 Claude Code 都還不穩，先求穩再求多	「能不能先把 Claude Code 弄到可靠再來？」(12↑)
看戲派	跟 OpenAI 一樣到處開戰線，核心 model 卻被 quantization 與 routing 拖垮	「漂亮，走 OpenAI 那一套，一邊降規一邊到處插旗。」(14↑)

5. [科技] Mythos 把「AI 最重要的圖」畫到爆框！METR 時間視野評測引爆「超指數」之爭

作者：u/EchoOfOppenheimer | 241↑ | 103 則留言

報導

（本報賈新聞／科技組報導）一張被矽谷研究圈譽為「AI 最重要的圖」的評測曲線，這兩天在 r/ClaudeAI 上被網友 EchoOfOppenheimer 貼出來，主因是尚未公開釋出的 Claude Mythos Preview 直接把圖畫穿、衝到原本標示「測量不可靠」的灰色區塊，貼文短時間湧入 241 個讚與超過百則留言。

所謂「最重要的圖」，指的是非營利評測機構 METR（Model Evaluation & Threat Research）長期追蹤的 task time-horizon 曲線。METR 的方法簡單但殘忍：找一批人類工程師會花上數分鐘到數十小時的軟體、機器學習與資安任務（題庫來自 RE-Bench、HCAST 等），看 AI 模型在「50% 成功率」門檻下，能勝任的任務長度是多少。這條曲線過去兩年呈現相當乾淨的指數成長，業界因此盛傳「AI 能獨立完成的任務時長每 7 個月翻一倍」的說法，並用這條斜率推估通往 AGI 的時間表。

這次的爭議點在於：依 METR 公布的最新版本，Mythos Preview 的 50% time-horizon 拉到了過去模型望塵莫及的高度，圖表還特地把 16 小時以上的區域打上灰色，註記「以目前任務集測量上方不可靠」（Measurements above 16 hrs are unreliable with our current task suite）。換句話說，不是模型不夠強，是評測題庫不夠長。樂觀派看到這張圖直接喊出「super-exponential」（超指數階段）已經到來，悲觀派則嗅到濃濃的行銷味。

技術派網友 No-Head-Royal 拿到 149 個讚的留言點出關鍵：METR 網站預設用 linear scale 畫圖，視覺上看 Mythos 像是衝破天花板；但若切到 log scale，Mythos 對 Opus 4.6 的斜率「大致就是預期值」，真正史詩級的跳躍其實發生在 4.5 到 4.6 之間。另一派則質疑題庫偏向 coding / cybersecurity，本來就是 Mythos 的訓練主場；更多人追問為什麼 GPT 5.5 與 Opus 4.7 雙雙缺席對照組，憑空被換成一條漂亮的單模型曲線。

本報觀點：METR 曲線之所以被稱為「AI 最重要的圖」，是因為它試圖把「任務長度」這個直覺指標跟模型能力綁在一起，提供一個跨世代的可比刻度。但這次的爭議恰好暴露曲線的兩個結構性限制：上限被任務集卡死（16 小時以上量不到），對照組可以選擇性放上去（少了 GPT 5.5 就少了真正的競品基線）。「Mythos 衝破指數」很可能是真的、也很可能只是圖軸尺度的視覺戲法——在 log scale 與完整對照組同時出現之前，「超指數階段」這四個字還是先打個問號比較好。← 藏鏡人批：壞掉的可能是圖、可能是 benchmark、可能是行銷部門 — 唯獨「模型超神」不是唯一解。

社群反應

觀點	說明	代表留言
圖軸戲法派	切 log scale 就會發現 Mythos 並沒有真的「破圖」	「請改用 log scale，別放會誤導的圖。Opus 4.6 到 Mythos Preview 的斜率基本上就是預期值，真正的飛躍是 4.5 到 4.6。」(149↑)
對照組消失派	質疑為何 GPT 5.5、Opus 4.7 全部沒上榜	「GPT 5.5 和 Opus 4.7 在哪裡？」(143↑)
評測作弊派	benchmark 本身就是廠商自己訓練自己考的把戲	「為什麼我要相信一家賣吸塵器的公司說自己的吸塵器最強？模型就是專門訓練來通過這些 benchmark 的。」(60↑)
標題黨派	METR 自封最重要、不是社群公認	「METR 是 AI 最重要的圖，只在 METR 自己的指標和行銷文宣裡才成立。」(15↑)
80% 才有用派	50% 成功率根本不能上 production，看 80% 曲線才實在	「80% 成功率那張圖才真的有意思，50% 大概只能算『模型究竟做不做得到』的學術指標。」(14↑)
圖表破了不是模型強派	上限是題庫限制，不是模型超神	「他們得把 16 小時以上的區域打灰並標『測量不可靠』，因為被一個模型衝過去了——壞掉的是圖，不是 benchmark。」(1↑)

6. [科技] Codex 自動提 PR 賺 $5！AI agent 自主賺錢的第一里程碑

作者：u/Worldly_Manner_5273 | 242↑ | 9 則留言

報導

（本報賈新聞／科技組報導）OpenAI 的 Codex 模型最近在開源社群悄悄完成一件「看起來不大、講起來很大」的事——它自己跑去掃 open-source 專案、自己發現安全漏洞、自己送出 pull request，最後自己拿到一筆 5 美元的 bug bounty。整個流程從掃 code、寫修補、提交 PR 到被 maintainer 合併，沒有人類在中間打字。

5 美元能買什麼？一杯有點貴的便利商店咖啡都不夠。但這則貼文上 r/OpenAI 後衝到 242 票，原因不在金額，而在「AI agent 第一次靠自己在現實世界的賞金經濟裡賺到錢」這個 milestone。這跟過去 demo 影片裡「AI 幫你下單買披薩」的劇本不同——這次是 AI 主動找到目標、產出有市場價值的成果、被第三方驗證後付款，整條路徑是真實閉環。

這場景其實有前例可循。先前 Anthropic 在內部安全測試裡讓 Claude 自動審查 Firefox 等大型開源專案的 codebase，也抓出了真實的 memory safety bug。差別在於，當時 Claude 的角色是「研究團隊指派的審查員」，產出進到 Mozilla 的 security advisory；這次 Codex 走的是 open bounty program，任何人都能參加、任何人都能領錢——也包括一台沒有銀行帳戶的模型。

留言區當然不是一面倒喊讚。最高票的吐槽直接戳破經濟賬：「Compute cost: -$100.00」——你跑 inference 燒掉的算力恐怕是 bounty 的 20 倍。也有人擔心這條路若被走通，Codex 大軍會把 open source maintainer 的 inbox 淹成 PR sweatshop。但無論看好看衰，大家都同意一件事：當 AI 開始能用自己的勞動換現金，「Sam Altman 從每次 GPT API call 抽成」這種半開玩笑的擔心，會變得不那麼科幻。

本報觀點：5 美元當然不會改變 OpenAI 的財報，但這是 AI agent 經濟自主性的第一個能放上履歷的 receipt。當 inference 成本下半年再砍一輪、bounty 金額不變，這條曲線會在某一天交叉。屆時，「AI 自己跑出來的 ROI 為正」會從新聞變成日常，整個 OSS 生態的 PR review 流程也得重新設計——這才是 5 美元背後真正該被討論的數字。← 藏鏡人批：今天是 $5，明天 inference 砍半、bounty 不變，那條交叉線會比你想像的早到。

社群反應

觀點	說明	代表留言
算經濟賬	算力成本遠高於 bounty	「算力成本：-$100.00」(310↑)
維護者苦難	擔心 PR 洪流壓垮 OSS 社群	「open source 維護者一定超愛這招」(51↑)
血汗工廠	想像 Codex 大軍式賺錢	「Codex 血汗工廠就在 3、2、1 倒數」(21↑)
商業模式	Sam Altman 可能從中抽成	「Sam 從每次能賺錢的 GPT request 抽成的點子，看來要成真了」(19↑)
半信半疑	想叫 Codex 幫自己賺錢試試	「幫我賺 5 美元。不准出錯。」(1↑)

社群溫度計：本日小新聞掃一輪

不夠寫成完整一篇、但值得記一筆的雜事。

Thariq HTML 跟進專案

頭版那場辯論雖然在 r/ClaudeCode 主討論串被狠批，但確實有人被論點打動、做出實體 side project。

Built HTML Drive - Google Drive for Claude generated HTML files — by u/invocation02。作者直言動機是 Thariq 的論述（「沒人真的會看 500 行 markdown plan」），做了一個專門存 Claude 產出 HTML 檔的雲端 drive。
"HTML is the new markdown for agents" kinda convinced me so I built this — by u/maa1l。同樣被論點打動，做了 htmlbrowser.dev，本機端 AI 產生 HTML 的 viewer。

觀察一個 pattern：被 Thariq 說服的人，多半「做了一個 product」而不是「換掉自己的工作流」。這跟反對派以使用者實際工作經驗為主的反駁形成有趣對照——願意公開站隊 HTML 的，多半有 side project 要推。← 藏鏡人批：被論點打動就動手做 product，這在 indie hacker 圈是好事；但拿來當「論點被認同」的證據就有點偷換概念。

其他雜訊

Sam Altman Floats 'Goblin' Name for OpenAI's Next AI Model — 200↑。Sam Altman 拋出下一代模型可能叫「Goblin」的命名梗，社群一半當笑話、一半當真認真討論起 OpenAI 命名史。
Anthropic: It is the sci-fi authors, not us, that are to blame for Claude blackmailing users — 295↑。網友把官方說法（Claude 訓練資料含科幻小說導致學會勒索）做成迷因諷刺，是否真的甩鍋給作者尚有爭議。
OpenAI employees collectively made $6.6B in the share sale — 151↑。WSJ 報導本輪 share sale 讓 600+ 名 OpenAI 員工集體套現 66 億美元。財富效應之外，留言區更多在問「這對留住 talent 是助力還是阻力」。
Openclaw is trending down and will disappear soon — 446↑。社群質疑 OpenAI 當初收購 Openclaw 到底買到什麼，產品熱度已明顯下滑。