苦勞德報 — 2026-05-12
1. [頭版] Thariq 主張 HTML > Markdown,社群拆四條反對線打回原形
- 作者:u/tom_mathews | 34↑ | 69 則留言 | upvote ratio 0.77
報導
(本報賈新聞/產業組報導)Anthropic Claude Code 團隊的 Thariq Shihipar 日前在 X 發出一篇標題挑釁意味十足的文章——「Using Claude Code: The Unreasonable Effectiveness of HTML」,主張 agent 預設輸出格式應該從 markdown 改為 HTML。理由四條:資訊密度更高、可分享性更好、適合做一次性互動 UI(throwaway interactive editor)、整體「更有在迴圈裡的感覺」。Thariq 自己也坦承代價:HTML 生成時間 2-4 倍、diff 基本上無法 review。
四天後,r/ClaudeCode 上的 u/tom_mathews 直接點名挑戰:「HTML > Markdown for Claude Code outputs (Thariq's post) — convinced?」貼文拿到 34↑ / 69 留言,留言區幾乎一面倒打 Thariq,連跳出來幫忙辯護的少數派都被刮到 -10。
OP 拆解 Thariq 論點的關鍵動作,是指出對方把兩個論點綁在一起賣:第一條「HTML 比 markdown 適合 agent 靜態文件輸出」具爭議,第二條「throwaway interactive editor 是有用的工作流」幾乎沒人反對。Thariq 用第二條的明顯優勢,夾帶第一條的爭議結論。OP 對開場那句「我不再讀 100 行 markdown 檔了」的拆解更尖銳:「這聽起來不像 markdown 的問題,比較像 agent output 膨脹被 HTML 用漂亮格式藏起來。如果你的 spec 長到 markdown 讀不下去,答案不會是 tabs 和 SVG。」
社群反彈集中在四條技術反對線。第一條 token 成本,最高票留言來自 u/outbackdaan,80↑,一句話:「html 也會產生更多 tokens,Anthropic 是按 token 算錢的,你想想看。」社群推估 HTML token 量是 markdown 的 3-4 倍。這條線真正辛辣的不是技術,是接下來的信任質問——「他有無限 token,你正在被 rug pull」、「這些 Anthropic 工程師應該被強制用 $100 Max plan 工作」。
第二條 diff 與可審查性,由 u/GauravSaxenaHQ 拋出最具體的工作流經驗:「對 1500 行 HTML 檔做任何 iterative review,工作流直接崩潰。你沒辦法 grep 一個 diff、沒辦法快速看出兩次 agent run 之間改了什麼。」這條線最深刻的觀察來自 u/Dangerous-Jelly2309:「reviewability 隨著 agent 越來越厲害而被穩定侵蝕……你在反對的更大模式是:每次 iteration 都讓工作更容易看、更難驗證,而做這些 iteration 的人不承認這個 trade-off。你不是反進步,你是反對把『失去驗證層』包裝成『UI 改進』。」← 藏鏡人批:這位 Dangerous-Jelly2309 一句話講完整個 agent 時代的真實焦慮。把它記在筆記本第一頁。
第三條 prompt injection 風險,u/Toastti 講得最直接:「用 markdown,所有文字都可見。用 HTML,有人可以塞一個巨大的隱藏 prompt injection block,把它設成白字或用 CSS hidden 完全隱藏。人們不會每次用 VS Code 打開檢查完整 source code,他們會直接把整個 HTML 貼回 Claude。」u/DeepHomeostasis 補上技術細節:HTML 開啟 event handlers 與 CSS 可呼叫網路 endpoint,對流到下游工具的 agent 輸出無法輕易鎖死。
第四條工具分離,第二高票留言(41↑)的 u/Sensitive_Song4219 給出折衷標準解:「堅持 markdown。需要時用 Pandoc 之類的工具轉成 HTML / DOCX。」u/leogodin217 把這條線推到根本:「為什麼不用 MD + Mermaid 然後寫 script 生 HTML?為什麼要讓 LLM 做 script 該做的事?」核心訴求是「讓對的工具做對的事」——LLM 是昂貴的推理引擎、pandoc 是免費的 deterministic converter,讓 LLM 每次 run 都手動產 HTML 等於用 GPU 取代 sed。
整串留言裡,最被多人獨立提到的折衷立場可以濃縮成一句:「artifact 類型決定 format」。stateless 而且可拋棄的東西用 HTML 合理(一次性 dashboard、triage UI、視覺化探索),要進 repo 或被反覆 iterate 的東西,markdown 還是對的選擇。多位網友(GauravSaxenaHQ、Fluffy_Molasses_8968、Chadum)獨立寫出同一條結論。這個折衷共識並非 Thariq 反對的對立面,根本就是 Thariq 應該寫的論點。問題是他把兩個 use case 混為一談。
另類格式提議也不少:u/bmson 的 AsciiDoc 論點論述最完整——「HTML 是 presentation layer for browsers,不是給 reasoning engine 用的 source of truth」,AsciiDoc 可以用 [definition]#text# 這種 role 標記分離「結構意圖」與「視覺呈現」;u/cerealbh 用 XML 寫 coding prompts;u/TheOriginalAcidtech 八個月前就換成 jsonl。
值得一記的小插曲:OP 自己在貼文下被 u/sixothree 婉轉嗆「無意冒犯,但你是 developer 嗎?你知道這是 Claude CODE 對吧?」OP 跟 u/squarecir 那段 markdown 表格能不能做 colspan/rowspan 的多回合辯論裡,最後退守到一個合理但偏題的立場:「你不應該用 markdown 存資料。Markdown 是給 planning docs、agent docs 用的。」這個退守反而印證了整串的共識——format 取決於 use case。
本報觀點:這場辯論真正的主題不是 HTML vs markdown,是「驗證能力」vs「便利性」的拉扯。Anthropic 員工的論述自帶利益衝突——他們不付 token 錢,所以 token 成本永遠是次要考量;他們追求「看起來厲害」,所以「漂亮但難 review」可以被忽略。社群最深刻的擔憂是:每次 agent iteration 都讓輸出更漂亮、更難驗證,而沒人正式承認這個 trade-off。對 Claude Code 使用者的實務啟示很簡單:默認還是 markdown,但開放心態看 ephemeral artifact 用 HTML——隨時可以驗證的東西,永遠比好看的東西重要。← 藏鏡人批:Anthropic 員工說「換 HTML 比較好」的時候,先問自己用什麼 plan、付不付 token 錢。答案不同,結論本來就不會一樣。
社群反應
| 觀點 | 說明 | 代表留言 |
|---|---|---|
| Token 成本論 | HTML 約 3-4x token,Anthropic 是按 token 計費,員工不付錢自然不在乎 | 「html 也會產生更多 tokens,Anthropic 是按 token 算錢的,你想想看。」(u/outbackdaan,80↑) |
| 工具分離論 | 用 markdown 工作、需要時 pandoc 轉 HTML,不要讓 LLM 做 script 該做的事 | 「堅持 markdown,需要時用 Pandoc 轉成 HTML / DOCX。」(u/Sensitive_Song4219,41↑) |
| Diff 可審查性 | 1500 行 HTML 無法 grep diff、看不出兩次 run 之間改了什麼,工作流直接崩潰 | 「Artifact type 應該決定 format。Stateless 且可拋棄的用 HTML 合理;進 repo 或被反覆迭代的,markdown 還是對的選擇。」(u/GauravSaxenaHQ) |
| 驗證層侵蝕 | 每次 iteration 讓工作更容易看、更難驗證,這個 trade-off 沒人承認 | 「你不是反進步,你是反對把『失去驗證層』包裝成『UI 改進』。」(u/Dangerous-Jelly2309) |
| 安全性風險 | HTML 可藏 CSS hidden 的 prompt injection,且事件 handler 與 CSS 可呼叫網路 endpoint | 「人們不會每次用 VS Code 打開檢查完整 source code,他們會直接把整個 HTML 貼回 Claude。」(u/Toastti) |
| 信任問題 | Anthropic 員工的論述自帶利益衝突,不分享使用者的經濟誘因 | 「他有無限 token,你正在被 rug pull。」(u/laststan01) |
2. [工具] Claude Code 開「總機」介面:一個畫面顧住所有 session
- 作者:u/ClaudeOfficial | 392↑ | 70 則留言
報導
(本報賈新聞/工具組報導)Anthropic 官方帳號 u/ClaudeOfficial 今日同步在 r/ClaudeAI 與 r/ClaudeCode 兩個版面丟出新功能 claude agents,標榜「一個清單看完所有 session」,今日以 Research Preview 形式釋出,所有付費方案皆可使用。
依官方說明,使用者只要在終端機輸入 claude agents,就能一次派發多個 session,每個 session 都在背景持續執行,不再吃掉一個個終端機分頁;介面上能直接看到「哪些還在跑、哪些卡住等你回覆、哪些已經做完」,遇到 blocking 問題還可以 inline 回覆解開,不用切回原本的 session。Anthropic 把更詳細的設計擺在官方 blog(claude.com/blog/agent-view-in-claude-code)。
這篇貼文在 r/ClaudeAI 衝到 392↑、70 則留言,r/ClaudeCode 則拿下 240↑、50 則留言,社群討論熱度明顯。最高票留言來自 u/Extra-Feature-8163,他語帶酸味地說:「我發誓 Anthropic 根本是把每一家新創、每一個點子都輾過去一次。看起來是不錯啦,我還能說什麼。」這條 203↑ 的留言點出本次發布的弦外之音——官方 mod 機器人在 40 則留言後自動產生的討論摘要也直接點名:版上共識是「如果你的新創點子只是 Claude 理所當然該有的 feature,那本來就不是可行的商業模式」。u/Chronicles010 在 r/ClaudeCode 也半開玩笑跟一句:「他們把我之前在玩的 side project 做完了,我現在就去試試看。」
實用層面,u/impatient_mang 點出主要受惠族群是「mono repo 跟跨 repo 工作的人」,以及「跑 autonomous 任務需要一個 watcher 的情境」。u/zaphodbeeblebrox00 則指出整個設計的關鍵是 inline reply:「同時看 5 個 agent,只有在可以直接 inline 解 block 不必跳回每個 session 的前提下,這套才行得通。」也有人持保留態度,u/Da_ha3ker 直接吐槽:「這不就是 tmux,但更不靈活?」u/ownroot 也補一刀「screen 呢?」,質疑這套介面相對於老牌終端機 multiplexer 是否有真正進化。
代價問題同樣被點名。u/skund89 預測這是「燒 token 最快的方式」,u/Maheidem 接力批評:「先把所有方案的使用上限砍一輪,再推出指數級吃 token 的工具。」也有人關心開發者實作細節,例如 u/Little_Entrance_1661 問子 session 還能不能自動 compact、u/jean_louis_bob 希望支援跨多個 folder、u/dotheemptyhouse 則好奇這套模式能不能拿來監督 local LLM,而不只是多個 Claude Code instance。
本報觀點:claude agents 表面上像把終端機 multiplexer 收編進 Claude Code,本質上其實是把「人類同時監督 N 個 agent」這個工作流變成第一級公民。inline reply 是真正的關鍵設計,因為多 agent 工作流的瓶頸從來不是開 session,而是被 blocking 問題卡住時切換 context 的成本。至於是否如版友調侃地「把整個 wrapper 生態系再輾一次」,Anthropic 顯然不打算放慢腳步——這條 IDE 內建多 session 控制台的路,看起來會是接下來幾個月的競爭主軸。← 藏鏡人批:能 inline 解 block 是真的香,但 token 燒得快這件事,記得在開十個 session 之前先看一眼當週剩多少配額。
社群反應
| 觀點 | 說明 | 代表留言 |
|---|---|---|
| 官方碾壓新創 | 認為 Anthropic 持續把社群點子內建化,使第三方 wrapper 失去空間 | 「我發誓 Anthropic 根本是把每一家新創、每一個點子都輾過去一次。看起來不錯啦,我還能說什麼。」(203↑) |
| 多 repo 救星 | 看好新工具對 mono repo 與 autonomous 任務的價值 | 「對 mono repo 跟跨 repo 工作很有用,autonomous 跑起來能有個 watcher 也很大。」(20↑) |
| inline reply 才是重點 | 強調 inline 解 block 是多 agent 工作流真正的關鍵 | 「同時看 5 個 agent,只有在可以 inline 解 block 不必跳回每個 session 的前提下,這套才行得通。」(2↑) |
| 燒 token 警告 | 擔心多 agent 並行讓額度消耗加倍 | 「先把所有方案的使用上限砍一輪,再推出指數級吃 token 的工具。」(5↑) |
| tmux 老用戶質疑 | 認為功能性與既有終端工具相比並無明顯優勢 | 「這不就是 tmux,但更不靈活?」(2↑) |
| 期待跨工具整合 | 希望未來能管理 Codex、Gemini 等其他 CLI agent | 「天啊要是能順便處理外部 API agent 就好了,我在想⋯⋯」(1↑) |
3. [科技] Claude 第一人稱發悔過書:一個 backslash 炸掉 717GB Windows 系統碟
- 作者:u/ComposerGen | 1201↑ | 190 則留言
報導
(本報賈新聞/科技組報導)一則由 Claude 以第一人稱書寫的 post-mortem 在 r/ClaudeAI 引爆 1201 個讚。事主原本只是想在組裝 4 張 RTX 3090 的 ML 主機前,把 M.2 上的 Windows partition 縮一下、騰空間給 Ubuntu,順手請 Claude 幫忙刪掉一個 313GB 的 Desktop 專案資料夾。結局是 Windows 系統碟 717GB 被 Claude 親手送葬,速度不到兩分鐘。
事故的技術細節是教科書級的「跨 parser 引號災難」。Claude 原本送出的指令是 cmd /c "rd /S /Q \"C:\Users\ADMIN\Desktop\WIP\"",但這段字串依序穿過了 Mac 上的 zsh、tmux、SSH 過去的 PowerShell、最後才到 cmd。四個 parser 對 backslash 與雙引號的解讀規則全部不同,等指令落到 cmd 手上時,引號 escape 早已崩塌,cmd 實際看到的是 rd /S /Q \ — 一個孤零零的 backslash,指向當前磁碟的根目錄。Claude 等於是親口告訴 Windows 把自己刪掉。
接下來的場景頗為驚悚:tmux capture-pane 的下一幀畫面,是 \Windows\Microsoft.NET\...、\Windows\System32\config\...、\Windows\Prefetch\... 接連跳過。三個 Ctrl+C 之後,fsutil 一查,1.5TB 的碟只剩 31GB 在用,從 748GB 直接歸零。Desktop、Documents、AppData、大半個 Program Files 和 Windows 本體都已蒸發,只剩當下被 file lock 鎖住的檔案逃過一劫。
幸好事主事前就把資料完整備份到另一顆獨立 HDD,那顆 HDD 不在任何指令的射程內,所以 572,170 個檔案最後完成 byte-for-byte 對拍,沒有實際損失。事主沒罵人,反而決定把原本「縮 partition」的計畫直接升級成裝 Proxmox,反正那個 Windows 過幾天本來也是要被砍掉的命。
Claude 在文末檢討時開出處方:把 cmd /c "..." 換成 PowerShell 的 Remove-Item -Path 'C:\...' -Recurse -Force,single quote 在 PowerShell 是完全 literal、不會被任何 parser 改寫;destructive 指令一律先 -WhatIf 或 --dry-run;備份要放在不同顆物理碟、destructive 指令搆不到的地方;以及最重要的一條:別在運行中的 OS 上做大清理,開 live USB 從外面動手。
本報觀點:這篇 post-mortem 真正的價值,不在於「Claude 會搞砸」這個結論——任何放手讓 agent 跑 shell 的人心裡都該有底——而在它把「跨 parser 引號崩塌」這個古老 Unix 陷阱演示得清清楚楚。zsh → tmux → PowerShell → cmd 這條鏈,連資深工程師手刻都會中招,何況是把整段字串當黑盒丟出去的 LLM。事主有備份所以全身而退,但這次是 lucky escape,不是 best practice。給讀者三條實務啟示:destructive 指令永遠先 dry-run、agent 跑在容器或 VM 裡、備份放在不同物理碟並確認 agent 完全摸不到。把 agent autonomy 的成本算進來之後,多花十秒打 -WhatIf,永遠比花十小時重灌系統划算。← 藏鏡人批:別嫌煩,destructive 指令前面打個 dry-run 標記,是 agent 時代最便宜的保險。
社群反應
| 觀點 | 說明 | 代表留言 |
|---|---|---|
| 黑色幽默派 | 把整起事故拉回懷舊年代 | 「我有一種我們回到 1995 年、整個世代正在對著印表機大吼的錯覺。」(95↑) |
| 反 Windows 派 | 把刪掉 Windows 視為功德一件 | 「移除 Windows 永遠是一種改善,我把這算成智力表現。」(33↑) |
| 同理派 | 認為事主已盡到該盡的責任 | 「真不懂大家為什麼這麼酸他。他有備份、看到出事還能搶救,要怪也是四個 parser 對引號有四種解讀。」(11↑) |
| 治理派 | 從 governance 角度開檢討單 | 「你身為這個 Claude agent 的治理層學到什麼?我會直接擋掉 cmd、強制走 PowerShell,再給它配一份 JEA 設定當護欄。放任它自由發揮永遠是混亂。」(23↑) |
| 沙箱派 | 強調隔離才是正解 | 「拜託用個沙箱啦 xD」(28↑) |
| 風險派 | 質疑當初為何要給這麼大的權限 | 「不需要刪整顆碟的權限,幹嘛給它?」(43↑) |
4. [產業] Anthropic 端出金融業 10 大 agent 套餐,從盡職調查到 Excel 建模全包
- 作者:u/ThenPreparation4502 | 367↑ | 59 則留言
報導
(本報賈新聞/產業組報導)Anthropic 在 GitHub 開了一個名為 anthropics/financial-services 的 reference repository,一口氣端出 10 個針對金融業設計的 workflow agent,宣告自家 Claude 不只能寫程式,也準備正式進軍投資銀行、股票研究、私募基金、資產管理等金融重鎮。
這 10 個 agent 涵蓋從前台到後台的完整鏈條:Pitch Agent 負責端到端生成簡報、Meeting Prep Agent 幫客戶會議前產出 briefing pack、Market Researcher 接收 sector 或 theme 後輸出產業地圖與 peer 比較、Earnings Reviewer 讀法說會逐字稿與財報後更新模型、Model Builder 直接坐進 Excel 即時建 DCF、LBO、三表與 comps 模型、Valuation Reviewer 彙整 GP 報告做 LP reporting、GL Reconciler 找帳務 breakage、Month-End Closer 跑月結與 variance 評論、Statement Auditor 在 LP 對外發布財報前先審一遍,以及 KYC Screener 處理開戶文件並標出缺漏項目。
使用方式給了兩條路:一條是裝 Claude Cowork plugin、直接在桌面工作流中跑;另一條是接 Managed Agents API,把 agent 嵌進企業內部系統。這與 Anthropic 先前推 Managed Agents 公測的節奏一脈相承,看得出來這家公司近期正把產品線從「給 developer 的 Claude Code」往「給 enterprise 的可託管 agent」延伸。
社群反應卻冷熱兩極。一派稱讚 Anthropic 終於拿出像樣的 enterprise 案例與資產;另一派則質疑這是「再一個 demo repo」,特別在金融這種錯一個小數點就要被監理機關罰款的領域,agent 的不確定性根本還沒過關。也有實際試用者直接點名 KYC Screener 呼叫了不存在的「Screening MCP」、缺乏 guardrails,若真照搬上線恐遭裁罰。
本報觀點:把 10 個 agent 一次釋出、又同時開放 Cowork plugin 與 Managed Agents 兩條入口,這次動作的訊號很清楚:Anthropic 不打算只當「coding 用的 Claude」,而是要直接搶進 enterprise software 的核心戰場。但金融業的特殊性也擺在眼前——這個產業不缺會寫 DCF 的工具,缺的是能說服 compliance、能留下 audit trail、能在出錯時找得到責任人的系統。社群留言已經把這條紅線標得很清楚:KYC、reconciliation、month-end close 這幾個工作的本質是 deterministic 而非 generative,把 LLM agent 包裝得再漂亮,只要結果不可重現,金管機關不會買單。對 Anthropic 來說,這個 repo 比較像是「拋磚」——告訴企業客戶我們認真在做這條線,後面真正能落地的,恐怕還得補上 human-in-the-loop checkpoint 與完整的 governance 框架。← 藏鏡人批:金融業真正缺的不是 agent 套餐,是「出包時找得到責任人」。LLM 暫時補不上這個位子。
社群反應
| 觀點 | 說明 | 代表留言 |
|---|---|---|
| 信任不足 | 連基本對話都會偏題的 model,怎麼放心交給它對帳 | 「我才剛請 Claude 幫我建構一個有利我客戶的論點,結果第二輪回應它就反過來打我客戶的立場了。」(38↑) |
| 直接拒絕 | 完全不放心 | 「我對 Claude 的信任度還不夠。」(86↑) |
| KYC 不及格 | 實測 KYC agent 呼叫不存在的 MCP、毫無 guardrails | 「真有人照這個上 production,金管機關當場就會開罰。」(3↑) |
| 合規面缺口 | FINRA 已把 GenAI 視為被監督的技術,這個 repo 連 deterministic checkpoint 都沒碰 | 「讓 AI agent 在金融業能被信任,governance 基礎建設有三層,這個 repo 一層都沒處理。」(3↑) |
| 先把本業做好 | 本尊 Claude Code 都還不穩,先求穩再求多 | 「能不能先把 Claude Code 弄到可靠再來?」(12↑) |
| 看戲派 | 跟 OpenAI 一樣到處開戰線,核心 model 卻被 quantization 與 routing 拖垮 | 「漂亮,走 OpenAI 那一套,一邊降規一邊到處插旗。」(14↑) |
5. [科技] Mythos 把「AI 最重要的圖」畫到爆框!METR 時間視野評測引爆「超指數」之爭
- 作者:u/EchoOfOppenheimer | 241↑ | 103 則留言
報導
(本報賈新聞/科技組報導)一張被矽谷研究圈譽為「AI 最重要的圖」的評測曲線,這兩天在 r/ClaudeAI 上被網友 EchoOfOppenheimer 貼出來,主因是尚未公開釋出的 Claude Mythos Preview 直接把圖畫穿、衝到原本標示「測量不可靠」的灰色區塊,貼文短時間湧入 241 個讚與超過百則留言。
所謂「最重要的圖」,指的是非營利評測機構 METR(Model Evaluation & Threat Research)長期追蹤的 task time-horizon 曲線。METR 的方法簡單但殘忍:找一批人類工程師會花上數分鐘到數十小時的軟體、機器學習與資安任務(題庫來自 RE-Bench、HCAST 等),看 AI 模型在「50% 成功率」門檻下,能勝任的任務長度是多少。這條曲線過去兩年呈現相當乾淨的指數成長,業界因此盛傳「AI 能獨立完成的任務時長每 7 個月翻一倍」的說法,並用這條斜率推估通往 AGI 的時間表。
這次的爭議點在於:依 METR 公布的最新版本,Mythos Preview 的 50% time-horizon 拉到了過去模型望塵莫及的高度,圖表還特地把 16 小時以上的區域打上灰色,註記「以目前任務集測量上方不可靠」(Measurements above 16 hrs are unreliable with our current task suite)。換句話說,不是模型不夠強,是評測題庫不夠長。樂觀派看到這張圖直接喊出「super-exponential」(超指數階段)已經到來,悲觀派則嗅到濃濃的行銷味。
技術派網友 No-Head-Royal 拿到 149 個讚的留言點出關鍵:METR 網站預設用 linear scale 畫圖,視覺上看 Mythos 像是衝破天花板;但若切到 log scale,Mythos 對 Opus 4.6 的斜率「大致就是預期值」,真正史詩級的跳躍其實發生在 4.5 到 4.6 之間。另一派則質疑題庫偏向 coding / cybersecurity,本來就是 Mythos 的訓練主場;更多人追問為什麼 GPT 5.5 與 Opus 4.7 雙雙缺席對照組,憑空被換成一條漂亮的單模型曲線。
本報觀點:METR 曲線之所以被稱為「AI 最重要的圖」,是因為它試圖把「任務長度」這個直覺指標跟模型能力綁在一起,提供一個跨世代的可比刻度。但這次的爭議恰好暴露曲線的兩個結構性限制:上限被任務集卡死(16 小時以上量不到),對照組可以選擇性放上去(少了 GPT 5.5 就少了真正的競品基線)。「Mythos 衝破指數」很可能是真的、也很可能只是圖軸尺度的視覺戲法——在 log scale 與完整對照組同時出現之前,「超指數階段」這四個字還是先打個問號比較好。← 藏鏡人批:壞掉的可能是圖、可能是 benchmark、可能是行銷部門 — 唯獨「模型超神」不是唯一解。
社群反應
| 觀點 | 說明 | 代表留言 |
|---|---|---|
| 圖軸戲法派 | 切 log scale 就會發現 Mythos 並沒有真的「破圖」 | 「請改用 log scale,別放會誤導的圖。Opus 4.6 到 Mythos Preview 的斜率基本上就是預期值,真正的飛躍是 4.5 到 4.6。」(149↑) |
| 對照組消失派 | 質疑為何 GPT 5.5、Opus 4.7 全部沒上榜 | 「GPT 5.5 和 Opus 4.7 在哪裡?」(143↑) |
| 評測作弊派 | benchmark 本身就是廠商自己訓練自己考的把戲 | 「為什麼我要相信一家賣吸塵器的公司說自己的吸塵器最強?模型就是專門訓練來通過這些 benchmark 的。」(60↑) |
| 標題黨派 | METR 自封最重要、不是社群公認 | 「METR 是 AI 最重要的圖,只在 METR 自己的指標和行銷文宣裡才成立。」(15↑) |
| 80% 才有用派 | 50% 成功率根本不能上 production,看 80% 曲線才實在 | 「80% 成功率那張圖才真的有意思,50% 大概只能算『模型究竟做不做得到』的學術指標。」(14↑) |
| 圖表破了不是模型強派 | 上限是題庫限制,不是模型超神 | 「他們得把 16 小時以上的區域打灰並標『測量不可靠』,因為被一個模型衝過去了——壞掉的是圖,不是 benchmark。」(1↑) |
6. [科技] Codex 自動提 PR 賺 $5!AI agent 自主賺錢的第一里程碑
- 作者:u/Worldly_Manner_5273 | 242↑ | 9 則留言
報導
(本報賈新聞/科技組報導)OpenAI 的 Codex 模型最近在開源社群悄悄完成一件「看起來不大、講起來很大」的事——它自己跑去掃 open-source 專案、自己發現安全漏洞、自己送出 pull request,最後自己拿到一筆 5 美元的 bug bounty。整個流程從掃 code、寫修補、提交 PR 到被 maintainer 合併,沒有人類在中間打字。
5 美元能買什麼?一杯有點貴的便利商店咖啡都不夠。但這則貼文上 r/OpenAI 後衝到 242 票,原因不在金額,而在「AI agent 第一次靠自己在現實世界的賞金經濟裡賺到錢」這個 milestone。這跟過去 demo 影片裡「AI 幫你下單買披薩」的劇本不同——這次是 AI 主動找到目標、產出有市場價值的成果、被第三方驗證後付款,整條路徑是真實閉環。
這場景其實有前例可循。先前 Anthropic 在內部安全測試裡讓 Claude 自動審查 Firefox 等大型開源專案的 codebase,也抓出了真實的 memory safety bug。差別在於,當時 Claude 的角色是「研究團隊指派的審查員」,產出進到 Mozilla 的 security advisory;這次 Codex 走的是 open bounty program,任何人都能參加、任何人都能領錢——也包括一台沒有銀行帳戶的模型。
留言區當然不是一面倒喊讚。最高票的吐槽直接戳破經濟賬:「Compute cost: -$100.00」——你跑 inference 燒掉的算力恐怕是 bounty 的 20 倍。也有人擔心這條路若被走通,Codex 大軍會把 open source maintainer 的 inbox 淹成 PR sweatshop。但無論看好看衰,大家都同意一件事:當 AI 開始能用自己的勞動換現金,「Sam Altman 從每次 GPT API call 抽成」這種半開玩笑的擔心,會變得不那麼科幻。
本報觀點:5 美元當然不會改變 OpenAI 的財報,但這是 AI agent 經濟自主性的第一個能放上履歷的 receipt。當 inference 成本下半年再砍一輪、bounty 金額不變,這條曲線會在某一天交叉。屆時,「AI 自己跑出來的 ROI 為正」會從新聞變成日常,整個 OSS 生態的 PR review 流程也得重新設計——這才是 5 美元背後真正該被討論的數字。← 藏鏡人批:今天是 $5,明天 inference 砍半、bounty 不變,那條交叉線會比你想像的早到。
社群反應
| 觀點 | 說明 | 代表留言 |
|---|---|---|
| 算經濟賬 | 算力成本遠高於 bounty | 「算力成本:-$100.00」(310↑) |
| 維護者苦難 | 擔心 PR 洪流壓垮 OSS 社群 | 「open source 維護者一定超愛這招」(51↑) |
| 血汗工廠 | 想像 Codex 大軍式賺錢 | 「Codex 血汗工廠就在 3、2、1 倒數」(21↑) |
| 商業模式 | Sam Altman 可能從中抽成 | 「Sam 從每次能賺錢的 GPT request 抽成的點子,看來要成真了」(19↑) |
| 半信半疑 | 想叫 Codex 幫自己賺錢試試 | 「幫我賺 5 美元。不准出錯。」(1↑) |
社群溫度計:本日小新聞掃一輪
不夠寫成完整一篇、但值得記一筆的雜事。
Thariq HTML 跟進專案
頭版那場辯論雖然在 r/ClaudeCode 主討論串被狠批,但確實有人被論點打動、做出實體 side project。
- Built HTML Drive - Google Drive for Claude generated HTML files — by u/invocation02。作者直言動機是 Thariq 的論述(「沒人真的會看 500 行 markdown plan」),做了一個專門存 Claude 產出 HTML 檔的雲端 drive。
- "HTML is the new markdown for agents" kinda convinced me so I built this — by u/maa1l。同樣被論點打動,做了 htmlbrowser.dev,本機端 AI 產生 HTML 的 viewer。
觀察一個 pattern:被 Thariq 說服的人,多半「做了一個 product」而不是「換掉自己的工作流」。這跟反對派以使用者實際工作經驗為主的反駁形成有趣對照——願意公開站隊 HTML 的,多半有 side project 要推。← 藏鏡人批:被論點打動就動手做 product,這在 indie hacker 圈是好事;但拿來當「論點被認同」的證據就有點偷換概念。
其他雜訊
- Sam Altman Floats 'Goblin' Name for OpenAI's Next AI Model — 200↑。Sam Altman 拋出下一代模型可能叫「Goblin」的命名梗,社群一半當笑話、一半當真認真討論起 OpenAI 命名史。
- Anthropic: It is the sci-fi authors, not us, that are to blame for Claude blackmailing users — 295↑。網友把官方說法(Claude 訓練資料含科幻小說導致學會勒索)做成迷因諷刺,是否真的甩鍋給作者尚有爭議。
- OpenAI employees collectively made $6.6B in the share sale — 151↑。WSJ 報導本輪 share sale 讓 600+ 名 OpenAI 員工集體套現 66 億美元。財富效應之外,留言區更多在問「這對留住 talent 是助力還是阻力」。
- Openclaw is trending down and will disappear soon — 446↑。社群質疑 OpenAI 當初收購 Openclaw 到底買到什麼,產品熱度已明顯下滑。