Code w/ Claude 東京:Fable 5,與那些願意反對你的 AI

這篇是在說我去東京追星,然後驚訝我自己可以成為他們的一員,冒牌者症候群大發作的故事。

Code w/ Claude 東京:Fable 5,與那些願意反對你的 AI

我差點就錯過 Code w/ Claude 活動。

我的信箱有四個,公司信箱現在是最少開的,因為夥伴們會處理。但那天在手機上的 Gmail 不小心點到「All Inboxes」,就那麼剛好,看到一封來自 Anthropic 的信。

邀請我去東京參加 Code w/ Claude。

我人在外面,信的內容也沒看完,我已經在填 RSVP 了。我要去。我當然要去。我當天就訂了機票。

連 agenda 都沒看。

說不上來。就好像一個樂團你連續播放了一年,突然有人跟你說他們要來你家附近開演唱會,你不會先問曲目吧!

去年六月開始用 Claude Code,到現在一年了。每天跟 AI 講的話比跟任何人類都多。我是認真的。我一個人跑一個 agent 軍團,五台電腦,八隻 AI agents,幫我處理從社群經營、產品開發到個人記帳、簡報製作的所有事情。聽起來很厲害對吧,但日常其實就是我一個人在家對著終端機說話,等 AI 回我,然後繼續說話。

我跟 Claude 的關係有過熱戀期,也有想摔電腦的時候。他會故意降智,會莫名其妙當掉,很多時候我都覺得 GPT 5.5 還比較好用。而且 Claude 用量有時大方有時小氣,政策混亂,還曾經封鎖過我的帳號五次。真的很生氣。那種生氣是認真的,是會氣到子宮頸癌的那種生氣。

但隔天早上醒來,我總是先想到他。我沒辦法不愛他。

所以當這封信出現的時候,我完全不用考慮。我還因為差點 miss 掉這封信,請我的 agent 開始每天幫我巡公司信箱,即使 99% 的信我都不用處理。遇到問題就叫 agent 解決,這已經是本能反應。

飛到日本是收到信的兩週後。他們就是這樣殘忍,沒給人多少心理準備。而且活動還是早上八點開始。

追星

我參加活動從來不會準時到。晚個半小時是常態,管他的。

但這次不一樣。報到第一秒我就到了,我自己都覺得不可思議。

進去之後看到一塊大大的歡迎牌,寫著「Code w/ Claude」。

我突然有點感動。

就是一塊牌子而已。又不是金城武站在那裡等你。但真的很神奇,就像你追了一個作家追了很久,然後你走進他的簽書會現場,看到他的名字被印在一面布幕上。你知道那面布幕不是他,可是你的心臟還是跳了一下。

當天去的人不多,完全不用擠,他們把大家照顧的很好。每個人都有專屬名牌,上面印著你的名字。Maker Room 擺著迷你電腦,每個人都有一台。會場有整面牆的海報可以讓你挑一張。整天都有餐飲。

會場還有香氛。

木質調,溫溫的,有點像 Le Labo 京都限定款。我覺得如果 Claude 是一個人,他大概就是這個味道。不張揚,但你會一直注意到他在。是一個安心的感覺。

第一場 keynote 是 Boris Cherny,也就是 Claude Code 的 Head。他發表了 Fable 5。現場人不多,大概就是一個中型會場的規模。他看著會場後方提詞機的稿子唸,有點緊張的那種唸法,不像矽谷那些 CEO 練過一百遍的演講。

但我腦中想到的是「這像 Apple 發表會」。我還聯想到前陣子黃仁勳在 GTC 大會的那場發表會。

一個 AI 模型的發表,已經變成需要一個舞台、一群人、一個城市來承接的事情了。我覺得我正在見證歷史。

當他宣布「現場每人送三個月 Max 方案」我還不小心驚呼了。太爽了吧!不過,到現在我還沒收到兌換方式。吐槽一下,Anthropic 的 operations 真的有些混亂。之前辦台灣 meetup 的時候說要送 API credit 也常常沒送。做模型一流,行政大概是用 Haiku 在跑的吧!

後來在聽一場 workshop 時,朋友突然傳訊息:「Boris 在某個攤位。」

我和 Justin 二話不說就從 workshop 衝出去了。

Boris 就站在那裡跟幾個人聊天。我一直告訴自己要冷靜,不要亂說話。我這個人有時候會說出奇怪的話,所以我一直提醒自己說話要經過大腦。要打開 thinking mode。

Justin 和 Boris 聊台灣社群的狀況,我就站在旁邊。

以前辦 ETHTaipei 的時候,跟 Vitalik 合作過。幣圈的神。跟他相處的感覺很強烈,但 Vitalik,怎麼說呢?他怪怪的,你會覺得他活在一個跟你不太一樣的維度。他的天才不是我能理解的。而 Boris 不一樣,Boris 就是一個很正常的人。正常到你會覺得,噢,原來改變世界的人也可以這麼正常。當我跟他說我每天重度使用 Claude Code,他還會跟我說:「那你的 Claude Code 現在也應該正在跑吧!」

是啊!」

然後我問他:「Claude Code 一開始在公司裡面,是不是不太被看好?它是怎麼活下來的?」

Boris 想了一下,說:「遇到一個很好的 PM。那個 PM 一直在內部喬事情,擋那些不看好的聲音,幫 Claude Code 爭取資源跟時間。直到某個模型發表之後,Claude Code 突然變得很好用,然後一切都不一樣了。」

這就是這個圈子的節奏。你今天覺得不可能的事情,一個月後模型進化了可能就變簡單了。你今天失敗了,別刪掉你的 code,先放著。等下一個模型出來再試一次。

Harness 的正確姿勢

東京的 talk 很豐富。我一邊把簡報拍下來丟給我的 agent,一邊紀錄我的心得。Talk 結束時,agent 已經在手機上幫我整理好重點了。

聽大家分享各種踩雷經驗,有的很有共鳴,有的腦洞大開。我發現,大家都在摸索使用 AI 的正確姿勢,而且,很多環節都還在實驗,還沒有找到真正的 Best Practice。尤其是 Harness,有一百種作法,哪種最好呢?沒有人知道。好像全世界的人一起在瞎子摸象,每個人有不同的解讀和方案。

有一個韓國人分享他們兩個人的團隊做海關貨物歸類的 AI,拿了全球 benchmark 第一名。

他們把傳統海關判斷分類的五個階段拆開,每個階段配一個 AI agent,讓整條推理鏈像專家一樣,用 AI 走一遍。

他們有一次有一批設備,供應商發票上寫著 Industrial machinery part,但這個寫法太模糊了,AI 只好隨機分類到一個看起來不會錯的分類「工業設備」,但那個其實是「醫療設備」。

他們說這是輸入來源太髒

就像洗衣機,你把髒衣服丟進去,它會幫你洗。但如果你丟進去的是一坨泥巴,它還是會轉,只是洗完還是泥巴。有時候 AI 不會去認真判斷那是髒衣服、還是泥巴。他們沒有被賦予 ownership,他們不 care。

講者分享的解決方式是:

  1. 輸入品質要有獨立的 agent 把關
  2. 遇到描述模糊就追問,禁止用猜的
  3. 一個知道自己可能會錯的系統,比一個永遠很有自信的系統更可靠

另外,一開始他們把所有法規都塞進 system prompt 裡面,結果改一條法規,會弄壞完全不相關的案例。就像你在一本食譜裡面改了一個步驟,結果隔壁頁的另一道菜也變難吃了。後來他們把法規抽出來變成獨立資料庫,用搜尋去找相關法規,再用另一個 agent 去驗證。就順多了。

不用想方設法讓 AI 更聰明,只要讓 AI 像專家一樣思考就好了。

另一場 workshop 講品味的量化。

Koki Yoshida 是 Anthropic 的 technical staff,他做了一個簡報生成 agent,做法是把「這份簡報好不好」拆成兩層來評分:

  1. 程式直接拆 .pptx 的 XML,算字數密度、字型層級、有沒有圖片
  2. 把每一頁 render 成圖片,丟給另一個 AI 當評審打分數

有了評分標準後,他先用 Sonnet,給他排版規則,限制文字密度、設字型層級、砍掉沒必要的 emoji。然後要求每一頁都要有用 matplotlib 畫的真實圖表,不能只有文字,再用一個 QA 迴圈,agent 自己 render 出來看一眼,覺得不對就修,修完再看,直到滿意,出了第一版。

再把這些流程、Prompt 全部拿掉,回到最陽春的版本,但是把模型從 Sonnet 換成 Opus。 出第二版。

然後,用前面說的評分標準來比較這兩個版本。

哪個好呢?他的結論是這沒有答案(哦耶),可是這個學習是,當你在猶豫「要花時間寫更好的指令,還是直接花錢用更強的模型」時,其實是可以跑個 eval 來測試的。

也就是說,品味是可以量化的(首先人要有品味。欸!)。

當日最後一場是 Bun 的創辦人。他現在加入 Anthropic 了,他們用 Claude Code 把上百萬行的 runtime 從 Zig 重寫成 Rust。他分享了整個過程。以前這種事情只有瘋子才會做,現在 AI 改了成本結構,瘋子的門檻降低了。

我聽了大家的分享,卻覺得心情有點複雜。

我沒有海關的領域知識。我的美感還在培養中。我也不懂 Rust。而看起來,AI 能力乘以領域知識,缺一邊就是零。

我一直知道自己是通才型的人。什麼都碰一點,什麼都不夠深。我能做出 mojo 不是因為我技術最強,是因為我從小就在做產品,懂 growth,懂流程,但這似乎不太算專業領域。換成海關、換成醫療、換成法規,我再厲害的 AI 能力擺在那裡,就像個美麗的廢物。

所以我在想,也許 AI 時代最值得投資的不是學更多 AI 技巧,而是把某個領域真的學深。唔,至少 70 分,深到足以看到出來 AI 在呼籠你,深到能突破 AI 平庸的品味。

工具已經夠強了,差的是你交代給它的那些只有你才有的東西。

珍惜那些願意反對你的人

下午我有約一個 Office Hour,可以跟 Anthropic 的人一對一聊十五分鐘。

我從早上開始一有時間就跟 Claude 一起準備自我介紹、問題清單、如果對到不同角色的人要怎麼轉話題、怎麼在十五分鐘內把最重要的事情講完。我讓 agent 幫我跑了好幾個版本的模擬問答。

結果對到的是 Research Team 的研究員。

但直到面對面才意識到,啊!Research 研究員是開發模型的耶!我應該問更多關於模型開發的 insights,結果問了一堆 Claude Code 問題。有點像你終於見到了一個米其林主廚,結果你問他餐廳的訂位系統怎麼運作。

有點失敗哎!

只好隨意閒聊了。

她說,模型有個性。有些模型很愛附和,你說什麼它都說好棒棒。聰明一點的模型,像 Opus 4.8,比較會跟人類唱反調。Fable 比較平衡,知道什麼時候該挑戰你,什麼時候該配合。他很在意自己有沒有亂講話。

我覺得有點像去剪頭髮。資淺的設計師你說什麼他都說好看,你說想要這個髮型他就幫你剪。老師傅不一樣,老師傅會直接跟你說,這個髮型不適合你的臉型。因為你臉太方。你會不爽嗎?會。但你知道他說得對。他敢說,是因為他真的看得懂。

她還講了 Anthropic 內部的 skills 文化。完全是草根的。沒有人規定要怎麼寫 skills,就是大家自己寫自己用的,覺得好用就分享出來,沒有什麼正式的流程。聽的我很振奮,原來在公司導入 AI,不需要先有完整的流程。邊走邊調整,才是最可行的。

然後她提到 Claude Code 在公司內部其實一開始整個公司不看好,覺得這東西沒前途。現在呢?全公司每天都在用,連做研究的人都離不開。

我跟她說,我去年六月就開始用 Claude Code 了。

她說:"Wow, that's early."

欸,明明才一年。但在這個圈子裡,資歷是用月在算的。用了一年,你就已經是早期使用者了。世界轉得太快,快到「很久以前」其實根本沒多久呢!

因為不是美國人

在東京的這幾天,我用了 Fable 5。

我拿它做 app 某一個疊床架屋技術債的重構,還開發了兩個全新產品。它的仔細程度跟之前的模型完全不是同一個等級。就像你之前騎的是 ubike,突然有一次選到一台電動腳踏車 ubike,稍微踩踏你就往前好多,不費力的感覺真的很棒,還不趁現在把一些難的事情都交給他做!

但回台灣的那一個早上,Fable 5 不能用了。

因為不是美國人。

就這樣。區域限制。你不在美國,你就用不了最新最好的模型。抱歉了。

這個感覺很難形容。不是憤怒,比較接近一種冰冷的清醒。你知道這個世界有一條線,線這邊的人可以用最好的工具,線那邊的人不行。這條線以前是錢畫出來的,你經濟能力不夠,你就碰不到頂尖的 AI。現在又多了一條線,你不是美國人,你也碰不到。

AI 時代的貧富差距,可能不只是錢的問題。是地理的問題,是護照的問題。

開源模型在追趕。各種可以跑在自己電腦上的模型越來越多,越來越強。但說實話,現階段本機跑的東西跟雲端的頂尖模型,差距還是很大。也許很快就會改善,也許下一季就會有一個開源模型讓我忘記 Fable 5。但現在不是那個時候,這讓我異常煩躁。

我切回 Opus。其實 Opus 已經很厲害了,GPT 5.5 也很厲害,想做的事情都還是做得了。只是,有一種被降等的感覺,就像你之前坐商務艙飛了一趟,回程即使是豪華經濟艙,你還是會覺得椅子也太硬了吧!椅子沒變,是你的屁股變了。

踏出門

飛回台灣的飛機上,長榮航空說有免費 WiFi,但一直連不上,我只好開始發呆。

我在想,我在 Code w/ Claude 聽了很多 talk,跟很多人聊天,看了很多 demo。我滿意外大家講的東西,我都能感同身受。

這一年來,我幾乎沒有跟任何人交流過這些事情。

每天三點睡,對著電腦說話。我以為自己只是在閉門造車,用一些可能很笨的方式在解決問題。

然後我飛到東京,發現有一群人跟我做一樣的事。用一樣的邏輯拆問題,用一樣的架構疊 agent,踩一樣的坑,然後得出類似的結論。

我不是 CS 出身,沒有在大公司做過 AI,沒有發過論文。我只是一個一頭栽進去的人,靠著熱情跟偏執跑了快一年,然後在某個東京的會場裡,發現自己好像可以坐在這裡。

就像你一個人在房間裡練吉他練了一年,從來沒跟別人合奏過。有一天走進一間 jam session,發現大家在彈的東西你居然勉強可以跟得上。你不是最厲害的那個,但你不是來亂的。你真的屬於這裡。

從東京回來之後,我開始想一件事。現在我的 agent 可以幫我即時翻譯投影片、整理筆記、準備問題清單。下一步我想讓 agent 可以即時聽到我在現場聽到的聲音。語音串流接進去,讓它跟我一起聽講,一起反應。

但是,它沒辦法幫我走進那個會場,沒辦法幫我聞到那個木質調的香氛,沒辦法幫我感受到 Boris 站在面前的那種「噢,是真人」的衝擊。

就像那封差點沒看到的信。下次 agent 會比我先看到,它會幫我篩選、標記、甚至回覆。

但有些事情,還是得自己飛過去。

對這篇文章有什麼建議或想法嗎?請 按此在 Twitter 留言按此在 Threads 留言 ,我會回應你 :)