一場圍繞AI安全與商業部署的博弈,在本週五達到了一個戲劇性的轉折點。美國政府下令AI公司Anthropic立即關閉其兩款性能最強大的模型——Claude Fable 5和Claude Mythos 5,理由是國家安全。Anthropic在社交媒體上宣佈已遵守指令,但同時在一篇長篇博文中明確表達了不滿,認為政府此舉是過度反應。

根據Anthropic的說法,該指令於美東時間週五下午5點21分送達,要求公司在全球範圍內禁用這兩款模型,而不僅僅是針對最初出口管制令所指向的外國公民。Anthropic的其他模型不受影響。

要理解這場風波的根源,需要回顧這兩款模型的特殊背景。Mythos是Anthropic迄今能力最強的AI模型,於四月初首次預覽。該公司將其描述為在發現軟件安全漏洞方面具有異常能力——在測試中,Mythos找出了所有主流操作系統和網絡瀏覽器的缺陷。正因如此,Anthropic並未將其廣泛發佈,而是啟動了一個名為“玻璃翼計劃”的受控項目,僅與大約50家經過審查的組織共享,包括亞馬遜、蘋果、谷歌、微軟和CrowdStrike,用於防禦性網絡安全工作。

而Fable 5則是在三天前剛剛發佈的。它是Mythos的商業化版本,但加裝了防護欄,阻止模型在網絡安全和生物等高風險領域做出回應。Anthropic認為,這使得Fable 5足夠安全,可以向公眾開放。根據AI性能追蹤公司Vals AI的基準測試,它一經發布便成為公眾可用的最強模型。

政府的指令表面上是出口管制行動,限制外國公民訪問這些模型。但Anthropic在博文中透露,其理解背後的真正擔憂,是有人聲稱找到了Fable 5的一個“越獄”方法。Anthropic強調,政府至今只提供了口頭證據,描述的是一個“潛在的、狹窄的、非普遍的越獄”——按照該公司的說法,這不過是誘導模型讀取特定代碼庫並識別軟件缺陷。Anthropic還補充說,這種能力水平在包括OpenAI的GPT-5.5在內的其他公開可用模型中早已廣泛存在,並且網絡安全專業人員日常就在使用它進行防禦性工作。

Anthropic的核心論點是,其最強大的安全防護措施是通過獨立於模型本身的分類器系統運行的。這意味著,即使有人設法讓Fable在遭到拒絕後繼續對話,針對最危險輸出的底層保護依然有效。該公司還在博文中指出,對近期使用情況的審查未發現任何證據表明這些防護措施被成功繞過,併產生了真正有害的內容。

然而,這些解釋顯然未能阻止政府採取行動。Anthropic在博文中直言不諱地寫道:“我們不同意,一個狹窄的潛在越獄發現應成為召回一款已部署給數億人的商業模型的理由。如果這一標準應用於整個行業,我們相信它將實質上叫停所有前沿模型提供商的所有新模型部署。”

此事發生的時機對Anthropic尤為敏感。該公司被廣泛預期將在今年進行首次公開募股,並且其公眾形象很大程度上建立在“注重安全的替代方案”這一敘事之上——與競爭對手形成鮮明對比。觀察人士注意到其中的諷刺意味:Anthropic在限制Mythos時所展現的極度謹慎——它曾宣傳該模型因過於危險而不能公開發布——如今恰恰引來了可能對其業務造成最大破壞的政府審查。

OpenAI的薩姆·奧爾特曼或許正在旁觀這場風波。今年四月,他在一檔播客節目中評論稱,Anthropic對Mythos的處理方式無異於“基於恐懼的營銷”。他當時說:“宣稱‘我們造了一顆炸彈,正準備把它扔到你頭上,但我們可以賣給你一個價值一億美元的地下掩體’,這顯然是絕妙的營銷。”奧爾特曼當時並未預測到政府會出手叫停,但他點出了一個如今反噬Anthropic的事實:當你花了數月時間告訴全世界你的AI具有獨一無二的危險性時,全世界——包括美國政府——往往會認真傾聽。

這一事件可能產生深遠的行業影響。它首次確立了監管機構可以基於未經驗證的安全漏洞報告,直接干預並召回已大規模部署的商業AI模型的先例。對於所有正在推進前沿模型商業化的公司而言,這不僅意味著技術風險,更意味著一種全新的監管不確定性:安全敘事可能成為一把雙刃劍,在建立品牌信任的同時,也可能招致最嚴厲的行政干預。