AI Agent的興起正在從根本上改變推理計算的複雜度。與傳統的單輪問答不同,Agent需要多步推理、工具調用和代碼操作,其請求序列往往是非確定性的——這給硬件性能評估帶來了全新挑戰。長期以來,業界缺乏一個能真實反映Agent工作負載特徵的標準化測試,直到Artificial Analysis發佈了AA-AgentPerf。

AA-AgentPerf是業界首個多廠商開放的Agent推理基準,專門針對編碼場景設計。它的核心思路是:基於預錄的Agent執行軌跡來驅動測試,這些軌跡覆蓋了十多種編程語言、多個公共代碼倉庫中的真實問題修復過程,並穿插了推理與工具調用的交替步驟。測試時,系統會向GPU發送數千個併發請求,同時模擬CPU處理工具調用時的回合間延遲,並嚴格遵循預設的服務等級目標——包括輸出token速度和首token延遲閾值。

該基準的關鍵指標是每兆瓦支持的併發Agent數量,這一歸一化方式直接反映了數據中心規模的能效表現。在發佈當日的測試中,英偉達GB300 NVL72系統表現突出:相比上一代H200,它在相同功耗下可支持的併發Agent編碼會話數提升了最高20倍。這一成績得益於GB300 NVL72在架構上的深度協同設計——從高效路由長週期會話,到在大量併發Agent間保持混合專家模型與GPU的高利用率,軟硬件的緊密整合釋放了階躍式的併發與效率增益。

AA-AgentPerf的出現填補了行業空白。此前,推理性能的衡量多集中在單次請求的延遲或吞吐量上,而Agent工作負載的複雜性——包括非確定性決策鏈、多工具調用和長上下文維持——使得傳統指標難以反映真實用戶體驗。Artificial Analysis團隊通過構建代表性軌跡數據集,並基於無服務器API的生產級服務質量數據設定SLO層級,讓測試結果更貼近實際部署場景。

從產業視角看,這一基準的建立對AI基礎設施投資具有風向標意義。隨著Agent應用從實驗走向規模化落地,數據中心運營商和企業客戶在選型時,將越來越關注系統在真實Agent負載下的併發能力與能效比。英偉達GB300 NVL72的早期成績,展示了其在大規模Agent編碼工作負載上的優勢,而即將推出的Vera Rubin平臺預計將進一步延伸這一勢頭——該平臺將利用50 PFLOPs的NVFP4算力,並通過Vera CPU加速LLM的工具調用,從端到端優化Agent工作流的經濟性與效率。

值得注意的是,AA-AgentPerf目前首發測試聚焦於DeepSeek-V4-Pro模型,未來隨著更多模型和硬件配置的加入,這一基準有望成為Agent推理生態的通用比較框架。對於關注AI算力鏈條的投資者而言,Agent推理基準的標準化,意味著硬件競爭力的評判將從“訓練峰值”進一步向“推理能效”和“併發承載力”傾斜,這對芯片設計、數據中心架構乃至雲服務定價都可能產生深遠影響。