英偉達在首個AI Agent基準測試中展現領先編碼性能

英偉達在首個多廠商開放基準AA-AgentPerf中，取得AI Agent推理性能領先。

AI Agent的興起正在從根本上改變推理計算的複雜度。與傳統的單輪問答不同，Agent需要多步推理、工具調用和代碼操作，其請求序列往往是非確定性的——這給硬件性能評估帶來了全新挑戰。長期以來，業界缺乏一個能真實反映Agent工作負載特徵的標準化測試，直到Artificial Analysis發佈了AA-AgentPerf。

AA-AgentPerf是業界首個多廠商開放的Agent推理基準，專門針對編碼場景設計。它的核心思路是：基於預錄的Agent執行軌跡來驅動測試，這些軌跡覆蓋了十多種編程語言、多個公共代碼倉庫中的真實問題修復過程，並穿插了推理與工具調用的交替步驟。測試時，系統會向GPU發送數千個併發請求，同時模擬CPU處理工具調用時的回合間延遲，並嚴格遵循預設的服務等級目標——包括輸出token速度和首token延遲閾值。

該基準的關鍵指標是每兆瓦支持的併發Agent數量，這一歸一化方式直接反映了數據中心規模的能效表現。在發佈當日的測試中，英偉達的GB300 NVL72系統表現突出：相比上一代H200，它在相同功耗下可支持的併發Agent編碼會話數提升了最高20倍。這一成績得益於GB300 NVL72在架構上的深度協同設計——從高效路由長週期會話，到在大量併發Agent間保持混合專家模型與GPU的高利用率，軟硬件的緊密整合釋放了階躍式的併發與效率增益。

AA-AgentPerf的出現填補了行業空白。此前，推理性能的衡量多集中在單次請求的延遲或吞吐量上，而Agent工作負載的複雜性——包括非確定性決策鏈、多工具調用和長上下文維持——使得傳統指標難以反映真實用戶體驗。Artificial Analysis團隊通過構建代表性軌跡數據集，並基於無服務器API的生產級服務質量數據設定SLO層級，讓測試結果更貼近實際部署場景。

從產業視角看，這一基準的建立對AI基礎設施投資具有風向標意義。隨著Agent應用從實驗走向規模化落地，數據中心運營商和企業客戶在選型時，將越來越關注系統在真實Agent負載下的併發能力與能效比。英偉達GB300 NVL72的早期成績，展示了其在大規模Agent編碼工作負載上的優勢，而即將推出的Vera Rubin平臺預計將進一步延伸這一勢頭——該平臺將利用50 PFLOPs的NVFP4算力，並通過Vera CPU加速LLM的工具調用，從端到端優化Agent工作流的經濟性與效率。

值得注意的是，AA-AgentPerf目前首發測試聚焦於DeepSeek-V4-Pro模型，未來隨著更多模型和硬件配置的加入，這一基準有望成為Agent推理生態的通用比較框架。對於關注AI算力鏈條的投資者而言，Agent推理基準的標準化，意味著硬件競爭力的評判將從“訓練峰值”進一步向“推理能效”和“併發承載力”傾斜，這對芯片設計、數據中心架構乃至雲服務定價都可能產生深遠影響。

英偉達在首個AI Agent基準測試中展現領先編碼性能

延伸閱讀

相關深度報道

相關每日新聞