機器之心編輯部
在春節(jié)來臨之前,海外大模型先來了一波硬碰硬的發(fā)布。
(相關(guān)資料圖)
北京時間 2 月 6 日凌晨,Anthropic 與 OpenAI 相繼推出了新版本基礎(chǔ)大模型,分別是 Claude Opus 4.6 與 GPT-5.3-Codex。
昨天兩家還在因為 AI 里面的廣告而論戰(zhàn),今天在大模型發(fā)布上又撞車了。話不多說,直接看他們的模型能力如何。
Claude Opus 4.6
Claude Opus 4.6 是 Anthropic 對其旗艦人工智能模型的一次重大升級。在這代模型上,規(guī)劃更加謹(jǐn)慎,能夠維持更長時間的自主工作流程,并在關(guān)鍵的企業(yè)基準(zhǔn)測試中超越了包括 GPT-5.2 在內(nèi)的競爭對手。
新模型首次擁有 100 萬 token 的上下文窗口,使 AI 能夠處理和推理比以往版本多得多的信息。Anthropic 還在 Claude Code 中引入了類似于 Kimi K2.5 的「智能體團隊」功能—— 一項研究預(yù)覽功能,它允許多個 AI 智能體同時處理編碼項目的不同方面,并進行自主協(xié)調(diào)。
Anthropic 強調(diào),Opus 4.6 可將其增強的功能應(yīng)用于一系列日常工作任務(wù),包括運行財務(wù)分析、進行研究以及使用和創(chuàng)建文檔、電子表格和演示文稿?,F(xiàn)在在 Cowork 環(huán)境中,Claude 可以自主地執(zhí)行多任務(wù),Opus 4.6 可以代表人類運用所有這些技能。
Opus 4.6 在多項評估中均表現(xiàn)出色。例如,它在智能體編碼評估工具 Terminal-Bench 2.0 中取得了最高分,并在「人類最后的考試」(一項復(fù)雜的多學(xué)科推理測試)中領(lǐng)先于所有其他前沿模型。在 GDPval-AA(一項評估模型在金融、法律和其他領(lǐng)域中具有經(jīng)濟價值的知識工作任務(wù)上的表現(xiàn)的測試)中, Opus 4.6 的表現(xiàn)比業(yè)界次優(yōu)模型(OpenAI 的 GPT-5.2)高出約 144 個 Elo 分?jǐn)?shù),比其前身(Claude Opus 4.5)高出 190 分。此外,Opus 4.6 在 BrowseComp 測試中也優(yōu)于其他所有模型,該測試用于衡量模型在線查找難尋信息的能力。
Claude Opus 4.6 現(xiàn)已在 claude.ai、API 以及所有主流云平臺上線,定價保持不變,每百萬 token 5 美元 / 25 美元。
目前大模型的一個常見問題是「上下文腐爛」,即當(dāng)對話 token 數(shù)量超過一定閾值時,模型性能會下降。Opus 4.6 的性能顯著優(yōu)于其前代產(chǎn)品:在 MRCR v2 的 8 針 1M 變體測試中(該測試如同大海撈針),Opus 4.6 的得分為 76%,而 Sonnet 4.5 的得分僅為 18.5%。這標(biāo)志著模型在保持最佳性能的同時,能夠利用的上下文信息量發(fā)生了質(zhì)的飛躍。
為了證明 Opus 4.6 的強大智能體能力,Anthropic 的一名研究員使用 16 個智能體從零開始構(gòu)建了一個基于 Rust 的 C 語言編譯器,設(shè)定任務(wù)后就基本放手不管了。最后 AI 輸出的代碼長達(dá) 10 萬行,可以編譯 Linux 內(nèi)核,耗資 2 萬美元,超過 2000 次 Claude Code 會話,歷時兩周。
該編譯器可以在 x86、ARM 和 RISC-V 上構(gòu)建可啟動的 Linux 6.9,它通過了 GCC 99% 的壓力測試,可以編譯 FFmpeg、Redis、PostgreSQL、QEMU,還通過了開發(fā)者的終極考驗:編譯并運行了 Doom 游戲。
該編譯器的代碼:https://github.com/anthropics/claudes-c-compiler
雖然沒有人類參與編寫代碼,但研究人員不斷重新設(shè)計測試,在智能體程序互相干擾時構(gòu)建 CI 管道,并在所有 16 個智能體程序都卡在同一個 bug 時創(chuàng)建變通方法。
看起來,在未來加入 AI 的工作流程中,人的角色已經(jīng)從編寫代碼轉(zhuǎn)變?yōu)闃?gòu)建讓 AI 能夠編寫代碼的環(huán)境。
GPT-5.3-Codex
在 OpenAI 這邊,新一代模型 GPT-5.3-Codex 的發(fā)布緊隨其后。奧特曼稱其擁有目前最佳的編碼性能,進一步釋放了 Codex 的潛能。
GPT-5.3-Codex 在多項基準(zhǔn)上刷新紀(jì)錄:在 SWE-Bench Pro 上達(dá)到 56.8%,在 Terminal-Bench 2.0 上達(dá)到 77.3%,同時相比此前版本運行更快、消耗的 token 更少。
OpenAI 表示,該模型融合了 GPT-5.2-Codex 的前沿編碼性能和 GPT-5.2 的推理及專業(yè)知識能力,速度提升了 25%。這使其能夠勝任需要研究、工具使用和復(fù)雜執(zhí)行的長時間任務(wù)。
它就像一位真正的同事一樣,你可以在 GPT-5.3-Codex 工作時對其進行指導(dǎo)和交互,而不會丟失上下文信息。借助 GPT-5.3-Codex,Codex 從一個能夠編寫和審查代碼的代理,變成了一個幾乎可以執(zhí)行開發(fā)人員和專業(yè)人士在計算機上的任何操作的代理。
除了更加強大的編碼能力外,GPT-5.2-Codex 在 OpenAI 長期關(guān)注的美學(xué)方面又一次有了長足的進步。
在這次發(fā)布中,OpenAI 讓 GPT-5.3-Codex 構(gòu)建了兩款游戲:一款是 Codex 應(yīng)用發(fā)布時推出的賽車游戲的第二版,另一款是潛水游戲。
OpenAI 表示,GPT-5.3-Codex 利用其網(wǎng)頁游戲開發(fā)技能以及預(yù)先設(shè)定的通用后續(xù)提示(例如「修復(fù)錯誤」或「改進游戲」),自主地迭代開發(fā)了數(shù)百萬個 token。
這次發(fā)布的 GPT-5.3-Codex ,OpenAI 對其的期望遠(yuǎn)不止步于一個智能編碼模型,而是一個能夠「Beyond coding」,實現(xiàn)工作助理的智能體。
GPT-5.3-Codex 能夠支持軟件生命周期中的所有工作 —— 調(diào)試、部署、監(jiān)控、編寫產(chǎn)品需求文檔、編輯文案、用戶研究、測試、指標(biāo)分析等等。
GPT-5.3-Codex 輸出凈值分析表格示例
OpenAI 認(rèn)為,隨著模型能力的不斷增強,差距不再僅僅在于智能體能夠做什么,而是在于人類如何輕松地與多個并行工作的智能體進行交互、指導(dǎo)和監(jiān)督。鑒于此,Codex 應(yīng)用可以讓管理和指導(dǎo)智能體變得更加便捷,而 GPT-5.3-Codex 的加入更使其交互性更強。
借助新模型,Codex 會頻繁更新,讓你隨時了解關(guān)鍵決策和進展。人們無需等待最終輸出,即可實時互動 —— 提出問題、討論方法,并共同探索解決方案。GPT-5.3-Codex 會語音播報其運行過程,響應(yīng)反饋,并讓你從始至終掌握整個流程。
最后,OpenAI 表示,GPT-5.3-Codex 的訓(xùn)練和部署使用了 Codex,OpenAI 的許多研究人員和工程師都表示,他們現(xiàn)在的工作與兩個月前相比發(fā)生了根本性的變化。
例如,研究團隊使用 Codex 來監(jiān)控和調(diào)試本次版本的訓(xùn)練運行。它不僅加速了基礎(chǔ)設(shè)施問題的調(diào)試,還幫助追蹤整個訓(xùn)練過程中的模式,對交互質(zhì)量進行深入分析,提出修復(fù)方案,并構(gòu)建了豐富的應(yīng)用程序,使研究人員能夠精確地了解模型行為與先前模型之間的差異。
工程團隊使用 Codex 對 GPT-5.3-Codex 框架進行了優(yōu)化和適配。當(dāng)出現(xiàn)影響用戶的異常極端情況時,團隊成員利用 Codex 識別上下文渲染錯誤,并找出緩存命中率低的根本原因。在整個發(fā)布過程中,GPT-5.3-Codex 通過動態(tài)擴展 GPU 集群來應(yīng)對流量高峰并保持延遲穩(wěn)定,持續(xù)為團隊提供支持。
在 Alpha 測試期間,一位研究人員想要了解 GPT-5.3-Codex 每回合能完成多少額外工作,以及由此帶來的生產(chǎn)力提升。GPT-5.3-Codex 生成了幾個簡單的正則表達(dá)式分類器,用于估算用戶澄清請求的頻率、正面和負(fù)面反饋以及任務(wù)進度,然后將這些分類器可擴展地應(yīng)用于所有會話日志,并生成一份包含結(jié)論的報告。
GPT-5.3-Codex 已包含在 ChatGPT 的付費套餐中,但 API 還需要等待一段時間。
OpenAI 報告說,由于基礎(chǔ)設(shè)施和推理堆棧的改進,Codex 用戶現(xiàn)在運行 GPT-5.3-Codex 的速度也提高了 25%,從而實現(xiàn)了更快的交互和更快的結(jié)果。
結(jié)語
海外的大模型已經(jīng)輪番上陣,在春節(jié)前的最后這幾天,國內(nèi)大模型也必然會卷起來,包括 DeepSeek v4 也許即將到來。
你期待住了嗎?
參考內(nèi)容:
https://www.anthropic.com/news/claude-opus-4-6
https://www.anthropic.com/engineering/building-c-compiler
https://openai.com/index/introducing-gpt-5-3-codex/
熱門
聯(lián)系我們:256 8607 385@qq.com
版權(quán)所有 重播新聞網(wǎng) www.zzx33.com 京ICP備2022022245號-17