長期以來,AGI都籠罩在“類人智能”的模糊表述中。
【資料圖】
都說它像人一樣聰明,那到底有多聰明呢?
圖靈獎(jiǎng)得主Yoshua Bengio聯(lián)合Center for AI Safety、加州大學(xué)伯克利分校等機(jī)構(gòu)的新作《A Definition of AGI》給AGI下了個(gè)可衡量的定義。
該定義包含兩個(gè)關(guān)鍵維度:
研究團(tuán)隊(duì)設(shè)計(jì)了一套量化方法來評估當(dāng)前AI離AGI的距離。
為了把這個(gè)標(biāo)準(zhǔn)落地,研究者參考了心理學(xué)里驗(yàn)證過的卡特爾-霍恩-卡羅爾(CHC)理論這個(gè)研究人類認(rèn)知能力的經(jīng)典模型。
該模型將人類通用智力拆解為10個(gè)相互獨(dú)立但又關(guān)聯(lián)的核心認(rèn)知領(lǐng)域,涵蓋了從基礎(chǔ)感知到高階推理的完整認(rèn)知鏈條,基于這10個(gè)領(lǐng)域,研究團(tuán)隊(duì)對人類傳統(tǒng)認(rèn)知測試題進(jìn)行了AI適配改造
剔除依賴人類生理感知(如觸覺測試)或特定場景(如駕駛場景測試)的題目,保留核心認(rèn)知邏輯,形成了一套包含500余道題目的AGI評估題庫。具體包括:
評估采用百分制,每個(gè)認(rèn)知領(lǐng)域滿分10分,系統(tǒng)總分達(dá)到100分即判定為達(dá)到AGI水平,分?jǐn)?shù)越高代表離AGI的距離越近。
研究團(tuán)隊(duì)運(yùn)用上述評估體系,對當(dāng)前主流LLM進(jìn)行了全面測試,結(jié)果既展現(xiàn)了AI的快速進(jìn)步,也暴露了其與AGI的巨大差距。
從總分來看,2023年發(fā)布的GPT-4總分僅為27分,而2025年版GPT-5總分提升至58分.
兩年間,分?jǐn)?shù)增幅超過115%,反映出大模型在認(rèn)知能力上的快速迭代。
但從AGI的及格線100分來看,即使是GPT-5,也尚未突破半程線,甚至在長時(shí)記憶存儲(chǔ)領(lǐng)域中拿了0分。
具體來說,當(dāng)前AI與論文中定義的AGI更關(guān)鍵的差異體現(xiàn)在認(rèn)知領(lǐng)域的不均衡性上。
據(jù)實(shí)驗(yàn)結(jié)果來看,當(dāng)前AI的優(yōu)勢高度集中于知識儲(chǔ)備與符號處理類領(lǐng)域
在知識(K)、讀寫(RW)、數(shù)學(xué)(M)三個(gè)領(lǐng)域表現(xiàn)突出,GPT-5在這三項(xiàng)的得分都超過了8。
△知識(K)領(lǐng)域評估
△讀寫(RW)領(lǐng)域評估
△數(shù)學(xué)(M)領(lǐng)域評估
這些優(yōu)勢的共性在于均圍繞文本符號的理解與應(yīng)用展開,是大模型在萬億級數(shù)據(jù)訓(xùn)練中形成的模式匹配能力的集中體現(xiàn)。
AI在依賴海量數(shù)據(jù)訓(xùn)練的任務(wù)中,在這些方面展現(xiàn)出了接近人類成年人的水平。
與集中的優(yōu)勢形成鮮明對比,實(shí)驗(yàn)暴露出AI在感知、記憶、推理等基礎(chǔ)認(rèn)知領(lǐng)域存在致命短板,并且這些短板無法通過單純的擴(kuò)大規(guī)模彌補(bǔ)。
在 “視覺(V)” 、 “聽覺(A)”領(lǐng)域,大模型的表現(xiàn)堪稱慘淡。
△視覺(V)領(lǐng)域評估
△聽覺(A)領(lǐng)域評估
GPT-4完全不具備圖像識別與聲音處理能力,即使GPT-5也僅能完成簡單的貓犬分類、基礎(chǔ)語音轉(zhuǎn)文字,遠(yuǎn)無法實(shí)現(xiàn)人類級別的復(fù)雜場景解讀與情感識別。
“長時(shí)記憶存儲(chǔ)(MS)”與“提?。∕R)”是另一致命缺陷,說明AI有健忘癥。
△長時(shí)記憶存儲(chǔ)(MS)領(lǐng)域評估
△長時(shí)記憶提取(MR)領(lǐng)域評估
無法實(shí)現(xiàn)信息的長期穩(wěn)定存儲(chǔ),也就做不到對學(xué)習(xí)的內(nèi)容靈活運(yùn)用。
部分大模型看似具備多任務(wù)處理能力,實(shí)則是通過技術(shù)手段掩蓋短板
例如,部分模型通過擴(kuò)大上下文窗口(如支持128k tokens的文本輸入),假裝具備長期記憶能力,但本質(zhì)上仍是短期工作記憶的擴(kuò)展,無法實(shí)現(xiàn)信息的長期存儲(chǔ)與跨場景調(diào)用。
還有模型依賴聯(lián)網(wǎng)搜索功能補(bǔ)充知識,看似無所不知,實(shí)則暴露了自身知識更新滯后、易產(chǎn)生幻覺的缺陷。
而這項(xiàng)研究的評估體系明確排除了外部工具的輔助,僅衡量AI系統(tǒng)的原生認(rèn)知能力,使得這些偽全能表現(xiàn)無所遁形。
當(dāng)然了,論文也明確指出,這套評估只看AI自身的認(rèn)知硬實(shí)力,不管它能調(diào)用多少外部工具,也不看它能賺多少錢、替代多少工作,純粹聚焦于智力本身
就算某個(gè)AI總分再高,只要像長期記憶這樣的核心領(lǐng)域是零分,本質(zhì)上還是有嚴(yán)重缺陷的“殘次版”智能,離真正的AGI也還差得遠(yuǎn)。
這下,AGI有了可以衡量的定義,從概念到現(xiàn)實(shí),還有多久呢?
論文地址:https://www.agidefinition.ai/paper.pdf參考鏈接:https://x.com/DanHendrycks/status/1978828377269117007
— 完 —
熱門
聯(lián)系我們:435 226 40 @qq.com
版權(quán)所有 重播新聞網(wǎng) www.zzx33.com 京ICP備2022022245號-17