首頁(yè)|必讀|視頻|專訪|運(yùn)營(yíng)|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|低空經(jīng)濟(jì)|智能汽車|特約記者
手機(jī)|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計(jì)算|芯片|報(bào)告|智慧城市|移動(dòng)互聯(lián)網(wǎng)|會(huì)展
首頁(yè) >> 人工智能 >> 正文

OpenAI o3 模型基準(zhǔn)測(cè)試成績(jī)?cè)赓|(zhì)疑,實(shí)測(cè)分?jǐn)?shù)遠(yuǎn)不及宣稱

2025年4月21日 13:14  IT之家  作 者:遠(yuǎn)洋

OpenAI 的 o3 人工智能模型的第一方與第三方基準(zhǔn)測(cè)試結(jié)果存在顯著差異,引發(fā)了外界對(duì)其公司透明度和模型測(cè)試實(shí)踐的質(zhì)疑。

去年 12 月,OpenAI 首次發(fā)布 o3 模型時(shí)宣稱,該模型能夠在 FrontierMath 這一極具挑戰(zhàn)性的數(shù)學(xué)問(wèn)題集上正確回答超過(guò)四分之一的問(wèn)題。這一成績(jī)遠(yuǎn)遠(yuǎn)超過(guò)了競(jìng)爭(zhēng)對(duì)手 —— 排名第二的模型僅能正確回答約 2% 的 FrontierMath 問(wèn)題。OpenAI 首席研究官 Mark Chen 在直播中表示:“目前市場(chǎng)上所有其他產(chǎn)品在 FrontierMath 上的成績(jī)都不足 2%,而我們?cè)趦?nèi)部測(cè)試中,使用 o3 模型在激進(jìn)的測(cè)試時(shí)計(jì)算設(shè)置下,能夠達(dá)到超過(guò) 25% 的正確率。”

然而,這一高分似乎是一個(gè)上限值,是通過(guò)一個(gè)計(jì)算資源更為強(qiáng)大的 o3 模型版本實(shí)現(xiàn)的,而并非是 OpenAI 上周公開發(fā)布的版本。負(fù)責(zé) FrontierMath 的 Epoch 研究所于上周五公布了其對(duì) o3 模型的獨(dú)立基準(zhǔn)測(cè)試結(jié)果,發(fā)現(xiàn) o3 的得分僅為約 10%,遠(yuǎn)低于 OpenAI 此前聲稱的最高分?jǐn)?shù)。

這并不意味著 OpenAI 故意撒謊,該公司在 12 月份公布的基準(zhǔn)測(cè)試結(jié)果中也包含了一個(gè)與 Epoch 測(cè)試結(jié)果相符的較低分?jǐn)?shù)。Epoch 還指出,其測(cè)試設(shè)置可能與 OpenAI 有所不同,并且其評(píng)估使用了更新版本的 FrontierMath。Epoch 在報(bào)告中寫道:“我們與 OpenAI 的結(jié)果差異可能是因?yàn)?OpenAI 在內(nèi)部評(píng)估時(shí)使用了更強(qiáng)大的計(jì)算框架、更多的測(cè)試時(shí)計(jì)算資源,或者是因?yàn)檫@些結(jié)果是在 FrontierMath 的不同子集上運(yùn)行的(例如 2024 年 11 月 26 日版本的 180 個(gè)問(wèn)題與 2025 年 2 月 28 日私有版本的 290 個(gè)問(wèn)題)!

此外,ARC Prize 基金會(huì)(一個(gè)測(cè)試了 o3 預(yù)發(fā)布版本的組織)在 X 平臺(tái)上發(fā)布消息表示,公開發(fā)布的 o3 模型是一個(gè)“針對(duì)聊天 / 產(chǎn)品使用進(jìn)行了調(diào)整的不同模型”,這進(jìn)一步證實(shí)了 Epoch 的報(bào)告。ARC Prize 還指出:“所有發(fā)布的 o3 計(jì)算層級(jí)都比我們測(cè)試的版本要小!币话銇(lái)說(shuō),更大的計(jì)算層級(jí)通?梢垣@得更好的基準(zhǔn)測(cè)試分?jǐn)?shù)。

值得注意的是,盡管公開版本的 o3 未能完全達(dá)到 OpenAI 測(cè)試時(shí)的表現(xiàn),但這在一定程度上已不再是關(guān)鍵問(wèn)題,因?yàn)樵摴竞罄m(xù)推出的 o3-mini-high 和 o4-mini 模型在 FrontierMath 上的表現(xiàn)已經(jīng)優(yōu)于 o3。此外,OpenAI 計(jì)劃在未來(lái)幾周內(nèi)推出更強(qiáng)大的 o3 版本 o3-pro。

然而,此事再次提醒人們,人工智能基準(zhǔn)測(cè)試結(jié)果最好不要完全照單全收,尤其是當(dāng)結(jié)果來(lái)自一家有產(chǎn)品需要銷售的公司時(shí)。隨著人工智能行業(yè)競(jìng)爭(zhēng)的加劇,各供應(yīng)商紛紛急于通過(guò)推出新模型來(lái)吸引眼球和市場(chǎng)份額,基準(zhǔn)測(cè)試“爭(zhēng)議”正變得越來(lái)越常見。

IT之家注意到,今年 1 月,Epoch 因在 OpenAI 宣布 o3 之后才披露其從 OpenAI 獲得的資金支持而受到批評(píng)。許多為 FrontierMath 做出貢獻(xiàn)的學(xué)者直到公開時(shí)才知道 OpenAI 的參與。最近,埃隆 馬斯克的 xAI 被指控為其最新的人工智能模型 Grok 3 發(fā)布了誤導(dǎo)性的基準(zhǔn)測(cè)試圖表。就在本月,Meta 也承認(rèn)其宣傳的基準(zhǔn)測(cè)試分?jǐn)?shù)所基于的模型版本與提供給開發(fā)者的版本不一致。

編 輯:章芳
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來(lái)源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對(duì)于經(jīng)過(guò)授權(quán)可以轉(zhuǎn)載,請(qǐng)必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來(lái)源。
2.凡注明“來(lái)源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時(shí)間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對(duì)此聲明的最終解釋權(quán)。
推薦新聞              
 
人物
高通徐晧:利用6G和AI重塑移動(dòng)連接的未來(lái)
精彩視頻
飛象趣談第二十四期!全球首款二維半導(dǎo)體芯片“無(wú)極”,像保鮮膜一樣薄的未來(lái)科技!
專家談|中國(guó)信通院果敢:生成式AI發(fā)展為人工智能終端注入創(chuàng)新動(dòng)力
全球6G大會(huì)|高通展示三大6G原型系統(tǒng) 更好服務(wù)智能時(shí)代
6G技術(shù)新突破!6G全息超表面寬帶移動(dòng)通信系統(tǒng)樣機(jī)發(fā)布
精彩專題
通信產(chǎn)業(yè)2024年業(yè)績(jī)盤點(diǎn)
3·15權(quán)益日 | 共筑滿意消費(fèi) 守護(hù)信息通信安全防線
聚焦2025全國(guó)兩會(huì)
2025年世界移動(dòng)通信大會(huì)
關(guān)于我們 | 廣告報(bào)價(jià) | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號(hào)-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營(yíng)許可證080234號(hào) 京公網(wǎng)安備110105000771號(hào)
公司名稱: 北京飛象互動(dòng)文化傳媒有限公司
未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像