女警跪趴被按住高高撅起,在线亚洲中文精品第1页视频,亚洲综合另类小说色区色噜噜

OpenAI 的 o3 人工智能模型的第一方與第三方基準(zhǔn)測試結(jié)果存在顯著差異，引發(fā)了外界對其公司透明度和模型測試實(shí)踐的質(zhì)疑。

去年 12 月，OpenAI 首次發(fā)布 o3 模型時(shí)宣稱，該模型能夠在 FrontierMath 這一極具挑戰(zhàn)性的數(shù)學(xué)問題集上正確回答超過四分之一的問題。這一成績遠(yuǎn)遠(yuǎn)超過了競爭對手 —— 排名第二的模型僅能正確回答約 2% 的 FrontierMath 問題。OpenAI 首席研究官 Mark Chen 在直播中表示：“目前市場上所有其他產(chǎn)品在 FrontierMath 上的成績都不足 2%，而我們在內(nèi)部測試中，使用 o3 模型在激進(jìn)的測試時(shí)計(jì)算設(shè)置下，能夠達(dá)到超過 25% 的正確率�！�

然而，這一高分似乎是一個(gè)上限值，是通過一個(gè)計(jì)算資源更為強(qiáng)大的 o3 模型版本實(shí)現(xiàn)的，而并非是 OpenAI 上周公開發(fā)布的版本。負(fù)責(zé) FrontierMath 的 Epoch 研究所于上周五公布了其對 o3 模型的獨(dú)立基準(zhǔn)測試結(jié)果，發(fā)現(xiàn) o3 的得分僅為約 10%，遠(yuǎn)低于 OpenAI 此前聲稱的最高分?jǐn)?shù)。

這并不意味著 OpenAI 故意撒謊，該公司在 12 月份公布的基準(zhǔn)測試結(jié)果中也包含了一個(gè)與 Epoch 測試結(jié)果相符的較低分?jǐn)?shù)。Epoch 還指出，其測試設(shè)置可能與 OpenAI 有所不同，并且其評估使用了更新版本的 FrontierMath。Epoch 在報(bào)告中寫道：“我們與 OpenAI 的結(jié)果差異可能是因?yàn)?OpenAI 在內(nèi)部評估時(shí)使用了更強(qiáng)大的計(jì)算框架、更多的測試時(shí)計(jì)算資源，或者是因?yàn)檫@些結(jié)果是在 FrontierMath 的不同子集上運(yùn)行的（例如 2024 年 11 月 26 日版本的 180 個(gè)問題與 2025 年 2 月 28 日私有版本的 290 個(gè)問題）�！�

此外，ARC Prize 基金會（一個(gè)測試了 o3 預(yù)發(fā)布版本的組織）在 X 平臺上發(fā)布消息表示，公開發(fā)布的 o3 模型是一個(gè)“針對聊天 / 產(chǎn)品使用進(jìn)行了調(diào)整的不同模型”，這進(jìn)一步證實(shí)了 Epoch 的報(bào)告。ARC Prize 還指出：“所有發(fā)布的 o3 計(jì)算層級都比我們測試的版本要小�！币话銇碚f，更大的計(jì)算層級通�？梢垣@得更好的基準(zhǔn)測試分?jǐn)?shù)。

值得注意的是，盡管公開版本的 o3 未能完全達(dá)到 OpenAI 測試時(shí)的表現(xiàn)，但這在一定程度上已不再是關(guān)鍵問題，因?yàn)樵摴竞罄m(xù)推出的 o3-mini-high 和 o4-mini 模型在 FrontierMath 上的表現(xiàn)已經(jīng)優(yōu)于 o3。此外，OpenAI 計(jì)劃在未來幾周內(nèi)推出更強(qiáng)大的 o3 版本 o3-pro。

然而，此事再次提醒人們，人工智能基準(zhǔn)測試結(jié)果最好不要完全照單全收，尤其是當(dāng)結(jié)果來自一家有產(chǎn)品需要銷售的公司時(shí)。隨著人工智能行業(yè)競爭的加劇，各供應(yīng)商紛紛急于通過推出新模型來吸引眼球和市場份額，基準(zhǔn)測試“爭議”正變得越來越常見。

IT之家注意到，今年 1 月，Epoch 因在 OpenAI 宣布 o3 之后才披露其從 OpenAI 獲得的資金支持而受到批評。許多為 FrontierMath 做出貢獻(xiàn)的學(xué)者直到公開時(shí)才知道 OpenAI 的參與。最近，埃隆馬斯克的 xAI 被指控為其最新的人工智能模型 Grok 3 發(fā)布了誤導(dǎo)性的基準(zhǔn)測試圖表。就在本月，Meta 也承認(rèn)其宣傳的基準(zhǔn)測試分?jǐn)?shù)所基于的模型版本與提供給開發(fā)者的版本不一致。

OpenAI o3 模型基準(zhǔn)測試成績遭質(zhì)疑，實(shí)測分?jǐn)?shù)遠(yuǎn)不及宣稱