首頁|必讀|視頻|專訪|運(yùn)營|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|低空經(jīng)濟(jì)|智能汽車|特約記者
手機(jī)|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計(jì)算|芯片|報告|智慧城市|移動互聯(lián)網(wǎng)|會展
首頁 >> 頭條資訊 >> 正文

物理測試暴擊AI圈,DeepSeek R1穩(wěn)超o1、Claude,我們已進(jìn)入RL黃金時代

2025年1月26日 09:25  機(jī)器之心  

DeepSeek R1 真是太厲害了!

最近,‘神秘的東方力量’DeepSeek 正在‘硬控’硅谷。

我讓 R1 詳細(xì)解釋勾股定理。這一切都是 AI 在不到 30 秒時間里一次性完成的,沒出任何錯。簡單來說,its over.

在國內(nèi)外 AI 圈,普通網(wǎng)友發(fā)現(xiàn)了神奇的強(qiáng)大新 AI(還開源),學(xué)界專家紛紛喊出‘要奮起直追’,還有小道消息稱海外的 AI 公司已經(jīng)如臨大敵。

就說這個本周剛發(fā)布的 DeepSeek R1,它沒有任何監(jiān)督訓(xùn)練的純強(qiáng)化學(xué)習(xí)路線令人震撼,從去年 12 月 Deepseek-v3 基座發(fā)展到如今堪比 OpenAI o1 的思維鏈能力,似乎是很快達(dá)成的事。

但在 AI 社區(qū)熱火朝天的讀技術(shù)報告、對比實(shí)測之余,人們還是對 R1 有所懷疑:它除了能跑贏一堆 Benchmark 以外,真的能領(lǐng)先嗎?

能自建模擬‘物理規(guī)律’

你不信?來讓大模型玩玩彈球?

最近幾天,AI 社區(qū)的一些人開始沉迷一項(xiàng)測試 —— 測試不同的 AI 大模型(尤其是所謂的推理模型)來處理一類問題:‘編寫一個 Python 腳本,讓一個黃色球在某個形狀內(nèi)彈跳。讓該形狀緩慢旋轉(zhuǎn),并確保球停留在形狀內(nèi)。’

一些模型在這項(xiàng)‘旋轉(zhuǎn)球形’基準(zhǔn)測試中的表現(xiàn)優(yōu)于其他模型。據(jù) CoreView CTO Ivan Fioravanti 稱,國內(nèi)人工智能實(shí)驗(yàn)室 DeepSeek 的開源大模型 R1 完勝 OpenAI 的 o1 pro 模式,后者作為 OpenAI ChatGPT Pro 計(jì)劃的一部分,每月收費(fèi) 200 美元。

左邊是 OpenAI o1,右邊是 DeepSeek R1。如上所述,這里的 Prompt 是:‘write a python script for a bouncing yellow ball within a square, make sure to handle collision detection properly. make the square slowly rotate. implement it in python. make sure ball stays within the square.’

根據(jù)另一位網(wǎng)友在 X 上的說法,Anthropic 的 Claude 3.5 Sonnet 和谷歌的 Gemini 1.5 Pro 模型對物理原理判斷錯誤,導(dǎo)致球偏離了形狀。也有用戶報告稱,谷歌最新的 Gemini 2.0 Flash Thinking Experimental,以及相對更舊的 OpenAI GPT-4o 都一次性通過了評估。

但這里面也是能分出高下的:

在這個推文底下的網(wǎng)友表示:o1 的能力原本很好,在 OpenAI 優(yōu)化速度過后就變?nèi)趿,即使是每?200 美元的會員版也一樣。

模擬彈跳球是一個經(jīng)典的編程挑戰(zhàn)。精確的模擬結(jié)合了碰撞檢測算法,其算法需要去識別兩個物體(例如一個球和一個形狀的側(cè)面)何時發(fā)生碰撞。編寫不當(dāng)?shù)乃惴〞绊懩M的性能或?qū)е旅黠@的物理錯誤。

AI 初創(chuàng)公司 Nous Research 的研究員 N8 Programs 表示,他花了大約兩個小時從頭開始編寫一個旋轉(zhuǎn)七邊形中的彈跳球。‘必須跟蹤多個坐標(biāo)系,了解每個系統(tǒng)中的碰撞是如何進(jìn)行的,并從頭設(shè)計(jì)代碼以使其具有魯棒性!

雖然彈跳球和旋轉(zhuǎn)形狀是對編程技能的合理測試,但對于大模型來說還是個新項(xiàng)目,即使是提示中的細(xì)微變化也可能產(chǎn)生出不同的結(jié)果。所以如果想讓它最終成為 AI 大模型基準(zhǔn)測試的一部分的話,還需要改進(jìn)。

無論如何,經(jīng)過這一波實(shí)測之后,我們對大模型之間的能力不同有了觀感。

DeepSeek 是新的‘硅谷神話’

DeepSeek 正讓大洋彼岸陷入‘恐慌’。

Meta 員工發(fā)帖稱‘Meta 工程師們正在瘋狂地分析 DeepSeek,試圖從中復(fù)制任何可能的東西。’

而 AI 科技初創(chuàng)公司 Scale AI 創(chuàng)始人 Alexandr Wang 也公開表示,中國人工智能公司 DeepSeek 的 AI 大模型性能大致與美國最好的模型相當(dāng)。

他還認(rèn)為,過去十年來,美國可能一直在人工智能競賽中領(lǐng)先于中國,但 DeepSeek 的 AI 大模型發(fā)布可能會‘改變一切’。

X 博主 @8teAPi 則認(rèn)為,DeepSeek 并不是一個‘副業(yè)項(xiàng)目’,而是像洛克希德・馬丁以前的‘臭鼬工廠’。

所謂‘臭鼬工廠’,就是當(dāng)初洛克希德・馬丁公司(Lockheed Martin)為了研發(fā)諸多先進(jìn)飛行器專門成立的一個高度機(jī)密、相對獨(dú)立的小團(tuán)隊(duì),從事尖端或非常規(guī)的技術(shù)研究與開發(fā)。從 U-2 偵察機(jī)、SR-71 黑鳥,到 F-22 猛禽、F-35 閃電 II 戰(zhàn)斗機(jī)都是從這里走出來的。

后來,這個詞逐漸演變成一個通用術(shù)語,用來形容在大公司或組織內(nèi)部設(shè)立的‘小而精’、相對獨(dú)立且自由度更高的創(chuàng)新團(tuán)隊(duì)。

他給出的理由有兩個:

一方面是 DeepSeek 擁有大量的 GPU,據(jù)稱有超過一萬塊,而 Scale AI 的 CEO Alexandr Wang 甚至表示可能達(dá)到 5 萬塊。

另一方面,DeepSeek 只從中國排名前三的大學(xué)招聘人才,這意味著 DeepSeek 與阿里巴巴和騰訊具有同等的競爭力。

僅憑這兩個事實(shí),就可以看出,顯然 DeepSeek 在商業(yè)上取得了成功,并且已經(jīng)足夠知名,能夠獲得這些資源。

至于 DeepSeek 的開發(fā)成本,該博主表示,中國科技公司可以獲得各種各樣的補(bǔ)貼,比如低用電成本和用地。

因此,DeepSeek 非常有可能大部分成本都被‘安置’在核心業(yè)務(wù)之外的某個賬目上,或者以某種數(shù)據(jù)中心建設(shè)補(bǔ)貼的形式存在。甚至除了創(chuàng)始人之外,沒人完全清楚所有財(cái)務(wù)安排。有些協(xié)議可能只是‘口頭協(xié)定’,只靠聲譽(yù)就能敲定。

不管怎樣,有幾點(diǎn)是明確的:

這個模型非常出色,與 OpenAI 兩個月前發(fā)布的版本相當(dāng),當(dāng)然也有可能不如 OpenAI 和 Anthropic 尚未發(fā)布的新模型。

從目前來看,研究方向仍主要由美國公司主導(dǎo),DeepSeek 模型屬于對 o1 版本的‘快速跟進(jìn)’,但 DeepSeek 的研發(fā)進(jìn)度非常迅猛,比預(yù)期更快地迎頭趕上,他們并沒有抄襲或作弊,最多只是逆向工程。

DeepSeek 主要是在培養(yǎng)自己的人才,而不是依賴美國培養(yǎng)的博士,這大大擴(kuò)展了人才庫。

與美國公司相比,DeepSeek 在知識產(chǎn)權(quán)許可、隱私、安全、政治等方面受到的約束較少,圍繞錯誤地使用那些不想被訓(xùn)練的數(shù)據(jù)的擔(dān)憂也較少。訴訟更少,律師更少,也更少顧慮。

毫無疑問,越來越多的人認(rèn)為 2025 年將會是決定性的一年。與此同時各家公司都在摩拳擦掌,比如 Meta 就正在建立一個 2GW+ 的數(shù)據(jù)中心,預(yù)計(jì)在 2025 年投資 600-650 億美元,年底擁有超過 130 萬塊 GPU。

Meta 甚至用一張圖表展示了 2 千兆瓦數(shù)據(jù)中心與紐約曼哈頓的對比。

但現(xiàn)在 DeepSeek 用更低的成本,更少的 GPU 做到了更好,怎能不讓人焦慮?

Yann LeCun:要感謝開源

Hyperbolic 的 CTO、聯(lián)合創(chuàng)始人 Yuchen Jin 發(fā)帖表示,在僅 4 天時間里,DeepSeek-R1 向我們證明了 4 個事實(shí):

開源 AI 僅落后于閉源 AI 不到 6 個月

中國正在主導(dǎo)開源 AI 競賽

我們正進(jìn)入大語言模型強(qiáng)化學(xué)習(xí)的黃金時代

蒸餾模型非常強(qiáng)大,我們將在手機(jī)上運(yùn)行高智能 AI

由 DeepSeek 引發(fā)的連鎖反應(yīng)仍在繼續(xù),比如 OpenAI o3-mini 免費(fèi)可用、社區(qū)中希望能減少關(guān)于 AGI/ASI 的模糊討論以及傳聞 Meta 陷入恐慌等。

他認(rèn)為,現(xiàn)在很難預(yù)測最終誰會獲勝,但不要忘記后發(fā)優(yōu)勢的力量,畢竟我們都知道是 Google 發(fā)明了 Transformer,而 OpenAI 解鎖了其真正潛力。

此外,圖靈獎得主、Meta 首席人工智能科學(xué)家 Yann LeCun 也表達(dá)了自己的看法。

‘對于那些看到 DeepSeek 的性能就認(rèn)為“中國正在超越美國的 AI”的人,你理解錯了。正確的理解是:開源模型正在超越專有模型!

LeCun 表示,DeepSeek 之所以這次一鳴驚人,是因?yàn)樗麄儚拈_放研究和開源(如 Meta 的 PyTorch 和 Llama)中獲益。DeepSeek 提出了新想法,并在他人工作的基礎(chǔ)上構(gòu)建。因?yàn)樗麄兊墓ぷ魇枪_發(fā)布和開源的,每個人都可以從中受益,這就是開放研究和開源的力量。

網(wǎng)友們的反思還在繼續(xù),在對于新技術(shù)發(fā)展興奮的同時,也能感受到一點(diǎn)點(diǎn)憂慮的氣氛,畢竟 DeepSeek 們的出現(xiàn),可能會帶來真金白銀的影響。

參考內(nèi)容:

https://x.com/ivanfioravanti/status/1881969391547683031

https://x.com/Aadhithya_D2003/status/1882105009548222953

https://x.com/8teAPi/status/1882836551866204656

https://x.com/Yuchenj_UW/status/1882840436974428362

https://x.com/ylecun/status/1882943244679709130

https://venturebeat.com/ai/tech-leaders-respond-to-the-rapid-rise-of-deepseek/

編 輯:路金娣
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載,請必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問題,請?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權(quán)。
相關(guān)新聞              
 
人物
中國信通院湯立波:“5G+工業(yè)互聯(lián)網(wǎng)”已進(jìn)入規(guī);l(fā)展新階段
精彩專題
2024通信業(yè)年終盤點(diǎn)
2024數(shù)字科技生態(tài)大會
2024年度中國光電纜優(yōu)質(zhì)供應(yīng)商評選活動
2024全球6G發(fā)展大會
CCTIME推薦
關(guān)于我們 | 廣告報價 | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證080234號 京公網(wǎng)安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像