必讀視頻專題飛象趣談光通信人工智能低空經(jīng)濟5G手機智能汽車智慧城市會展特約記者

我國大模型成果首次登上《自然》正刊

2026年1月30日 10:30北青網(wǎng)-北京青年報作 者:雷嘉

近日,北京智源人工智能研究院的多模態(tài)大模型成果“通過預(yù)測下一個詞元進行多模態(tài)學(xué)習(xí)的多模態(tài)大模型”上線國際頂級學(xué)術(shù)期刊《自然》,預(yù)計2月12日紙質(zhì)版正式刊發(fā),這是我國科研機構(gòu)主導(dǎo)的大模型成果首次在《自然》正刊發(fā)表。

2018年以來,GPT采用“預(yù)測下一個詞元(NTP)”的自回歸路線,實現(xiàn)了語言大模型重大突破,開啟了生成式人工智能浪潮。而多模態(tài)模型主要依賴對比學(xué)習(xí)、擴散模型等專門路線,自回歸路線是否可以作為通用路線統(tǒng)一多模態(tài)?一直是未解之謎。

智源研究院提出的Emu3模型,基于“預(yù)測下一個詞元”的全新多模態(tài)模型,將圖像、文本和視頻統(tǒng)一離散化到同一個表示空間中,并從零開始,在多模態(tài)序列混合數(shù)據(jù)上聯(lián)合訓(xùn)練一個單一的Transformer。這一架構(gòu)證明了僅憑“預(yù)測下一個詞元”,就能夠同時支持高水平的生成能力與理解能力,并且在同一統(tǒng)一架構(gòu)下,自然地擴展到機器人操作以及多模態(tài)交錯等生成任務(wù)。

實驗顯示,Emu3在生成與感知任務(wù)上的整體表現(xiàn)可與多種成熟的任務(wù)專用模型相媲美:在文生圖任務(wù)中,其效果達到擴散模型水平;在視覺語言理解方面,可以與融合CLIP和大語言模型的主流方案比肩。此外,Emu3還具備視頻生成能力。不同于以噪聲為起點的擴散式視頻生成模型,Emu3通過自回歸方式逐詞元(token)預(yù)測視頻序列,實現(xiàn)基于因果的視頻生成與延展,展現(xiàn)出對物理世界中環(huán)境、人類與動物行為的初步模擬能力。

這項成果表明,只采用自回歸路線,就可以統(tǒng)一多模態(tài)學(xué)習(xí),訓(xùn)練出優(yōu)秀的原生多模態(tài)大模型,對于確立自回歸成為生成式人工智能統(tǒng)一路線具有重大意義。值得一提的是,智源研究團隊對相關(guān)研究的多項關(guān)鍵技術(shù)與模型進行了開源,以推動該方向的持續(xù)研究。

《自然》編輯點評這項研究:Emu3僅基于預(yù)測下一個詞元,實現(xiàn)了大規(guī)模文本、圖像和視頻的統(tǒng)一學(xué)習(xí),其在生成與感知任務(wù)上的性能可與使用專門路線相當,這一成果對構(gòu)建可擴展、統(tǒng)一的多模態(tài)智能系統(tǒng)具有重要意義。

編 輯:章芳
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載,請必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點和對其真實性負責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問題,請在相關(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進行的“內(nèi)容核實”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權(quán)。
推薦閱讀

精彩視頻

精彩專題

關(guān)于我們廣告報價聯(lián)系我們隱私聲明本站地圖

CCTIME飛象網(wǎng) CopyRight © 2007-2025 By CCTIME.COM

京ICP備08004280號-1 電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證080234號 京公網(wǎng)安備110105000771號

公司名稱: 北京飛象互動文化傳媒有限公司

未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像