每日微信報
人物專訪監(jiān)管
制造芯片
6G 運營
大數(shù)據(jù)物聯(lián)網(wǎng)
移動互聯(lián)網(wǎng)量子
云計算互聯(lián)網(wǎng)
報告衛(wèi)星

我國大模型成果首次登上《自然》正刊

2026年1月30日 10:30北青網(wǎng)-北京青年報作者：雷嘉

近日，北京智源人工智能研究院的多模態(tài)大模型成果“通過預(yù)測下一個詞元進(jìn)行多模態(tài)學(xué)習(xí)的多模態(tài)大模型”上線國際頂級學(xué)術(shù)期刊《自然》，預(yù)計2月12日紙質(zhì)版正式刊發(fā)，這是我國科研機(jī)構(gòu)主導(dǎo)的大模型成果首次在《自然》正刊發(fā)表。

2018年以來，GPT采用“預(yù)測下一個詞元（NTP）”的自回歸路線，實現(xiàn)了語言大模型重大突破，開啟了生成式人工智能浪潮。而多模態(tài)模型主要依賴對比學(xué)習(xí)、擴(kuò)散模型等專門路線，自回歸路線是否可以作為通用路線統(tǒng)一多模態(tài)？一直是未解之謎。

智源研究院提出的Emu3模型，基于“預(yù)測下一個詞元”的全新多模態(tài)模型，將圖像、文本和視頻統(tǒng)一離散化到同一個表示空間中，并從零開始，在多模態(tài)序列混合數(shù)據(jù)上聯(lián)合訓(xùn)練一個單一的Transformer。這一架構(gòu)證明了僅憑“預(yù)測下一個詞元”，就能夠同時支持高水平的生成能力與理解能力，并且在同一統(tǒng)一架構(gòu)下，自然地擴(kuò)展到機(jī)器人操作以及多模態(tài)交錯等生成任務(wù)。

實驗顯示，Emu3在生成與感知任務(wù)上的整體表現(xiàn)可與多種成熟的任務(wù)專用模型相媲美：在文生圖任務(wù)中，其效果達(dá)到擴(kuò)散模型水平；在視覺語言理解方面，可以與融合CLIP和大語言模型的主流方案比肩。此外，Emu3還具備視頻生成能力。不同于以噪聲為起點的擴(kuò)散式視頻生成模型，Emu3通過自回歸方式逐詞元（token）預(yù)測視頻序列，實現(xiàn)基于因果的視頻生成與延展，展現(xiàn)出對物理世界中環(huán)境、人類與動物行為的初步模擬能力。

這項成果表明，只采用自回歸路線，就可以統(tǒng)一多模態(tài)學(xué)習(xí)，訓(xùn)練出優(yōu)秀的原生多模態(tài)大模型，對于確立自回歸成為生成式人工智能統(tǒng)一路線具有重大意義。值得一提的是，智源研究團(tuán)隊對相關(guān)研究的多項關(guān)鍵技術(shù)與模型進(jìn)行了開源，以推動該方向的持續(xù)研究。

《自然》編輯點評這項研究：Emu3僅基于預(yù)測下一個詞元，實現(xiàn)了大規(guī)模文本、圖像和視頻的統(tǒng)一學(xué)習(xí)，其在生成與感知任務(wù)上的性能可與使用專門路線相當(dāng)，這一成果對構(gòu)建可擴(kuò)展、統(tǒng)一的多模態(tài)智能系統(tǒng)具有重要意義。

編輯：章芳

飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容，凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有，未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像，違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載，請必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性，并完整標(biāo)注作者信息和飛象網(wǎng)來源。
2.凡注明“來源：XXXX”的作品，均轉(zhuǎn)載自其它媒體，在于傳播更多行業(yè)信息，并不代表本網(wǎng)贊同其觀點和對其真實性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問題，請在相關(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系，我們將第一時間予以處理。
本站聯(lián)系電話為86-010-87765777，郵件后綴為cctime.com，冒充本站員工以任何其他聯(lián)系方式，進(jìn)行的“內(nèi)容核實”、“商務(wù)聯(lián)系”等行為，均不能代表本站。本站擁有對此聲明的最終解釋權(quán)。