飛象原創(chuàng)(孫迎新/文)猝不及防而又美不勝收,這或許是AI在過去一年里給大多數(shù)人留下的最直觀感受。同時(shí)我們也覺察到,世界像是被某種未知卻又充滿宿命感的代碼所驅(qū)動(dòng),在這百花齊放而又令人眼花繚亂的成果背后,運(yùn)轉(zhuǎn)著一種更深層的邏輯。
在2025年1月的CES(國際消費(fèi)電子展)上,英偉達(dá)創(chuàng)始人兼首席執(zhí)行官黃仁勛對AI技術(shù)的發(fā)展做出了高度的概括與展望。黃仁勛在詳細(xì)梳理了人工智能技術(shù)的進(jìn)化路徑之后,他得出的結(jié)論是,包括感知AI(Perception AI)、生成式AI(Generative AI)以及當(dāng)前火熱的代理型AI(Agentic AI),AI技術(shù)正在從理解圖像、文字和聲音的感知階段,逐步發(fā)展到能夠創(chuàng)造內(nèi)容的生成階段,最終將進(jìn)入能夠運(yùn)行、推理、計(jì)劃和行動(dòng)的物理AI階段。
不可否認(rèn)的是,在當(dāng)今數(shù)字化浪潮的推動(dòng)下,AI正以前所未有的速度改變著我們的生活、工作和社會(huì)結(jié)構(gòu)。可以預(yù)見在2025年,AI領(lǐng)域?qū)⒂瓉硪幌盗兄卮笸黄婆c改變,這些變革不僅源于技術(shù)的內(nèi)在演進(jìn),也受到社會(huì)需求、環(huán)境和經(jīng)濟(jì)轉(zhuǎn)型等外在因素的推動(dòng)。
AI變革之因與驅(qū)動(dòng)力:需求進(jìn)化
從目前來看,AI領(lǐng)域的技術(shù)突破主要體現(xiàn)在大模型和多模態(tài)技術(shù)的深度融合上。例如,生成式AI能夠處理文本、圖像、音頻和視頻等多種數(shù)據(jù)類型,極大地拓展了其應(yīng)用范圍。行業(yè)大模型的發(fā)展,如針對醫(yī)療、金融和教育等特定行業(yè)的定制化模型,顯著提升了產(chǎn)業(yè)數(shù)字化和決策效率。此外,具身智能(Embodied AI)的發(fā)展使AI具備類似人類的多感官和自主學(xué)習(xí)能力,進(jìn)一步推動(dòng)了AI與物理世界的交互。
而另一方面,大規(guī)模語言模型(LLM)和多模態(tài)大模型的突破,推動(dòng)了AI在推理能力、自然語言處理和跨模態(tài)理解上的顯著進(jìn)步。AI基礎(chǔ)設(shè)施的升級,包括算力的有效調(diào)度和高效協(xié)同運(yùn)行,為AI技術(shù)的進(jìn)一步發(fā)展提供了堅(jiān)實(shí)基礎(chǔ)。一個(gè)具體的例子就是,谷歌的TPU和英偉達(dá)的GPU等硬件技術(shù)的不斷進(jìn)步,為AI模型的訓(xùn)練和部署提供了強(qiáng)大的支持。
當(dāng)然,我們也注意到人工智能的基礎(chǔ)理論研究取得了重大進(jìn)展,部分技術(shù)與應(yīng)用達(dá)到了世界領(lǐng)先水平。在深度學(xué)習(xí)、自然語言處理和計(jì)算機(jī)視覺等領(lǐng)域不斷涌現(xiàn)新的研究成果。研究者們探索了新的算法優(yōu)化方法,如密度推斷,以應(yīng)對“規(guī)模定律”瓶頸,進(jìn)一步提升了AI模型的性能。
AI在應(yīng)用領(lǐng)域也有長足的發(fā)展。AI與量子計(jì)算、生物技術(shù)、綠色能源等領(lǐng)域的交叉融合,為AI技術(shù)的突破提供了新的可能性。例如,量子計(jì)算與AI的結(jié)合能夠加速數(shù)據(jù)處理,支持復(fù)雜系統(tǒng)模擬和藥物發(fā)現(xiàn)。此外,AI與科學(xué)的深度融合,如AlphaFold在蛋白質(zhì)結(jié)構(gòu)預(yù)測中的突破,為新藥物設(shè)計(jì)和治療方法的開發(fā)提供了支持。
除此之外,AI技術(shù)在醫(yī)療、金融、教育、法律等領(lǐng)域的廣泛應(yīng)用,推動(dòng)了行業(yè)大模型的發(fā)展,并促進(jìn)了數(shù)字化轉(zhuǎn)型。例如,在醫(yī)療領(lǐng)域,AI技術(shù)能夠幫助醫(yī)生分析報(bào)告、加速藥物發(fā)現(xiàn),并預(yù)測蛋白質(zhì)行為,從而推動(dòng)個(gè)性化醫(yī)療的發(fā)展。此外,隨著智能家居設(shè)備普及率的提高,AI技術(shù)被更廣泛地融入日常生活,進(jìn)一步推動(dòng)了AI在消費(fèi)領(lǐng)域的應(yīng)用。
生成式AI的商業(yè)化落地:推動(dòng)創(chuàng)意產(chǎn)業(yè)的變革
如果要問在2025年,AI行業(yè)最有可能實(shí)現(xiàn)應(yīng)用落地并取得成果的,那必然首推生成式AI。畢竟,在過去的一年里,我們已經(jīng)看到生成式AI在廣告、電影、教育等領(lǐng)域?qū)崿F(xiàn)廣泛應(yīng)用,并且這樣的應(yīng)用還在持續(xù)。生成式AI正在加速推動(dòng)創(chuàng)意產(chǎn)業(yè)的變革,在內(nèi)容創(chuàng)作領(lǐng)域,生成式AI能夠生成高質(zhì)量的圖像、視頻和文本,極大地提升了創(chuàng)作效率。據(jù)海通國際證券的研究,生成式AI在不同行業(yè)的應(yīng)用中,其附加值主要體現(xiàn)在提高產(chǎn)出效率和降低生產(chǎn)成本上。此外,生成式AI還將進(jìn)一步滲透到企業(yè)服務(wù)領(lǐng)域,通過與企業(yè)軟件的結(jié)合,實(shí)現(xiàn)智能化的業(yè)務(wù)流程優(yōu)化。
火山引擎、RollingAI和InfoQ研究中心聯(lián)合撰寫的《2024生成式AI商業(yè)落地白皮書》指出,生成式AI在零售、金融、汽車、醫(yī)藥、教育等多個(gè)領(lǐng)域展現(xiàn)了提升效率、降低成本和增強(qiáng)創(chuàng)新能力的潛力。然而,落地過程中仍面臨諸多挑戰(zhàn),如評估價(jià)值、選擇合適場景、構(gòu)建基礎(chǔ)設(shè)施等。華泰證券認(rèn)為,第四范式通過將生成式AI與企業(yè)軟件結(jié)合,促進(jìn)了AI的商業(yè)化落地,顯示出生成式AI在企業(yè)服務(wù)領(lǐng)域的應(yīng)用潛力。
此外,A16Z在其報(bào)告《A16Z#26:生成式AI的機(jī)遇與挑戰(zhàn)》中指出,盡管生成式AI在文本和圖像領(lǐng)域取得了顯著進(jìn)展,但其商業(yè)化仍面臨諸多挑戰(zhàn)。報(bào)告強(qiáng)調(diào)基礎(chǔ)設(shè)施供應(yīng)商可能是生成式AI市場最大的贏家。微軟通過Copilot等產(chǎn)品,展示了生成式AI在生產(chǎn)力工具中的應(yīng)用潛力,而OpenAI則通過多樣化商業(yè)模式(如訂閱收費(fèi))實(shí)現(xiàn)了技術(shù)的商業(yè)化。
多模態(tài)大模型的統(tǒng)一構(gòu)建:推動(dòng)人機(jī)交互的新高度
在2025年,多模態(tài)大模型將進(jìn)一步實(shí)現(xiàn)文本、視覺、音頻等數(shù)據(jù)的融合,推動(dòng)人機(jī)交互的新高度。我們知道,阿里巴巴達(dá)摩院發(fā)布的“通義千問”模型是國內(nèi)首個(gè)實(shí)現(xiàn)模態(tài)表示、任務(wù)表示和模型結(jié)構(gòu)統(tǒng)一的大模型。其采用Transformer Encoder-Decoder + ResNet結(jié)構(gòu),通過統(tǒng)一學(xué)習(xí)范式提升了效率,而這也是多模態(tài)大模型實(shí)現(xiàn)人機(jī)交互的一條必然路徑。此外,多模態(tài)大模型將在智能機(jī)器人、自動(dòng)駕駛、虛擬現(xiàn)實(shí)等領(lǐng)域?qū)崿F(xiàn)廣泛應(yīng)用,進(jìn)一步拓展AI的應(yīng)用邊界。
類似的觀點(diǎn)還有,中國科學(xué)院自動(dòng)化研究所紫東太初大模型研究中心常務(wù)副主任王金橋提出,全模態(tài)大模型的核心目標(biāo)是通過統(tǒng)一架構(gòu)完成多模態(tài)數(shù)據(jù)的感知、理解、生成和推理任務(wù),提供通用解決方案。北京科技大學(xué)王耀祖教授則強(qiáng)調(diào),多模態(tài)大模型應(yīng)實(shí)現(xiàn)模態(tài)間的無縫交互與信息融合,構(gòu)建一個(gè)統(tǒng)一的智能體系。
微軟研究團(tuán)隊(duì)總結(jié)了多模態(tài)大模型的七大研究主題,包括視覺理解、視覺生成、統(tǒng)一視覺模型、LLM加持的多模態(tài)模型等。他們指出,統(tǒng)一視覺模型的研究方向從靜態(tài)模型向可提示模型轉(zhuǎn)變,并強(qiáng)調(diào)指令微調(diào)的重要性。智源研究院發(fā)布的Emu3模型展示了原生多模態(tài)大模型的能力,能夠統(tǒng)一理解和生成視頻、圖像和文本,為未來多模態(tài)大模型的發(fā)展提供了技術(shù)前景。
具身智能的突破性進(jìn)展:機(jī)器人技術(shù)獲得廣泛應(yīng)用
我們將看到在2025年,具身智能的研究將取得顯著成果,推動(dòng)機(jī)器人技術(shù)在家庭、醫(yī)療和工業(yè)領(lǐng)域的廣泛應(yīng)用。例如在工業(yè)制造場景中,具身智能解決方案已應(yīng)用于自動(dòng)化裝配、焊接和搬運(yùn)等。此外,具身智能將在醫(yī)療護(hù)理機(jī)器人、城市管理等領(lǐng)域帶來革命性變化,進(jìn)一步提升人類生活的便利性和效率。
對于具身智能的發(fā)展,很多專家給予了足夠的信心。中國科學(xué)院院士喬紅指出,具身智能正從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用,未來將在醫(yī)療護(hù)理機(jī)器人、智能制造、城市管理等領(lǐng)域帶來革命性變化。北京工業(yè)大學(xué)張昌盛教授則認(rèn)為,當(dāng)前具身智能理論框架和算法僅能實(shí)現(xiàn)弱具身智能,需要從多學(xué)科交叉角度探索強(qiáng)具身智能。
斯坦福大學(xué)李飛飛教授認(rèn)為,具身智能需要具備與真實(shí)物理世界交互的能力,以完成各種任務(wù)。她強(qiáng)調(diào)具身智能不僅僅是處理信息的能力,還包括對周圍環(huán)境的整體需求。而伯克利大學(xué)的研究團(tuán)隊(duì)提出端到端架構(gòu)作為具身智能的主要技術(shù)路線,并通過Sim2Real數(shù)據(jù)集實(shí)現(xiàn)了業(yè)內(nèi)頂尖的靈巧手操作能力。
AI與自動(dòng)駕駛技術(shù)的商業(yè)化運(yùn)營:為智慧交通提供新動(dòng)力
毫無疑問,自動(dòng)駕駛是AI最能大顯身手的領(lǐng)域。在2025年,自動(dòng)駕駛汽車將在部分城市實(shí)現(xiàn)商業(yè)化運(yùn)營,為智慧交通提供新動(dòng)力。當(dāng)前,文遠(yuǎn)知行在新加坡啟動(dòng)了首個(gè)商業(yè)化運(yùn)營的自動(dòng)駕駛環(huán)衛(wèi)項(xiàng)目,標(biāo)志著自動(dòng)駕駛技術(shù)在特定場景下的商業(yè)化落地。此外,蘑菇車聯(lián)通過“單車智能+車路協(xié)同”的技術(shù)路線,實(shí)現(xiàn)了大規(guī)模商業(yè)化落地,并通過智慧城市建設(shè)形成技術(shù)與商業(yè)的雙閉環(huán),這樣的范例將在更多的城市得到復(fù)制與應(yīng)用。
武漢理工大學(xué)邱志軍教授認(rèn)為,人工智能在資本市場得到了認(rèn)可,但智能汽車的商業(yè)化落地仍需探索,尤其是需要構(gòu)建數(shù)據(jù)、規(guī)則和反饋的閉環(huán)系統(tǒng)。據(jù)T3出行CEO崔大勇預(yù)測,2027年將是自動(dòng)駕駛大規(guī)模商業(yè)化的拐點(diǎn)。他認(rèn)為,隨著AI大模型的普及和成本下降,自動(dòng)駕駛技術(shù)將逐步走向規(guī)模化應(yīng)用。
加州大學(xué)伯克利分校Dr. Allen Yang在伯克利機(jī)器人自動(dòng)駕駛平臺(tái)ROAR上分享了自動(dòng)駕駛技術(shù)的最新進(jìn)展,并提出了“AI賽車”這一前沿概念。他認(rèn)為,自動(dòng)駕駛技術(shù)在極限條件下的潛能無限。Waymo和Cruise在美國部分地區(qū)已經(jīng)實(shí)現(xiàn)了L4級別的Robotaxi商業(yè)化運(yùn)營,這些公司通過感知、預(yù)測和規(guī)劃算法的優(yōu)化,推動(dòng)了自動(dòng)駕駛技術(shù)的商業(yè)化。
AI與VR/AR技術(shù)的融合:提供更具創(chuàng)造性的沉浸式體驗(yàn)
在2025年,AI與VR/AR技術(shù)的結(jié)合將為用戶提供更具有創(chuàng)造性的沉浸式體驗(yàn),推動(dòng)娛樂、教育和工業(yè)設(shè)計(jì)等領(lǐng)域的發(fā)展。在醫(yī)療領(lǐng)域,AI驅(qū)動(dòng)的手術(shù)模擬器允許醫(yī)生在虛擬環(huán)境中練習(xí)復(fù)雜手術(shù),減少實(shí)際操作中的風(fēng)險(xiǎn)。在教育領(lǐng)域,VR/AR技術(shù)通過沉浸式學(xué)習(xí)環(huán)境提升了學(xué)生的學(xué)習(xí)體驗(yàn),AI可以根據(jù)學(xué)生的行為和偏好調(diào)整教學(xué)內(nèi)容,實(shí)現(xiàn)個(gè)性化教育。
對此,上?萍即髮W(xué)王蘊(yùn)輝教授指出,AI將在VR/AR的渲染、制作和交互方面發(fā)揮重要作用。例如,深度學(xué)習(xí)技術(shù)可以用于圖像渲染和內(nèi)容生成,而感知交互技術(shù)則結(jié)合了生理信號與虛擬現(xiàn)實(shí)的反饋機(jī)制,從而提升用戶體驗(yàn)。中國工程院院士趙沁平分析了中國VR/AR市場的現(xiàn)狀,并預(yù)測全球市場將在未來幾年內(nèi)達(dá)到1450億美元。
還有更多的研究者也聚焦于AI與VR/AR技術(shù)的融合。Absolut Solution創(chuàng)始人Andrey Boguslavskiy指出,AI與AR/VR的融合需要克服多種技術(shù)挑戰(zhàn),包括數(shù)據(jù)處理、實(shí)時(shí)性要求以及倫理問題。Mona M. Soli的研究聚焦于3D物體檢測技術(shù)在MR和VR中的應(yīng)用,并探討了AI如何通過行為分析和用戶偏好建模來提升用戶體驗(yàn)。Huang et al.在IEEE國際人工智能與虛擬現(xiàn)實(shí)國際會(huì)議上展示了多種創(chuàng)新應(yīng)用,包括基于軌跡預(yù)測的360度視頻渲染、可穿戴VR游戲控制器設(shè)計(jì)、虛擬犯罪現(xiàn)場模擬等。
人工智能五大突破與變革,重塑未來科技版圖
盡管對AI在2025年的發(fā)展,我們給不出一個(gè)詳細(xì)且準(zhǔn)確的路線圖與時(shí)間表,但有些感覺是一定的,并且隨著時(shí)間的推移會(huì)越來越顯著而深切。
AI不再是工具,而是人類智慧的延伸。AI技術(shù)的發(fā)展正逐漸模糊人與機(jī)器之間的界限,未來AI將成為人類不可或缺的伙伴,共同探索未知領(lǐng)域。
AI將開啟一個(gè)全新的智能紀(jì)元。2025年也許會(huì)被視為AI技術(shù)的一道分水嶺,讓人期待而又恐懼的通用人工智能時(shí)代或?qū)⒌絹,而這一突破將深刻改變?nèi)祟惖纳罘绞胶蜕鐣?huì)結(jié)構(gòu)。
無論如何,AI將像空氣一樣無處不在。