隨著人工智能的快速發(fā)展,能夠給機(jī)器人帶來顛覆性改變的具身智能被寄予厚望。
具身智能是基于物理身體(智能體)進(jìn)行感知和行動的智能系統(tǒng),通過智能體與環(huán)境的交互獲取信息、理解問題、做出決策并實(shí)現(xiàn)行動,從而產(chǎn)生智能行為與適應(yīng)性。具身智能與人工智能的發(fā)展息息相關(guān),IDC認(rèn)為,具身智能是將人工智能融入各類物理本體形成的智能系統(tǒng)。
全球范圍內(nèi),具身智能被視為一條極具空間和高成長性的藍(lán)海賽道。目前,小鵬、特斯拉等新能源車企,智元機(jī)器人、銀河通用、星動紀(jì)元、宇數(shù)科技、傅利葉等國內(nèi)初創(chuàng)企業(yè)在具身智能機(jī)器人領(lǐng)域已取得顯著成果,華為、阿里、美團(tuán)、百度等互聯(lián)網(wǎng)大廠也紛紛入局,具身智能已成為產(chǎn)業(yè)鏈公司明確的發(fā)力方向。
具身智能三大功能:感知與交互、自決策、自學(xué)習(xí)
目前在智能工廠所應(yīng)用的機(jī)器人,更多是在完成一些自動化任務(wù)。比如,機(jī)械臂需要部署在特定的環(huán)境,完成一個(gè)任務(wù)時(shí),其實(shí)是在執(zhí)行自動化工程師寫好的代碼并進(jìn)行調(diào)校后的指令,是在完成一些規(guī)則的、固定的行動路線,比如抓舉等操作,可能會輔以計(jì)算機(jī)視覺等技術(shù),但始終是“換湯不換藥”。而具身智能有別于此,具備感知與交互、自決策、自學(xué)習(xí)三大功能。
東土科技人工智能研究院院長祝一蒙告訴第一財(cái)經(jīng),“在大模型問世后,我們現(xiàn)在做的具身智能是通過一個(gè)大語言模型去解析用戶的自然語言命令,再通過一個(gè)視覺語言模型去觀察機(jī)器人周圍的環(huán)境,通過這兩個(gè)模型直接把用戶的自然語言命令轉(zhuǎn)化成機(jī)器人要執(zhí)行的動作。”
這就涉及到具身智能的感知與交互功能。具身交互指的是智能體在物理或模擬空間中與人類和環(huán)境進(jìn)行交互,需要具有主動的認(rèn)知、語言理解能力、目標(biāo)驅(qū)動的探索、常識推理并將自然語言的信息整合到動作序列中,大語言模型在其中起到關(guān)鍵作用。
具有感知能力的智能體必須在物理世界中移動并與環(huán)境互動,這就需要對三維空間和動態(tài)環(huán)境更加了解。與僅僅識別圖像中的物體不同,業(yè)內(nèi)認(rèn)為,未來具身感知的主要發(fā)展方向是以智能體為中心的視覺推理,上述“視覺語言模型”也為此類。
“比如我和機(jī)器人說一句‘把這杯水放到手機(jī)的左邊’,以前需要自動化工程師拿一個(gè)示教器去告訴這個(gè)機(jī)器人把這杯水放過去要經(jīng)歷哪些路徑點(diǎn),每走到一個(gè)路徑點(diǎn)時(shí)要用什么樣的速度和加速度,包括每個(gè)關(guān)節(jié)用什么樣的力矩,然后走過去。但是現(xiàn)在我們可以通過自然語言直接告訴他任務(wù),后面的路徑規(guī)劃和運(yùn)動控制,都交給大模型去自動完成。”祝一蒙對第一財(cái)經(jīng)解釋稱,這就是具身智能的自決策。
具身智能機(jī)器人企業(yè)中科光電創(chuàng)始人、董事長吳易明對第一財(cái)經(jīng)表示,在具身智能下,大腦基于眼睛感知能力,指揮機(jī)械手做不同工件,不是識別工件(標(biāo)記信息)后根據(jù)人為不同工件設(shè)定好的不同工件的程序執(zhí)行任務(wù),而是有眼睛感知到工件后,基于自主理解的任務(wù)要求,智能分析工件的結(jié)構(gòu),各要素空間關(guān)系,再自主生成工藝、動作和各種運(yùn)動參數(shù),甚至進(jìn)行交互和迭代,實(shí)現(xiàn)自主作業(yè)。“這樣的機(jī)器人就類似于一個(gè)熟練工,拿到了工件的圖紙,知曉任務(wù)目標(biāo)就能干了!
最初這個(gè)熟練工僅具備兩年經(jīng)驗(yàn),而在工廠應(yīng)用兩年后,通過大模型的自學(xué)習(xí)能力,具身智能機(jī)器人能夠成長為一個(gè)四年甚至更長經(jīng)驗(yàn)的工程師。這就是具身智能的自學(xué)習(xí)特點(diǎn)。
人形機(jī)器人是具身智能終極方案之一,工業(yè)場景或率先落地
人形機(jī)器人被認(rèn)為是具身智能的絕佳載體。
2024年一批人形機(jī)器人進(jìn)入商用測試階段,目前科研教育場景是人形機(jī)器人的主要應(yīng)用場景。IDC預(yù)計(jì),2025年人形機(jī)器人將在商用服務(wù)、特種作業(yè)領(lǐng)域從事運(yùn)動速度、節(jié)拍要求較低的生產(chǎn)服務(wù)任務(wù),預(yù)計(jì)將實(shí)現(xiàn)千臺量級的小規(guī)模商用。
“人形機(jī)器人是機(jī)器人+端側(cè)AI非常好的應(yīng)用,也是建立物理世界和大模型連接橋梁的比較好的載體,它是個(gè)很優(yōu)的終極方案之一,但不是最終極的方案!蹦尘呱碇悄軝C(jī)器人初創(chuàng)企業(yè)聯(lián)合創(chuàng)始人對第一財(cái)經(jīng)表示,“就像人的很多運(yùn)動特性和感知能力不如部分動物,人形機(jī)器人是目前所處物理環(huán)境的一個(gè)友好方案之一。”
事實(shí)上,具身智能并不局限于人形或機(jī)械臂等,而是可以根據(jù)具體應(yīng)用場景來選擇合適的物理形態(tài)。任何能夠在物理空間環(huán)境中行動并形成互動的機(jī)器人,如協(xié)作機(jī)器人、移動機(jī)器人、商用服務(wù)機(jī)器人等,通過融合人工智能技術(shù)、軟件產(chǎn)品,都有望發(fā)展成為具身智能機(jī)器人。也就是說,具身智能機(jī)器人的關(guān)鍵在于具身智能的底層技術(shù),而非機(jī)器人的物理形狀。
“具身智能機(jī)器人能夠像人一樣自主使用傳統(tǒng)工具,比如你要砸釘子,我就可以找到榔頭,我能認(rèn)識榔頭,像人一樣抓榔頭去砸釘子。能夠像人一樣使用傳統(tǒng)工具,所以就能夠操控機(jī)床等其他設(shè)備,這就是整個(gè)機(jī)器人的適用范圍,把它做成人的樣子,它就是個(gè)人形機(jī)器人!眳且酌鞅硎尽
業(yè)內(nèi)認(rèn)為,工業(yè)領(lǐng)域或是具身智能機(jī)器人率先應(yīng)用落地的場景。
前小鵬機(jī)器人產(chǎn)品設(shè)計(jì)負(fù)責(zé)人孫兆治此前表示,產(chǎn)線或者工業(yè)環(huán)境相對來說能夠做到結(jié)構(gòu)化或者半結(jié)構(gòu)化,而討論較多的養(yǎng)老環(huán)境或家務(wù)環(huán)境其實(shí)是一個(gè)非結(jié)構(gòu)化的環(huán)境,它的corner case會非常多,技術(shù)成熟到應(yīng)對這些場景之前,可以優(yōu)先落地到半結(jié)構(gòu)化場景或者結(jié)構(gòu)化場景,相對來說在產(chǎn)線上或者工業(yè)應(yīng)用相對可控一些。
上述具身智能機(jī)器人初創(chuàng)企業(yè)聯(lián)合創(chuàng)始人也有類似觀點(diǎn)。“工業(yè)和有限范圍、有邊界條件、非開放型的場景會率先應(yīng)用。工業(yè)應(yīng)用場景的每個(gè)節(jié)拍都很清晰,在訓(xùn)練過程中能夠有的放矢地進(jìn)行原子動作,以及建立基于不同垂類領(lǐng)域的原子動作體系。預(yù)計(jì)2025-2026年,在一些簡單場景,包括搬運(yùn)、分揀等,具身智能機(jī)器人都能夠做一些事情。而對服務(wù)娛樂領(lǐng)域這種高泛化性的人機(jī)交互場景,需要機(jī)器人八面玲瓏,對它的算法要求也更高,這種情況的應(yīng)用可能會更晚一些。”
具身智能發(fā)展面臨多維度挑戰(zhàn)
具身智能機(jī)器人產(chǎn)業(yè)鏈主要包括硬件、算法與模型、數(shù)據(jù)、算力等方面,其性能表現(xiàn)高度依賴于軟件與硬件的全方位進(jìn)化。作為新興技術(shù),具身智能的發(fā)展也面臨著多維度挑戰(zhàn)。
硬件是一切的基礎(chǔ)。具身智能產(chǎn)業(yè)鏈需要穩(wěn)定供給的高性能硬件,否則無法根據(jù)算法和數(shù)據(jù)進(jìn)行硬件的快速優(yōu)化和修改!坝布矫,關(guān)節(jié)、本體領(lǐng)域國內(nèi)做得還是不錯(cuò)的。我們的部分產(chǎn)品可能在某些性能上與國外存在差距,但現(xiàn)有的工業(yè)機(jī)器人、協(xié)作機(jī)器人等都奠定了硬件基礎(chǔ)!鄙鲜雎(lián)合創(chuàng)始人表示。
算法方面,該人士認(rèn)為,國內(nèi)外起跑線差不了太多;端側(cè)算力領(lǐng)域,華為等很多企業(yè)正在奮力追趕。
數(shù)據(jù)也是困難的環(huán)節(jié)之一。機(jī)器人與物理世界的感知與交互,所需要積累應(yīng)用的數(shù)據(jù)也多源于物理世界,高質(zhì)量的數(shù)據(jù)是訓(xùn)練高性能具身智能機(jī)器人的基礎(chǔ)。
以工業(yè)領(lǐng)域?yàn)槔,工業(yè)環(huán)境復(fù)雜,數(shù)據(jù)難以積累與有效打通,給AI在工業(yè)領(lǐng)域的滲透帶來了阻力!癆I需要行業(yè)數(shù)據(jù)的訓(xùn)練,以對行業(yè)和領(lǐng)域加深了解。但工業(yè)數(shù)據(jù)的采集比較困難,目前任何一個(gè)行業(yè)都沒有相對規(guī)范的標(biāo)準(zhǔn),同時(shí)數(shù)據(jù)采集過程中也經(jīng)常會有‘噪音’,數(shù)據(jù)的有效性難以保證,這也給AI實(shí)際應(yīng)用效果打了折扣。此外,工業(yè)領(lǐng)域往往會涉及更多數(shù)據(jù)安全相關(guān)問題,這也給AI應(yīng)用在工業(yè)領(lǐng)域帶來了困難!弊R幻筛嬖V第一財(cái)經(jīng)。
目前,行業(yè)正在通過聯(lián)盟、跨界合作與建設(shè)開源數(shù)據(jù)集等方式,共同構(gòu)建高質(zhì)量、大規(guī)模的具身智能數(shù)據(jù)集,解決數(shù)據(jù)稀疏和碎片化的問題,同時(shí)促進(jìn)降低研發(fā)成本,加速技術(shù)迭代,促進(jìn)生態(tài)繁榮。
從投資角度看,頭部人形機(jī)器人的本體研發(fā)集成廠商已經(jīng)經(jīng)歷多輪融資,估值較高,行業(yè)整體投資熱點(diǎn)正從人形機(jī)器人本體向具身智能模型和其它上游零部件遷移?傮w而言,具身智能賽道有望繼續(xù)成為市場投資熱點(diǎn),第一財(cái)經(jīng)也將持續(xù)保持關(guān)注。