飛象原創(chuàng)(魏德齡/文)時至2025年,當生成式AI已經(jīng)爆發(fā)兩年有余,本地AI模型的部署本已不是什么新鮮事。但隨著Deepseek R1的發(fā)布,除了線上被擠爆的服務器外,短短一周左右時間,論壇、博客、視頻站點上涌現(xiàn)出的各種新蒸餾模型與部署教程,吸引著很多普通用戶將一個容量僅幾個G的3B-13B不等參數(shù)量的小模型部署到本地設備中,成為在PC或手機中的新助手。
本地AI模型部署所呈現(xiàn)的“用腳投票”現(xiàn)象,背后則是硬實力的呈現(xiàn)。
蒸餾模型涌現(xiàn)的背后硬實力
蒸餾模型的涌現(xiàn)與小模型的實用性大大提升有關,很多部署教程中,還會向觀眾進行相關功能實用性的驗證,例如文檔的閱讀總結(jié)、簡單編程、圖文內(nèi)容的分析等,來證明端側(cè)AI模型部署已經(jīng)不僅僅是極客們一時興起的玩物。
高通技術公司高級副總裁兼技術規(guī)劃和邊緣解決方案業(yè)務總經(jīng)理馬德嘉給出的這張PPT,做出了一個很好的例證,使用DeepSeek蒸餾后的Qwen-7B模型,已經(jīng)能夠在性能上與去年所推出的且當時最為先進的GPT-4o云端模型持平。但兩個模型的參數(shù)規(guī)模卻相差甚多。另對比蒸餾后的Llama 700億模型在推理、編程、數(shù)學、數(shù)據(jù)分析等方面表現(xiàn)來看,同樣已經(jīng)超越了原始模型,只在語言理解和指令遵循方面有待進一步優(yōu)化。
根據(jù)《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》論文中的觀點顯示,通過蒸餾技術能夠使小模型也擁有大模型的推理能力,并且既高效又經(jīng)濟。實驗結(jié)果表明,蒸餾后的小模型在多個基準測試中表現(xiàn)出色。DeepSeek-R1-Distill-Qwen-7B在AIME 2024基準測試中取得了55.5%的成績,超越了QwQ-32B-Preview。DeepSeek-R1-Distill-Qwen-32B同樣在多個測試中表現(xiàn)優(yōu)異,AIME 2024、MATH-500、LiveCodeBench的測試結(jié)果超越了以往開源模型,與OpenAI o1-mini相當。
蒸餾技術能夠讓大模型“教學”小模型,保持準確性的同時遷移知識,在這一老師教授學生的過程中,起到了所謂“聽君一席話,勝讀十年書”的效果,從而讓小模型實現(xiàn)更多全新的功能與性能。對于開發(fā)者而言,如今在非常多高質(zhì)量的小模型和蒸餾技術的加持下,將大大推動AI模型數(shù)量的激增,實現(xiàn)更多AI商業(yè)應用的規(guī);瘮U展。尤其是在終端側(cè),目前大有“當機會來臨,已經(jīng)準備好了”的態(tài)勢。
端側(cè)AI準備好了
在終端本地能否運行小模型,并保證流暢體驗,要看當前的硬件能否滿足要求。相比正在彌補短板的iOS來說,Android陣營無疑走在了前列。例如,早在MWC24期間,高通就展示了全球首個在Android智能手機上運行的大型多模態(tài)語言模型,該LMM擁有超過70億參數(shù),可接受包括文本和圖像在內(nèi)的多種類型的數(shù)據(jù)輸入,并能夠與AI助手生成關于圖像的多輪對話。
“對于高通來講,我們預判了終端側(cè)模型的爆發(fā),同時也推動了邊緣AI推理在跨終端設備上的落地!瘪R德嘉表示。
根據(jù)最新發(fā)布的《AI變革正在推動終端側(cè)推理創(chuàng)新》白皮書中寫到,高通的SoC能夠直接在終端側(cè)提供高性能、高能效的AI推理。通過緊密集成這些核心組件,高通技術公司的平臺可在保持電池續(xù)航和整體能效表現(xiàn)的同時處理復雜AI任務,這對邊緣側(cè)用例至關重要。
高通還在去年MWC24期間推出了AI Hub,能夠幫助開發(fā)者選擇相應平臺和開發(fā)模型、編寫應用,最后在不同類型的移動終端上進行部署,目前已有超過1500家企業(yè)在使用,其中包括海量的模型廠商,比如Meta、Allam、OpenAI、Tech Mahindra、IBM、Mistral、G42等。據(jù)馬德嘉介紹,現(xiàn)在AI Hub不僅提供已有的模型,還能允許開發(fā)者將自己的模型引入其中,或直接通過AI Hub用數(shù)據(jù)來搭建模型,并在云端設備中實時運行。
由于以手機、筆記本為代表的移動設備一般不會標配超大的RAM,能否滿足端側(cè)AI運行所需也成了關注的問題。而蒸餾技術已經(jīng)讓模型的參數(shù)規(guī)模已經(jīng)不再是衡量模型質(zhì)量的重要指標,進而降低了端側(cè)RAM的壓力。
“我認為隨著模型規(guī)模不斷地下降,日后10-20億參數(shù)規(guī)模的模型將會占用更少的運行內(nèi)存,更好地適配8-12GB內(nèi)存設置的終端!瘪R德嘉在回答上述問題時表示,現(xiàn)在旗艦智能手機運行內(nèi)存配置一般在12GB或以上,已經(jīng)足夠支持很多模型的高效運行。同時,高通在處理模型終端側(cè)運行的內(nèi)存方面也有著豐富的技術經(jīng)驗。
以正在舉行的MWC25現(xiàn)場的高通展臺為例,iQOO、努比亞、OPPO、榮耀、小米和一加等中國生態(tài)伙伴,均帶來了基于驍龍平臺的終端側(cè)生成式AI和智能體AI的最新應用成果。三星也在Galaxy S25 Ultra上展示谷歌全新AI助手Gemini。
《AI變革正在推動終端側(cè)推理創(chuàng)新》白皮書顯示,不僅僅是手機,高通正在擴展終端側(cè)AI覆蓋所有關鍵邊緣細分領域,還包括PC、汽車、工業(yè)物聯(lián)網(wǎng)、網(wǎng)絡,賦能眾多行業(yè)、釋放商業(yè)價值并支持全新用戶體驗。
在這一過程中,AI將不僅僅是用戶本地的一個能夠快速響應又保證隱私安全的助手,更將帶來新一輪的交互變革。
AI是新的UI
“隨著終端側(cè)可以運行越來越多高質(zhì)量的AI模型,越來越多的AI應用和用例開始涌現(xiàn)。AI正在重新定義所有終端的用戶界面,這也意味著,AI正在成為終端側(cè)新的UI。”馬德嘉專門強調(diào)了這一論點。
回首過往,智能手機的每一次重要迭代所伴隨的也是交互方式的變革,從能發(fā)電子郵件的全鍵盤手機,再到能夠?qū)崿F(xiàn)移動計算的電容屏手機,當業(yè)界開始思考智能手機的下一步將走向何方,AI恰恰給予了改變手機交互方式的全新契機。
《AI變革正在推動終端側(cè)推理創(chuàng)新》白皮書表示,智能體AI(Agentic AI)是下一代用戶交互的核心。AI系統(tǒng)能夠通過預測用戶需求,并在終端和應用內(nèi)主動執(zhí)行復雜工作流,進行決策和管理任務。
屆時,用戶輸入進手機的語音和音頻、文本、圖像、視頻和傳感器等數(shù)據(jù),將不直接應用于某個具體的應用,而是先傳輸至智能體AI。智能體AI在接收到這些信息后,會對其進行相應的處理,之后再將工作負載分配給后臺的不同應用。在這背后,智能體AI要做的就是從終端側(cè)豐富的模型中選擇所需的模型完成任務。
“也就是說,所有這些處理任務都是由AI智能體直接完成的,應用只會在后臺運行,用戶是看不到的!瘪R德嘉表示,對于終端用戶來講,AI智能體就是唯一在前端與他們交互的UI,而所有實際應用的處理都是在后臺完成的。最終個性化的多模態(tài)AI智能體將通過自然語言和基于圖像、視頻與手勢的交互簡化人們使用技術的方式,高效地跨越各種應用完成任務。
Deepseek蒸餾模型涌現(xiàn)的背后是終端側(cè)AI所迎來的全新機遇,使用戶在本地也能獲得媲美甚至超越云端的生成式AI能力,這種能力還正逐步演變?yōu)槿碌慕换シ绞剑層脩裟軌蚋幼匀坏嘏c設備溝通,引領智能終端邁向下一場變革。