首頁|必讀|視頻|專訪|運(yùn)營|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|低空經(jīng)濟(jì)|智能汽車|特約記者
手機(jī)|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計(jì)算|芯片|報(bào)告|智慧城市|移動互聯(lián)網(wǎng)|會展
首頁 >> 頭條資訊 >> 正文

信通院宇文夢柯等:大模型推理優(yōu)化——技術(shù)突破與產(chǎn)業(yè)落地新范式

2025年4月8日 09:04  中國信通院CAICT  

隨著大模型技術(shù)的飛速發(fā)展和企業(yè)智能化轉(zhuǎn)型需求的不斷攀升,大模型落地應(yīng)用關(guān)注焦點(diǎn)正從訓(xùn)練環(huán)節(jié)轉(zhuǎn)向推理環(huán)節(jié)。在此過程中,行業(yè)需求已從構(gòu)建功能全面、用戶友好且靈活的推理平臺,逐步深化到解決實(shí)際落地中由“效果-性能-成本”構(gòu)成的不可能三角難題[1]。其中,效果要求體現(xiàn)在模型服務(wù)的準(zhǔn)確性與場景覆蓋的全面性,性能要求體現(xiàn)在響應(yīng)時(shí)延、系統(tǒng)吞吐、服務(wù)穩(wěn)定性,成本要求體現(xiàn)在算力成本、適配成本等綜合開銷。推理優(yōu)化技術(shù)作為破解不可能三角難題的核心抓手,其重要價(jià)值正在大模型規(guī);瘧(yīng)用中愈發(fā)凸顯。

挑戰(zhàn)——平衡算力與成本、適配多樣化場景

大模型產(chǎn)業(yè)化落地面臨成本控制與場景適配雙重挑戰(zhàn)。一方面,高質(zhì)量算力需求與成本約束的博弈持續(xù)深化。大模型沿著Scaling Law路徑不斷發(fā)展,模型參數(shù)持續(xù)增加[2],高質(zhì)量大模型服務(wù)離不開高顯存、高帶寬、高性能的算力支持。然而單純依賴硬件性能、硬件堆疊,不僅加劇產(chǎn)業(yè)落地成本壓力,更難以形成可持續(xù)的商業(yè)閉環(huán)。如何在有限算力條件下進(jìn)一步提升性能并降低成本,仍是長久議題。另一方面,激增的推理需求促使了對多樣場景下差異化性能需求的關(guān)注。智能客服、對話系統(tǒng)等場景需即時(shí)反饋,對時(shí)延要求嚴(yán)格;視頻生成、訓(xùn)練數(shù)據(jù)集生成等場景需批量輸出,對吞吐率有較高需求;RAG、Agent等服務(wù)形式的發(fā)展,對長上下文處理能力提出更高要求。如何在差異場景下實(shí)現(xiàn)針對性優(yōu)化、提升服務(wù)質(zhì)量,也是當(dāng)前大模型落地的重點(diǎn)話題。推理優(yōu)化不僅關(guān)注性能提升與成本控制,還關(guān)注結(jié)合場景特點(diǎn)的優(yōu)化改進(jìn),以更好地服務(wù)于實(shí)際業(yè)務(wù)需求。近日,英偉達(dá)CEO黃仁勛、AMD CEO蘇姿豐均強(qiáng)調(diào)了推理優(yōu)化的重要性,在推理需求激增、推理模型(Reasoning Models)快速占領(lǐng)市場的當(dāng)下,該技術(shù)的成熟度將成為重塑行業(yè)競爭格局的關(guān)鍵要素。

關(guān)鍵技術(shù)——推理優(yōu)化圍繞模型架構(gòu)與計(jì)算架構(gòu)的技術(shù)迭出

(一)模型架構(gòu)層面:基于模型壓縮、MoE結(jié)構(gòu)等技術(shù),優(yōu)化模型自身推理性能

在大模型推理過程中,模型參數(shù)、KV緩存(KVCache)及運(yùn)行過程數(shù)據(jù)會大量消耗顯存資源,其中模型參數(shù)和KVCache為主要占比。當(dāng)前針對推理階段的模型優(yōu)化,主要圍繞模型結(jié)構(gòu)設(shè)計(jì)與KVCache優(yōu)化展開,包括服務(wù)運(yùn)行前的參數(shù)壓縮、網(wǎng)絡(luò)結(jié)構(gòu)精簡等,以及服務(wù)運(yùn)行時(shí)的緩存策略,以實(shí)現(xiàn)顯存占用、推理效率、推理精度的平衡。例如,輕量化技術(shù)如剪枝、量化,通過去除冗余結(jié)構(gòu)或采用低比特表示來壓縮模型大小,可顯著降低對存儲和計(jì)算資源的需求,當(dāng)前可基本實(shí)現(xiàn)無損壓縮。多頭潛在注意力機(jī)制(Multi-Head Latent Attention,MLA)通過將鍵值向量壓縮至低秩空間,將推理時(shí)對KVCache的顯存需求降到傳統(tǒng)機(jī)制的4%~13%[3],具備更好的長上下文處理和快速響應(yīng)能力。稀疏化MoE模型架構(gòu)通過專家網(wǎng)絡(luò)和門控機(jī)制,可動態(tài)選擇激活的專家,減少不必要的計(jì)算,顯著降低計(jì)算成本。如DeepSeek-V3模型在推理過程中僅需激活5.5%參數(shù)(37B/671B)即可達(dá)到SOTA效果[4]。

(二)計(jì)算架構(gòu)層面:通過分布式架構(gòu)設(shè)計(jì)、調(diào)度策略優(yōu)化,大幅提升推理系統(tǒng)性能上限

架構(gòu)方面,預(yù)填充-解碼(Prefill-Decode, PD)分離式推理架構(gòu)已成為業(yè)界主流優(yōu)化方案。大模型推理一般由預(yù)填充(Prefill)和解碼(Decode)兩階段構(gòu)成,其中預(yù)填充階段是計(jì)算密集型(compute-bound)對算力需求高,容易迅速使GPU達(dá)到飽和;解碼階段是存儲密集型(memory-bound)對顯存需求高,在大批量(batch size)請求下才可充分利用計(jì)算資源,同時(shí)受到帶寬限制[5]。傳統(tǒng)方式通常直接將推理服務(wù)部署到集群中,使得PD兩階段在同一節(jié)點(diǎn)上執(zhí)行,引發(fā)兩階段資源爭奪、并行策略互相掣肘難以優(yōu)化[5][6],進(jìn)一步導(dǎo)致資源利用率低、服務(wù)性能差、系統(tǒng)構(gòu)建成本高等問題[7]。PD分離將預(yù)填充與解碼階段分開部署,不同階段依據(jù)各自特性選用最優(yōu)硬件資源,可成倍優(yōu)化整體推理系統(tǒng)性能與成本。調(diào)度方面,通過精細(xì)化、智能化資源調(diào)度和任務(wù)調(diào)度,可幫助提升推理系統(tǒng)在多樣化服務(wù)場景的性能上限。分布式調(diào)度通過實(shí)時(shí)任務(wù)監(jiān)控、負(fù)載動態(tài)處理、彈性擴(kuò)縮容等技術(shù),實(shí)現(xiàn)負(fù)載均衡[8],有效應(yīng)對低時(shí)延、高并發(fā)、流量波動、高頻請求、長文本處理等多樣化業(yè)務(wù)場景,確保系統(tǒng)在不同應(yīng)用環(huán)境下能夠保持穩(wěn)定高效運(yùn)行。

產(chǎn)業(yè)落地——推理系統(tǒng)呈現(xiàn)單點(diǎn)加速與全局協(xié)同優(yōu)化并行趨勢

(一)單點(diǎn)優(yōu)化:聚焦模型特點(diǎn)與系統(tǒng)的銜接,持續(xù)完善推理引擎的功能與性能

一是通用推理引擎呈現(xiàn)從多點(diǎn)爆發(fā)到逐漸收斂趨勢。從前期HuggingFace TGI、DeepSpeed-FastGen、TensorRT-LLM等,逐漸收斂到推理優(yōu)化特性豐富、功能更新迅速、二次開發(fā)支持性好、多硬件支持、推理性能卓越的vLLM。二是逐漸衍生出一系列結(jié)合推理服務(wù)特點(diǎn)的新引擎。LMDeploy、SGLang等對多模態(tài)、長文本支持友好的推理引擎陸續(xù)推出,尤其自DeepSeek-V2開始SGLang與DeepSeek深度整合,產(chǎn)業(yè)界對SGLang的關(guān)注迅速提升。三是隨著MoE模型架構(gòu)逐漸成為主流趨勢,主流大模型框架如vLLM、DeepSpeed[9]等均強(qiáng)化了對MoE特性的支持,同時(shí)產(chǎn)業(yè)界也推出了一批聚焦MoE訓(xùn)推的AI框架,如清華的KTransformers等。此外,DeepSeek也推出了為MoE架構(gòu)中專家并行(EP)定向優(yōu)化的DeepEP通信庫[10]。

(二)協(xié)同優(yōu)化:“模型-架構(gòu)-場景”深度耦合的優(yōu)化范式成為主流,支撐人工智能平臺性能提升

一方面,隨著PD分離式推理架構(gòu)逐漸成熟,場景落地顯著加速。2024年陸續(xù)推出了DistServe(北大&USCD)、Splitwise(微軟)、TetriInfer(華為云)和MemServe(華為云)等PD分離式推理架構(gòu)方案[11]。2025年初,月之暗面與清華聯(lián)合阿里云、華為存儲、面壁智能、趨境科技等共同發(fā)布的Mooncake開源項(xiàng)目是業(yè)界大規(guī)模落地PD分離案例。該方案通過構(gòu)建以KVCache為中心的P-D分離調(diào)度集群,實(shí)現(xiàn)了有效吞吐平均提升75%,特定場景吞吐提升5.25倍,并承接了kimi線上80%流量[12]。DeepSeek部署推理方案也采用了PD分離架構(gòu),其在兩階段增加了高負(fù)載專家分發(fā)、動態(tài)冗余專家激活策略[13],可進(jìn)一步結(jié)合MoE模型架構(gòu)優(yōu)化計(jì)算資源利用。英偉達(dá)近期推出的Dynamo分布式推理加速項(xiàng)目,綜合了vLLM、SGLang、DistServe、Mooncake等基礎(chǔ),基于PD分離架構(gòu)基礎(chǔ)上,通過精細(xì)化KVCache的分布式路由管理,實(shí)現(xiàn)系統(tǒng)性能提升[14]。

另一方面,聚焦場景特點(diǎn)、系統(tǒng)架構(gòu)的精細(xì)化調(diào)度技術(shù)不斷發(fā)展,提升推理系統(tǒng)與差異化場景適配度。XXL-JOB作為廣泛應(yīng)用于企業(yè)級應(yīng)用中的分布式任務(wù)調(diào)度平臺,解決了在分布式系統(tǒng)中任務(wù)調(diào)度、定時(shí)執(zhí)行、任務(wù)分片、失敗重試、任務(wù)依賴等問題。阿里云的分布式調(diào)度解決方案SchedulerX能夠支持秒級別的精確調(diào)度周期,為用戶提供最小到1秒的任務(wù)調(diào)度頻率,滿足了金融、電信等對時(shí)間敏感行業(yè)的需求[15]。阿里云Llumnix全局調(diào)度器引入了運(yùn)行時(shí)請求重調(diào)度能力,支持在多個(gè)實(shí)例間動態(tài)分配請求,可應(yīng)對請求的異構(gòu)性和不可預(yù)測性,實(shí)現(xiàn)多種調(diào)度場景統(tǒng)一化,在真實(shí)流量場景下,尾部延遲降低10倍,在相似尾部延遲的情況下成本節(jié)約高達(dá)36% [16]。對于分布式場景而言,精細(xì)化調(diào)度可進(jìn)一步提升優(yōu)化上限。但整體而言,目前主流調(diào)度工具仍缺乏結(jié)合大模型及推理場景的深度優(yōu)化。

結(jié)束語

未來,服務(wù)效果、加速效果等指標(biāo)作為技術(shù)、產(chǎn)品能力的顯性標(biāo)尺,可客觀呈現(xiàn)大模型推理平臺當(dāng)前的能力水位,是推理優(yōu)化效果的直觀參照。另一方面,在時(shí)延、精度、成本、資源等多方約束條件下,識別潛在的性能提升空間、確定可優(yōu)化的具體維度、制定有效的提升策略,將是推理優(yōu)化路徑演進(jìn)過程中需要解決的核心問題。

參考資料

[1]《GenAI技術(shù)落地白皮書》阿里云

[2] 中金 | AI進(jìn)化論(1):DeepSeek推動“大模型平權(quán)”,是訓(xùn)練算力的拐點(diǎn)還是黑洞?https://mp.weixin.qq.com/s/c0cwxICVjk-ee7ZFKocGQA

[3] DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model https://arxiv.org/pdf/2405.04434

[4] DeepSeek-V3 Technical Report  https://arxiv.org/pdf/2412.19437

[5] 揭秘老黃演講中關(guān)鍵技術(shù):PD分離!UCSD華人團(tuán)隊(duì)力作,LLM吞吐量躍升4倍  https://mp.weixin.qq.com/s/kdxJng0X3RT2UU8EnuxeSw

[6] Throughput is Not All You Need: Maximizing Goodput in LLM Serving using Prefill-Decode Disaggregation https://hao-ai-lab.github.io/blogs/distserve/

[7] 中金 | AI十年展望(二十):細(xì)數(shù)2024大模型底層變化,推理優(yōu)化、工程為王 https://mp.weixin.qq.com/s/tY3pxGpg-WK70ySOgkkiRQ

[8] Mooncake 分離式推理架構(gòu)創(chuàng)新與實(shí)踐 https://www.infoq.cn/article/f2Lp0tlCuYvGJ65kXW4B

[9] Getting Started with DeepSpeed-MoE for Inferencing Large-Scale MoE Models https://www.deepspeed.ai/tutorials/mixture-of-experts-inference/

[10] DeepEP https://github.com/deepseek-ai/DeepEP

[11]大模型推理分離架構(gòu)五虎上將   https://mp.weixin.qq.com/s/g7lq4IcJ4-etkh9XV8Giig

[12] Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving https://arxiv.org/pdf/2407.00079

[13] DeepSeek技術(shù)社區(qū)DeepSeek-V3 技術(shù)報(bào)告解讀 https://deepseek.csdn.net/67cda6da6670175f9932e823.html

[14] Dynamo項(xiàng)目解讀,NVIDIA官方的分布式大型語言模型(LLM)推理加速框架https://mp.weixin.qq.com/s/t9rm_rG2NwXaZLe_SF5_hg

[15] 大規(guī)模分布式應(yīng)用任務(wù)調(diào)度解決方案 https://www.aliyun.com/solution/middleware/lsajs

[16] Llumnix: Dynamic Scheduling for Large Language Model Serving  https://arxiv.org/pdf/2406.03243

作者:中國信息通信研究院人工智能研究所 宇文夢柯 董昊 曹峰

編 輯:路金娣
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載,請必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問題,請?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時(shí)間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權(quán)。
相關(guān)新聞              
 
人物
中興通訊董事長李自學(xué):算力筑基、 AI 啟智,共迎數(shù)智化新紀(jì)元
精彩專題
通信產(chǎn)業(yè)2024年業(yè)績盤點(diǎn)
3·15權(quán)益日 | 共筑滿意消費(fèi) 守護(hù)信息通信安全防線
聚焦2025全國兩會
2025年世界移動通信大會
CCTIME推薦
關(guān)于我們 | 廣告報(bào)價(jià) | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證080234號 京公網(wǎng)安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像