首頁|必讀|視頻|專訪|運營|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|低空經(jīng)濟|智能汽車|特約記者
手機|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計算|芯片|報告|智慧城市|移動互聯(lián)網(wǎng)|會展
首頁 >> 移動互聯(lián)網(wǎng) >> 正文

豆包1.5·深度思考模型發(fā)布!效果好、低延遲、多模態(tài)

2025年4月17日 16:20  CCTIME飛象網(wǎng)  

隨著 AI 技術(shù)的快速發(fā)展,AI 已從過去的感知 AI、生成式 AI,快速邁入 Agentic AI 時代。AI 正在進化出端到端的自主決策和執(zhí)行能力,走向核心生產(chǎn)環(huán)節(jié)。

火山引擎總裁 譚待

今天,在 FORCE LINK AI 創(chuàng)新巡展·杭州站,火山引擎公布了模型、Agent工具、云基礎(chǔ)設(shè)施的最新進展,旨在幫助企業(yè)更快、更省地構(gòu)建和部署Agent應(yīng)用:發(fā)布豆包1.5·深度思考模型,升級豆包·文生圖模型3.0、豆包·視覺理解模型。同時,面向Agent服務(wù),發(fā)布OS Agent解決方案、GUI Agent大模型——豆包1.5·UI-TARS模型;面向大規(guī)模推理,發(fā)布AI云原生·ServingKit推理套件。

截至2025年3月底,豆包大模型日均tokens調(diào)用量已超過12.7萬億,是2024年12月的3倍,是一年前剛剛發(fā)布時的106倍。IDC報告顯示,2024年中國公有云大模型調(diào)用量激增,火山引擎以46.4%的市場份額位居中國市場第一。

深度思考模型能夠讓 AI 模擬人類的思維過程,對復(fù)雜問題進行精準分析和邏輯推導(dǎo)。

全新發(fā)布的豆包1.5·深度思考模型,在數(shù)學(xué)、代碼、科學(xué)等專業(yè)領(lǐng)域推理任務(wù)中表現(xiàn)出色,已經(jīng)達到或接近全球第一梯隊水平;在創(chuàng)意寫作等非推理任務(wù)中,模型也展示出優(yōu)秀的泛化能力,能夠勝任更廣泛和復(fù)雜的使用場景。

為了提升模型的通用能力,模型團隊優(yōu)化了數(shù)據(jù)處理策略,把可驗證數(shù)據(jù)與創(chuàng)意性數(shù)據(jù)進行融合處理,滿足各類任務(wù)的需求。此外,大規(guī)模強化學(xué)習(xí)是訓(xùn)練推理模型的關(guān)鍵技術(shù),通過采用創(chuàng)新的雙軌獎勵機制,兼顧“對錯分明”和“見仁見智”的任務(wù),有效實現(xiàn)了算法的可靠優(yōu)化。

豆包1.5·深度思考模型采用 MoE 架構(gòu),總參數(shù)為200B,激活參數(shù)僅20B,具備顯著的訓(xùn)練和推理成本優(yōu)勢。基于高效算法,豆包1.5·深度思考模型在提供行業(yè)極高并發(fā)承載能力的同時,實現(xiàn)20毫秒極低延遲。

在解決生活生產(chǎn)中的具體問題時,大模型要能夠查詢互聯(lián)網(wǎng)信息,進行多輪搜索和思考。與其他推理模型“先搜索再思考”的模式不同,豆包APP 基于豆包1.5·深度思考模型進行了定向訓(xùn)練,可以“邊想邊搜”。

例如,讓豆包APP 推薦露營裝備:一對夫妻帶兩個孩子去露營,溫度低,有雨,希望把裝備買齊,預(yù)算4,000元以內(nèi),還要兼顧便攜性和安全性。豆包1.5·深度思考模型可以拆解每個具體需求的注意事項,規(guī)劃信息,然后經(jīng)過3輪搜索,給出了預(yù)算范圍內(nèi)、細致周到的推薦。

此外,豆包1.5·深度思考模型還具備視覺理解能力,可以像人類一樣,不光基于文字思考,更能基于所見畫面思考,思考更立體,讓模型同時擁有“大腦”和“眼睛”。   更好的模型性能、更低的延遲、加上視覺推理能力,將為深度思考模型打開更廣泛的應(yīng)用空間、解決更復(fù)雜的問題。即日起,企業(yè)用戶可以在火山方舟平臺使用豆包1.5·深度思考模型。

此次全新升級的豆包·文生圖模型3.0,能夠?qū)崿F(xiàn)更好的文字排版表現(xiàn)、實拍級的圖像生成效果,以及2K 的高清圖片生成方式?梢詮V泛應(yīng)用于影視、海報、繪畫、玩偶設(shè)計等營銷、電商、設(shè)計場景。

小字與長文本生成、 排版更美觀

在最新的文生圖領(lǐng)域權(quán)威榜單 Artificial Analysis 競技場中,豆包·文生圖3.0模型已超越業(yè)界諸多主流模型,排名全球第一梯隊。

新版本的豆包·視覺理解模型具備更強的視覺定位能力,支持多目標、小目標、通用目標的框定位和點定位,并支持定位計數(shù)、描述定位內(nèi)容、3D 定位?蓱(yīng)用于線下門店的巡檢場景、GUI agent、機器人訓(xùn)練、自動駕駛訓(xùn)練等。    同時,新版本在視頻理解能力上也有大幅提升,比如記憶、總結(jié)理解、速度感知、長視頻理解等。豆包·視覺理解模型結(jié)合向量搜索,可直接對視頻進行語義搜索,廣泛適用于安防、家庭看護等商業(yè)化場景。

更強的模型為我們打開了更廣闊的應(yīng)用空間。未來,AI Agent 將同時在“應(yīng)用Agent”和“OS Agent”兩個方向上并行發(fā)展。

應(yīng)用 Agent 具備更強的專業(yè)性,如客服 Agent、數(shù)據(jù) Agent、代碼 Agent等,可以專注于完成特定領(lǐng)域的任務(wù)。

比如在代碼 Agent 領(lǐng)域,相比于傳統(tǒng)的 AI 插件產(chǎn)品,國內(nèi)首個 AI IDE(AI原生的集成開發(fā)環(huán)境工具)——Trae 可以讓開發(fā)者和 AI 更智能的協(xié)作,實現(xiàn)軟件開發(fā)的交付化(交付軟件而不僅是代碼)、智能化(意圖理解-自主規(guī)劃-調(diào)用工具-自主開發(fā))、協(xié)作化(與用戶在各個維度上進行協(xié)作)。

OS Agent 則擁有跨場景的通用性和靈活性,能夠直接操作瀏覽器、電腦、手機或其他 Agent,完成復(fù)雜任務(wù)。今年 Manus 等通用 Agent 的火爆也點燃了市場對 OS Agent 的熱情。

大會上,火山引擎正式發(fā)布 OS Agent 解決方案,未來兩周將陸續(xù)上線火山引擎官網(wǎng)。

該解決方案通過火山引擎 veFaaS 平臺對豆包大模型能力進行封裝,可以讓企業(yè)和開發(fā)者輕松構(gòu)建輕量級的 Code use 和 Browser use。而針對任務(wù)相對復(fù)雜的 Computer Use 和 Mobile Use Agent,則可以通過 ECS 或云手機等調(diào)用豆包1.5·UI-TARS 模型,驅(qū)動圖形用戶界面交互,精準識別用戶的任務(wù)需求,進行感知、自主推理并準確行動。

想做出好的 Agent 同樣離不開好的大模型。針對復(fù)雜的 OS Agent,火山引擎正式發(fā)布 GUI Agent 大模型——豆包1.5·UI-TARS 模型。該模型將屏幕視覺理解、邏輯推理、界面元素定位和操作整合在單一模型中,突破了傳統(tǒng)自動化工具依賴預(yù)設(shè)規(guī)則的局限。目前,豆包1.5·UI-TARS 模型已在火山方舟平臺上線。

好的模型和工具能夠加速 Agent 的落地,但 Agent 也會帶來更大量的推理消耗,因此 AI 時代需要更好的云原生架構(gòu)來支持。

為此,火山引擎推出 ServingKit 推理套件,幫助企業(yè)實現(xiàn)模型的快速部署、推理優(yōu)化、運維可觀測。

ServingKit 推理套件可在2分鐘內(nèi)完成671B DeepSeek R1下載和預(yù)熱,13秒完成推理引擎的加載。

同時,為了降低推理過程中的時延、提高資源利用率,火山引擎 EIC 將 KV cache 命中率提高了10倍,在100% cache 命中場景下 TPS 吞吐量可提高至5倍以上;而通過對算子、AI 網(wǎng)關(guān)、VKE 編排調(diào)度的優(yōu)化和升級,可以大幅度降低 GPU 消耗。

編 輯:T01
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載,請必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點和對其真實性負責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問題,請在相關(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進行的“內(nèi)容核實”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權(quán)。
推薦新聞              
 
人物
高通徐晧:利用6G和AI重塑移動連接的未來
精彩視頻
專家談|中國信通院果敢:生成式AI發(fā)展為人工智能終端注入創(chuàng)新動力
全球6G大會|高通展示三大6G原型系統(tǒng) 更好服務(wù)智能時代
6G技術(shù)新突破!6G全息超表面寬帶移動通信系統(tǒng)樣機發(fā)布
全球6G大會 | 中國通信標準化協(xié)會聞庫:5G垂直應(yīng)用痛點值得挖掘,設(shè)計6G時要加以考慮
精彩專題
通信產(chǎn)業(yè)2024年業(yè)績盤點
3·15權(quán)益日 | 共筑滿意消費 守護信息通信安全防線
聚焦2025全國兩會
2025年世界移動通信大會
關(guān)于我們 | 廣告報價 | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證080234號 京公網(wǎng)安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像