每日微信報
人物專訪監(jiān)管
制造芯片
6G 運營
大數(shù)據(jù)物聯(lián)網(wǎng)
移動互聯(lián)網(wǎng)量子
云計算互聯(lián)網(wǎng)
報告衛(wèi)星

中國信息通信研究院“方升”智測研討會在京召開共繪AI評測生態(tài)新藍圖

2026年2月4日 22:09CCTIME飛象網(wǎng)

2026年2月3日，中國信息通信研究院“方升” 智測研討會在京成功召開。本次會議以“人工智能評測體系的技術創(chuàng)新與產(chǎn)業(yè)實踐”為核心議題，旨在推動構建科學、系統(tǒng)、可信的AI評測生態(tài)，為我國人工智能產(chǎn)業(yè)的高質量發(fā)展提供有力支撐。石景山園管委會區(qū)科委主任高延娜、中國信息通信研究院副院長魏亮出席會議并致辭。同時，本次研討會匯聚了來自北京市經(jīng)信局、石景山區(qū)政府相關部門，以及哈爾濱工業(yè)大學、北京航空航天大學、清華大學、中科院自動化所等高校與科研機構，并吸引了一批領軍企業(yè)及行業(yè)協(xié)會代表，共計200余位專家與業(yè)內人士共襄盛會。

多方齊聚，共謀AI評測新發(fā)展

會議伊始，石景山園管委會區(qū)科委主任高延娜在致辭中表示，石景山區(qū)正加速向智能時代轉型，已構建起“主導+特色+未來”梯次發(fā)展的現(xiàn)代化產(chǎn)業(yè)體系。2025年，石景山區(qū)地區(qū)生產(chǎn)總值達1379.4億元，同比增長6.5%，軟件和信息技術服務業(yè)實現(xiàn)增加值625億元，增長11.3%，為人工智能產(chǎn)業(yè)發(fā)展奠定了堅實基礎。石景山區(qū)通過全面謀劃布局、注重數(shù)智創(chuàng)新、拓展應用場景三大舉措，聯(lián)合信通院共建人工智能大模型及軟硬件評測工信部重點實驗室，構建全鏈條評測服務體系，打造AI創(chuàng)新高地。

北京市石景山園管委會區(qū)科委主任高延娜

中國信通院副院長魏亮在致辭中強調，黨中央、國務院高度重視人工智能產(chǎn)業(yè)高質量發(fā)展，構建統(tǒng)一、科學、權威的基準測試體系對牽引技術創(chuàng)新、加速應用落地、增強國際話語權具有重要意義。他介紹，中國信通院在工信部指導下研發(fā)的“方升”大模型基準測試體系已完成從1.0到3.0的升級，形成了覆蓋基礎屬性、通用能力、行業(yè)應用與未來智能的全維度評測框架，并已向部委報送多輪測試報告，為決策提供了重要參考。未來，研究院將持續(xù)完善評測體系、強化技術平臺支撐，并與產(chǎn)學研各界深化協(xié)同，共建開放的人工智能評測生態(tài)。

中國信息通信研究院副院長魏亮

前沿分享，洞察AI技術新趨勢

研討環(huán)節(jié)，多位專家?guī)砹饲把匮芯砍晒窒�。哈爾濱工業(yè)大學人工智能研究院院長劉劼帶來了《智能體+的思考與實踐》主題報告，剖析了智能體技術的演進路徑與應用挑戰(zhàn)，提出了CEDAR通才智能體體系結構，為智能體的規(guī)范化發(fā)展提供了新思路。北京航空航天大學軟件學院院長胡春明聚焦《智能化軟件認識與實踐探索》，探討了人工智能對軟件形態(tài)、開發(fā)范式的深刻影響，以及智能化軟件的可信保障路徑。中科院自動化所副總工程師、紫東太初大模型中心常務副主任王金橋分享了多模態(tài)人工智能的發(fā)展趨勢，并介紹了紫東太初大模型在國產(chǎn)化適配、多模態(tài)交互等方面的實踐成果。清華大學計算機系副研究員、人工智能研究院院長助理蘇航則闡述了數(shù)據(jù)驅動的世界模型路徑演進，展現(xiàn)了物理智能與具身智能的前沿探索。

此外，高等教育出版社信息技術部主任楊京峰介紹了教育大模型基準測試能力體系建設情況，提出了業(yè)務驅動的龍鳳教育大模型架構。中國信通院人工智能研究所平臺與工程化部副主任李蓀發(fā)布了政務大模型基準測試能力體系，聯(lián)合多方構建政務評測數(shù)據(jù)集，推動政務大模型安全合規(guī)落地。

權威發(fā)布，揭示AI評測新成果

會上，中國信通院人工智能研究所所長魏凱發(fā)布了《2025“方升”基準測試觀察》。據(jù)介紹，“方升”3.0體系涵蓋基礎屬性、通用能力、任務能力、行業(yè)能力、未來高級智能能力五大層次，已形成780多萬條動態(tài)更新的測試數(shù)據(jù)，為模型選型與應用提供了科學依據(jù)。

評測結果顯示，語言大模型基礎能力國內模型進展顯著，推理能力上國內模型仍有差距，代碼能力則表現(xiàn)優(yōu)異。具體來看，谷歌的Gemini 3 Pro位列大語言推理能力榜單第一名，OpenAI的GPT-5.2和阿里巴巴的Qwen3-max-thinking位居第二和第三，其中Qwen3-max-thinking是國內最好的推理模型。月之暗面的Kimi K2.5和深度求索的DeepSeek-V3.2-Thinking分別排名國內第二和第三。在代碼任務方面，Anthropic的Claude 4.5模型排名代碼榜單首位，月之暗面的Kimi2.5在國內模型中表現(xiàn)最優(yōu)。

共建生態(tài)，攜手推動AI評測新發(fā)展

會議還舉行了第二批“方升”行業(yè)基準測試體系共建儀式。中央財經(jīng)大學、中國農業(yè)大學、中國海洋大學、北京第二外國語學院、北京工業(yè)大學、中國信通院、中國司法大數(shù)據(jù)研究院、高等教育出版社、中醫(yī)四診數(shù)智裝備研發(fā)北京市重點實驗室、中車工業(yè)研究院、南鋼人工智能研究院、中移齊魯創(chuàng)新院、青島港國際股份有限公司、楓清科技等14家單位代表上臺參與啟動，將攜手研制貼近真實業(yè)務場景的評測基準，推動大模型從“表現(xiàn)優(yōu)異”邁向“應用卓越”。

第二批 “方升” 行業(yè)基準測試體系共建啟動儀式

專題研討，深化AI評測技術協(xié)作

本次研討會同步設立了六場專題研討會，圍繞基礎模型評測、全模態(tài)和世界模型評測、智能體測試、代碼大模型基準測試、數(shù)據(jù)集質量評估、行業(yè)模型評估等議題開展了閉門研討。與會專家深入交流，共同探索AI評測技術的新路徑、新方法，為推動我國人工智能評測體系的建設與發(fā)展提供了重要交流平臺。

此次“方升”智測研討會的成功舉辦，不僅展示了我國在人工智能評測領域的最新成果，也為產(chǎn)學研各界搭建了一個開放、協(xié)同、可持續(xù)的交流平臺。未來，中國信通院將繼續(xù)深化面向AGI、產(chǎn)業(yè)應用與工程效能的評測能力建設，聯(lián)合產(chǎn)學研各界共建開放、協(xié)同、可持續(xù)的人工智能評測生態(tài)，為我國大模型技術創(chuàng)新與行業(yè)落地提供權威、科學的評測支撐，助力我國人工智能產(chǎn)業(yè)健康有序發(fā)展。

編輯：T01

飛象網(wǎng)版權及免責聲明:
1.本網(wǎng)刊載內容，凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權所有，未經(jīng)允許禁止轉載、摘編及鏡像，違者必究。對于經(jīng)過授權可以轉載，請必須保持轉載文章、圖像、音視頻的完整性，并完整標注作者信息和飛象網(wǎng)來源。
2.凡注明“來源：XXXX”的作品，均轉載自其它媒體，在于傳播更多行業(yè)信息，并不代表本網(wǎng)贊同其觀點和對其真實性負責。
3.如因作品內容、版權和其它問題，請在相關作品刊發(fā)之日起30日內與本網(wǎng)聯(lián)系，我們將第一時間予以處理。
本站聯(lián)系電話為86-010-87765777，郵件后綴為cctime.com，冒充本站員工以任何其他聯(lián)系方式，進行的“內容核實”、“商務聯(lián)系”等行為，均不能代表本站。本站擁有對此聲明的最終解釋權。