首頁|必讀|視頻|專訪|運營|制造|監(jiān)管|芯片|物聯(lián)網(wǎng)|量子|低空經(jīng)濟(jì)|智能汽車|特約記者
手機|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計算|大數(shù)據(jù)|報告|智慧城市|移動互聯(lián)網(wǎng)|會展
首頁 >> 人工智能 >> 正文

微軟攜手清華、北大推出獎勵推理模型:根據(jù) AI 任務(wù)復(fù)雜性動態(tài)分配計算資源

2025年5月27日 15:36  IT之家  作 者:故淵

科技媒體 marktechpost 今天(5 月 27 日)發(fā)布博文,報道稱微軟研究院聯(lián)合清華大學(xué)、北京大學(xué)組建團(tuán)隊,推出獎勵推理模型(Reward Reasoning Models,RRMs),通過顯式推理過程動態(tài)分配計算資源,提升復(fù)雜任務(wù)評估效果。

援引博文介紹,強化學(xué)習(xí)(Reinforcement Learning,RL)已成為大語言模型(LLM)后訓(xùn)練的核心方法,通過人類反饋(RLHF)或可驗證獎勵(RLVR)提供監(jiān)督信號。

然而,RLVR 在數(shù)學(xué)推理中雖有潛力,卻因依賴可驗證答案的訓(xùn)練查詢而受限,難以應(yīng)用于通用領(lǐng)域的大規(guī)模訓(xùn)練。

此外,現(xiàn)有獎勵模型分為標(biāo)量型和生成型兩大類,均無法有效擴(kuò)展測試時的計算資源。當(dāng)前方法對所有輸入統(tǒng)一分配計算資源,缺乏針對復(fù)雜查詢進(jìn)行細(xì)致分析的能力,導(dǎo)致評估效果不佳。

為解決上述問題,微軟研究院、清華大學(xué)和北京大學(xué)的研究者聯(lián)手推出獎勵推理模型(RRMs)。RRMs 在給出最終獎勵前執(zhí)行顯式推理過程,能夠根據(jù)任務(wù)復(fù)雜性自適應(yīng)分配額外計算資源。

這種方法通過“思維鏈”(Chain-of-Thought)推理,針對獎勵不明顯的復(fù)雜查詢投入更多測試時計算資源。

RRMs 基于 Qwen2 模型,采用 Transformer-decoder 架構(gòu),將獎勵建模轉(zhuǎn)化為文本補全任務(wù),生成推理過程后給出最終判斷。

研究團(tuán)隊利用 RewardBench 庫進(jìn)行系統(tǒng)分析,評估指標(biāo)包括指令遵循性、幫助性、準(zhǔn)確性、無害性和細(xì)節(jié)水平。RRMs 還支持多響應(yīng)評估,通過 ELO 評分系統(tǒng)和淘汰賽機制,結(jié)合多數(shù)投票提升計算資源利用率。

測試結(jié)果顯示,RRMs 在 RewardBench 和 PandaLM Test 基準(zhǔn)測試中表現(xiàn)突出。其中,RRM-32B 在推理類別中達(dá)到 98.6% 的準(zhǔn)確率,與使用相同數(shù)據(jù)訓(xùn)練的 DirectJudge 模型相比,RRMs 展現(xiàn)出顯著性能差距,證明其在復(fù)雜查詢中有效利用測試時計算資源。

在獎勵引導(dǎo)的最佳 N 推理(Best-of-N Inference)和后訓(xùn)練反饋中,RRMs 超越所有基線模型,且進(jìn)一步提升多數(shù)投票機制效率。

研究還表明,隨著模型規(guī)模從 7B、14B 到 32B 擴(kuò)展,更長的推理時間始終帶來準(zhǔn)確性提升。RRMs 通過并行和順序擴(kuò)展方法高效利用計算資源,為傳統(tǒng)標(biāo)量獎勵模型提供強大替代方案。

編 輯:章芳
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載,請必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點和對其真實性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問題,請在相關(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權(quán)。
推薦新聞              
 
人物
中興通訊首席發(fā)展官崔麗:數(shù)智賦能 共拓中拉合作新路徑
精彩視頻
2025工業(yè)互聯(lián)網(wǎng)大會 | 深化賦能 工業(yè)互聯(lián)網(wǎng)產(chǎn)業(yè)成果發(fā)布
2025工業(yè)互聯(lián)網(wǎng)大會 | 六大重要成果發(fā)布 產(chǎn)業(yè)變革再添“強引擎”
工業(yè)互聯(lián)網(wǎng)發(fā)展也太給力了!走,看看到底怎么回事?
中國信通院趙爽:加快工業(yè)互聯(lián)網(wǎng)安全體系建設(shè) 護(hù)航新型工業(yè)化行穩(wěn)致遠(yuǎn)
精彩專題
2025工業(yè)互聯(lián)網(wǎng)大會
2025世界電信和信息社會日大會
第八屆數(shù)字中國建設(shè)峰會
通信產(chǎn)業(yè)2024年業(yè)績盤點
關(guān)于我們 | 廣告報價 | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證080234號 京公網(wǎng)安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像