必讀視頻專題飛象趣談光通信人工智能低空經(jīng)濟(jì)5G手機(jī)智能汽車智慧城市會(huì)展特約記者

合成數(shù)據(jù)走向?qū)嵱茫浩髽I(yè) AI 隱私保護(hù)的新路徑

2026年1月27日 17:00CCTIME飛象網(wǎng)

Cloudera大中華區(qū)技術(shù)總監(jiān)劉隸放

隨著AI日益深入地融入企業(yè)日常運(yùn)營(yíng),企業(yè)向模型輸入的數(shù)據(jù)量已達(dá)到前所未有的規(guī)模。大語言模型(LLMs)如今已廣泛應(yīng)用于客戶支持、數(shù)據(jù)分析、開發(fā)者效率提升以及知識(shí)管理等場(chǎng)景。與此同時(shí),AI智能體(AI Agent)則開辟了新的應(yīng)用維度,支持系統(tǒng)能夠跨工具和工作流檢索信息、進(jìn)行推理并執(zhí)行操作。

然而,這也給消費(fèi)者帶來了一個(gè)令人不安的現(xiàn)實(shí),用于提升AI性能的高價(jià)值數(shù)據(jù)往往也較為敏感。支持記錄、案例備注、交易歷史以及操作日志中,時(shí)常包含個(gè)人身份信息(personally identifiable information, PII)、受監(jiān)管屬性或?qū)S袠I(yè)務(wù)背景。即便企業(yè)主觀上高度重視隱私保護(hù),在快速構(gòu)建和擴(kuò)展AI應(yīng)用的過程中,敏感字段仍然很容易混入訓(xùn)練語料庫、評(píng)估數(shù)據(jù)集或提示詞庫中。

正因如此,合成數(shù)據(jù)(Synthetic Data)重新獲得了關(guān)注。簡(jiǎn)單地說,合成數(shù)據(jù)是通過算法生成的數(shù)據(jù),其目的是在不復(fù)現(xiàn)真實(shí)記錄的前提下,反映真實(shí)數(shù)據(jù)集中的關(guān)鍵模式。理論上,它為加速AI開發(fā)提供了一條可行路徑,同時(shí)降低了接觸高度敏感信息的風(fēng)險(xiǎn)。但問題在于,合成數(shù)據(jù)究竟是減小了風(fēng)險(xiǎn),還是僅僅轉(zhuǎn)移了風(fēng)險(xiǎn)?

在大語言模型與智能體時(shí)代,為什么隱私風(fēng)險(xiǎn)不斷上升?

傳統(tǒng)分析工作流往往具有更清晰的邊界。數(shù)據(jù)經(jīng)過整理、匯總、屏蔽處理,用于明確的用途。然而,基于大型語言模型的開發(fā)模糊了這些邊界。大量輸入數(shù)據(jù)缺乏結(jié)構(gòu)化特征,敏感內(nèi)容常隱藏于看似普通的文本中,評(píng)估過程也越來越依賴規(guī)模龐大且類型多樣的測(cè)試數(shù)據(jù)集。而由于智能體能夠直接訪問數(shù)據(jù)系統(tǒng),其風(fēng)險(xiǎn)暴露面將進(jìn)一步擴(kuò)大。如果企業(yè)缺乏數(shù)據(jù)可見性,個(gè)人數(shù)據(jù)往往會(huì)以更不可預(yù)測(cè)的方式分散在這些系統(tǒng)中。

隨著企業(yè)不斷擴(kuò)大AI項(xiàng)目的規(guī)模,它們需要大量數(shù)據(jù)用于監(jiān)督式微調(diào)、測(cè)試和迭代。然而,許多原本極具潛力的項(xiàng)目,往往因?yàn)闊o法安全地共享或使用這些數(shù)據(jù),在推進(jìn)過程中被迫放緩。

合成數(shù)據(jù)是否是企業(yè)可依賴的替代方案?

遺憾的是,合成數(shù)據(jù)不是萬能的。如果生成結(jié)果質(zhì)量欠佳,這類數(shù)據(jù)集可能會(huì)泄露敏感信息,例如保留了罕見屬性的組合,或在無意中與真實(shí)樣本過于相似。反之,如果合成數(shù)據(jù)過于“干凈”、過于通用或單一,基于這些數(shù)據(jù)訓(xùn)練的模型雖能在受控測(cè)試中表現(xiàn)優(yōu)異,卻可能在真實(shí)環(huán)境中難以發(fā)揮作用。

更現(xiàn)實(shí)的看法是將合成數(shù)據(jù)視作一種降低風(fēng)險(xiǎn)的工具。在規(guī)范管理的前提下,它可以在支持模型開發(fā)與評(píng)估持續(xù)推進(jìn)的同時(shí),減少對(duì)個(gè)人敏感數(shù)據(jù)的依賴。合成數(shù)據(jù)還能解決一個(gè)常被忽視的實(shí)際問題,即便不考慮隱私因素,許多企業(yè)本身也缺乏足夠高質(zhì)量、可標(biāo)注的訓(xùn)練數(shù)據(jù)。

如今,合成數(shù)據(jù)的生成已超越基礎(chǔ)表格測(cè)試數(shù)據(jù)集的范疇。企業(yè)能夠生成模擬真實(shí)工作流結(jié)構(gòu)的合成指令數(shù)據(jù)、合成對(duì)話、合成事件工單及合成問答對(duì),在不依賴原始記錄的情況下,復(fù)現(xiàn)真實(shí)業(yè)務(wù)流程的結(jié)構(gòu)。這對(duì)于以下幾類AI開發(fā)需求尤為重要:

1.監(jiān)督式微調(diào)與領(lǐng)域適配

企業(yè)通常希望模型能在特定領(lǐng)域內(nèi)運(yùn)行,使用企業(yè)內(nèi)部的術(shù)語體系、政策規(guī)則、產(chǎn)品目錄結(jié)構(gòu)和升級(jí)邏輯。微調(diào)可以實(shí)現(xiàn)這一目標(biāo),但所需的訓(xùn)練樣本往往高度敏感。合成數(shù)據(jù)集可以提供更安全的提示-響應(yīng)樣本,既能反映真實(shí)意圖模式和任務(wù)格式,又能減少對(duì)實(shí)際客戶或員工數(shù)據(jù)的依賴。

2.AI模型的大規(guī)模評(píng)估

在企業(yè)AI項(xiàng)目中,評(píng)估往往是最常見的瓶頸之一。團(tuán)隊(duì)需要在多種場(chǎng)景下測(cè)試模型表現(xiàn),包括常規(guī)問題、邊緣案例、故障模式以及合規(guī)敏感話題。合成任務(wù)生成技術(shù)可以比人工方式更快地構(gòu)建廣泛、可重復(fù)的評(píng)估體系。如果方法得當(dāng),該技術(shù)不僅能在模型上線前提升對(duì)模型行為的信心,還能減少測(cè)試過程中對(duì)原始敏感數(shù)據(jù)的處理需求。

3.面向RAG與智能體的定制化數(shù)據(jù)整理

檢索增強(qiáng)生成(Retrieval-augmented generation,RAG)和智能體工作流高度依賴知識(shí)庫與測(cè)試提示的質(zhì)量。合成數(shù)據(jù)能夠生成真實(shí)的查詢、變體及多輪交互場(chǎng)景,用于對(duì)檢索效果和工具調(diào)用行為進(jìn)行壓力測(cè)試,從而降低使用真實(shí)敏感對(duì)話作為輸入的頻率。

Cloudera Synthetic Data Studio等工具正體現(xiàn)出一種趨勢(shì),將合成數(shù)據(jù)生成作為AI生命周期中的一個(gè)可操作環(huán)節(jié),用于支持微調(diào)、對(duì)齊、蒸餾以及定制化數(shù)據(jù)構(gòu)建等多種場(chǎng)景。

在實(shí)踐中,合成數(shù)據(jù)如何實(shí)現(xiàn)“隱私安全”?

要讓合成數(shù)據(jù)有效降低隱私風(fēng)險(xiǎn),企業(yè)必須將其視為一項(xiàng)具備管控措施的系統(tǒng)性工作,而不是臨時(shí)應(yīng)急方案。首先,企業(yè)需要明確數(shù)據(jù)集的用途,是用于訓(xùn)練、評(píng)估、紅隊(duì)演練,還是系統(tǒng)測(cè)試。不同的目標(biāo)將直接影響數(shù)據(jù)生成方式和質(zhì)量標(biāo)準(zhǔn)。此外,企業(yè)還需遵循其他防護(hù)措施,例如:

●采用數(shù)據(jù)最小化原則,將粒度數(shù)據(jù)(GranularData)進(jìn)行泛化處理,從而從源數(shù)據(jù)中移除不必要的敏感字段和異常值,并在生成開始前縮小處理范圍。

●評(píng)估合成數(shù)據(jù)是否保留了模型性能所需的模式,而不僅僅是“看起來真實(shí)”。

●檢查是否存在記憶風(fēng)險(xiǎn),以及是否包含過于獨(dú)特、可被重建的樣本。

●記錄所生成的內(nèi)容、生成方法及預(yù)期用途。這對(duì)于治理和可追溯性至關(guān)重要,尤其在受監(jiān)管的環(huán)境中。

合成數(shù)據(jù)并不能完全取代真實(shí)數(shù)據(jù),也無法消除對(duì)治理的需求。在實(shí)踐中,讓合成數(shù)據(jù)既實(shí)用又安全,本身就是一項(xiàng)運(yùn)營(yíng)挑戰(zhàn)。內(nèi)部團(tuán)隊(duì)需要一個(gè)能夠大規(guī)模生成合成數(shù)據(jù)集的環(huán)境,將其與微調(diào)或評(píng)估等特定的AI任務(wù)關(guān)聯(lián),并實(shí)施治理控制,確保輸出結(jié)果能在企業(yè)中被可靠地使用?傮w而言,合成數(shù)據(jù)在數(shù)據(jù)稀缺或失衡的環(huán)境中,用于構(gòu)建傳統(tǒng)機(jī)器學(xué)習(xí)模型,依然具有非常重要的價(jià)值。

隨著企業(yè)擴(kuò)大大型語言模型和智能體的部署規(guī)模,合成數(shù)據(jù)正成為一條切實(shí)可行的發(fā)展路徑,幫助企業(yè)有效降低對(duì)敏感個(gè)人數(shù)據(jù)的依賴。這凸顯了構(gòu)建統(tǒng)一、受治理的數(shù)據(jù)與AI平臺(tái)的必要性,平臺(tái)應(yīng)支持團(tuán)隊(duì)將合成數(shù)據(jù)生成與驗(yàn)證納入端到端AI生命周期中,從而在保障隱私安全的前提下,加速創(chuàng)新進(jìn)程。

編 輯:魏德齡
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對(duì)于經(jīng)過授權(quán)可以轉(zhuǎn)載,請(qǐng)必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問題,請(qǐng)?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時(shí)間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對(duì)此聲明的最終解釋權(quán)。
推薦閱讀

精彩視頻

精彩專題

關(guān)于我們廣告報(bào)價(jià)聯(lián)系我們隱私聲明本站地圖

CCTIME飛象網(wǎng) CopyRight © 2007-2025 By CCTIME.COM

京ICP備08004280號(hào)-1 電信與信息服務(wù)業(yè)務(wù)經(jīng)營(yíng)許可證080234號(hào) 京公網(wǎng)安備110105000771號(hào)

公司名稱: 北京飛象互動(dòng)文化傳媒有限公司

未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像