國家數據局頒新措：構建詞元價值體系

大公報 A14：內地 2026-06-09

　　【大公報訊】記者郭瀚林北京報道：近日，國家數據局發布《關於推進行業高質量數據集建設行動的實施方案》（下文簡稱《方案》），這是國家層面首次對數據賦能人工智能發展作出系統性部署。其中提出，到2028年底，建成一批覆蓋重點領域、經過應用驗證的行業高質量數據集，打造一批數據驅動人工智能創新發展的典型應用場景，數據賦能人工智能創新發展的作用更加凸顯，數據產業與人工智能深度融合，持續催生智能經濟新增長點。

　　據介紹，行業高質量數據集是經過採集、加工等數據處理，可直接用於開發和訓練人工智能模型，能有效提升模型性能的行業數據的集合。《方案》圍繞行業高質量數據集供給、流通、應用等關鍵環節，提出面向人工智能應用需求，持續推進文本、圖像、音視頻等多模態高質量數據集建設；聚焦智能體、具身智能和世界模型等重點方向，要求加快推進數據集建設。

　　《方案》還提出，探索行業高質量數據集資產化創新路徑。鼓勵有條件的單位率先探索開展數據集資產盤點、登記、評估等試點工作，為數據資產化積累可複製、可推廣的經驗。鼓勵探索數據集質押融資、作價入股、資產證券化、數據信託、數據保險等多元資產化創新模式。

　　專家：降低AI模型訓練成本

　　《方案》要求，釋放數據要素價值，推動數據集商業化、資產化，培育為數據付費的市場共識，探索以詞元（Token）為基礎的價值體系。

　　山東大學網絡空間安全學院副教授李增鵬對大公報記者表示，高質量數據集可以加速提升大模型的性能，而傳統數據交易模式定價、確權不明晰，高價值專業數據與低價值通用數據往往「魚龍混雜」，難以匹配當今AI產業發展需求。而以詞元為基礎構建新的數據價值體系，將打破數據價值「黑箱」，讓AI訓練所需的多模態數據實現更精準的估價，大幅提升數據資產的復用率和盈利能力。同時也會大幅降低AI企業的模型訓練成本，方便中小企業入局，為產業的健康發展築牢數據根基，助力中國人工智能產業搶佔技術先機。

讀大公報PDF版面