國家數據局頒新措:構建詞元價值體系

  【大公報訊】記者郭瀚林北京報道:近日,國家數據局發布《關於推進行業高質量數據集建設行動的實施方案》(下文簡稱《方案》),這是國家層面首次對數據賦能人工智能發展作出系統性部署。其中提出,到2028年底,建成一批覆蓋重點領域、經過應用驗證的行業高質量數據集,打造一批數據驅動人工智能創新發展的典型應用場景,數據賦能人工智能創新發展的作用更加凸顯,數據產業與人工智能深度融合,持續催生智能經濟新增長點。

  據介紹,行業高質量數據集是經過採集、加工等數據處理,可直接用於開發和訓練人工智能模型,能有效提升模型性能的行業數據的集合。《方案》圍繞行業高質量數據集供給、流通、應用等關鍵環節,提出面向人工智能應用需求,持續推進文本、圖像、音視頻等多模態高質量數據集建設;聚焦智能體、具身智能和世界模型等重點方向,要求加快推進數據集建設。

  《方案》還提出,探索行業高質量數據集資產化創新路徑。鼓勵有條件的單位率先探索開展數據集資產盤點、登記、評估等試點工作,為數據資產化積累可複製、可推廣的經驗。鼓勵探索數據集質押融資、作價入股、資產證券化、數據信託、數據保險等多元資產化創新模式。

  專家:降低AI模型訓練成本

  《方案》要求,釋放數據要素價值,推動數據集商業化、資產化,培育為數據付費的市場共識,探索以詞元(Token)為基礎的價值體系。

  山東大學網絡空間安全學院副教授李增鵬對大公報記者表示,高質量數據集可以加速提升大模型的性能,而傳統數據交易模式定價、確權不明晰,高價值專業數據與低價值通用數據往往「魚龍混雜」,難以匹配當今AI產業發展需求。而以詞元為基礎構建新的數據價值體系,將打破數據價值「黑箱」,讓AI訓練所需的多模態數據實現更精準的估價,大幅提升數據資產的復用率和盈利能力。同時也會大幅降低AI企業的模型訓練成本,方便中小企業入局,為產業的健康發展築牢數據根基,助力中國人工智能產業搶佔技術先機。