【全球觀察】DeepSeek有望在中國帶來新一輪AI應用浪潮

  林仲衡、林芷若 中銀國際研究有限公司

  中銀國際近日邀請具備中國領先雲服務商背景的人工智能(AI)專家,深度剖析DeepSeek這一中國最新推出的大語言模型。該模型的智能水平可比肩全球頂尖水平,直接對標OpenAI o1等國際最先進模型。以下為是次專家會談摘要和筆者就此作出的一些解讀。

  訓練數據及算法異於其他先進模型

  首先在數據集方面,DeepSeek的訓練數據主要來自三方面:(一)來自其他語言大模型的「蒸餾數據」 ,此技術透過使用經「精煉」的數據提高模型的學習效率;(二)DeepSeek V3和R1模型互相產生的合成數據,即由算法產生,模擬世界知識的數據;及 (三)真實數據。DeepSeek據稱大量採用合成數據,其V3和R1模型的訓練數據分別有80%和50%為合成數據,而阿里巴巴集團旗下通義和OpenAI的使用率為10%至20%。

  在算法方面,由於DeepSeek採用大量合成數據,因此順理成章使用了混合專家稀疏架構,而非通義和OpenAI使用的稠密架構。顧名思義,前者集思廣益,集合各領域的專家(子模型)解決問題,而由於其稀疏性,即並非每位專家也會被激活參與解決每次任務,而是各施所長,因此大大提升了計算效率。

  另外,受圖形處理單元(GPU)資源所限,DeepSeek採用了如FP8的低精度訓練方式,而其如文心一言和豆包的競爭對手則利用FP16或FP32進行高精度訓練。乍看字面前者似是精準度較低、較遜的訓練方式,但其實DeepSeek是輕重有別,對計算中不需要太精確的地方使用了較簡單的方式處理來提高效率。

  AI工程改良上破舊立新

  DeepSeek的R1-ZERO模型更大膽跳過有監督微調訓練(Supervised Fine-Tuning),不再向基礎模型輸入標註好的數據集進行微調訓練,而是放手讓模型僅透過強化學習(Reinforcement Learning)自我反思、驗證和提升推理能力。DeepSeek使用了Proximal Policy Optimisation(PPO)強化學習算法的改進版Group Relative Policy Optimisation(GRPO),有別於基於單個樣本的PPO算法,GRPO會比較一組樣本的表現,只有表現優於組內平均水平的策略才會被保留或改良,以團隊協作提高強化學習的成效。此外,DeepSeek使用了優化Parallel Thread Execution(PTX)底層算法的策略,而非僅優化傳統AI團隊所依賴的高級GPU程序語言CUDA,前者讓AI工程師實現了更精細的優化調整。這也是DeepSeek團隊在GPU硬件資源受限情況下無心插柳的一舉。

  得益於以上技術突破,V3的總開發成本估計僅為2,500萬至3,000萬美元,而當中550萬美元的所謂訓練成本來自V3的單次訓練項目。由於算法優化和架構的改良,V3的開發成本僅為行業平均水平的約二十分之一。除了訓練費用低廉,DeepSeek在推論階段產生的成本亦相當低,這解釋了為何RI的應用程序編程接口(API)價格可較OpenAI低96%。該專家預計,今年主要AI平台之間可能會出現新一輪的API價格戰。

  會上專家認為,DeepSeek對AI界帶來的最大貢獻是在AI工程改良上破舊立新,例如上文提到的PTX優化語言、合成數據的使用、強化學習及混合專家模式帶來的效率提升等。就未來發展路徑而言,專家認為DeepSeek可能會集中在多模態大模型的蒸餾技術。同時DeepSeek也在面對迭代方面的挑戰,例如蒸餾技術在模型迭代次數上的限制和缺乏近期(2024-25年)數據(DeepSeek的數據截至2023年)。

  總體而言,DeepSeek的問世具有里程碑意義。首先其開源舉措為全球AI產業貢獻了非常重要的技術進展,有很大的參考價值,令AI技術得以繼續快速迭代;其次DeepSeek也使中國AI應用層的企業得以首次直接用上可比肩OpenAI o1和Claude 3.5 Sonnet的世界級推理模型,未來有望在中國帶來新一輪AI應用浪潮。

  題為編者所擬。本版文章,為作者之個人意見,不代表本報立場。