深圳河套學院 30日成功訓練萬億級大模型


  人工智能時代,國產算力的大模型高效訓練和推理是國家發展戰略的大問題。長期以來,全球範圍內萬億級大模型訓練多採用海外高端算力產品,國內國產算力此前主要用於模型推理、小幅微調,難以完成全參數深度訓練。

  日前,深圳河套學院聯合多家單位組成的項目團隊開展攻關,僅用1個月時間,依託昇騰910C國產AI算力集群,完成DeepSeek-V4-Pro 1.6萬億參數大模型訓練,實現模型算力利用率(MFU)超過30%,各項指標均達到工業級運行標準,印證了國產AI芯片可支撐世界級超大參數模型訓練工作,打破海外技術壟斷。\大公報記者 李望賢深圳報道

  證國產AI芯片可支撐世界級超大模型訓練

  是次實踐,由深圳河套學院AI訓練平台項目團隊,聯合哈爾濱工業大學(深圳)、深圳市大數據研究院、華為有關團隊,協同深智城AI算力平台,面向國產算力大模型訓練開展聯合攻關,依託昇騰910C國產AI算力集群,完成1.6萬億參數大模型DeepSeek-V4-Pro全參數後訓練。

  據介紹,萬億參數大模型是人工智能領域的主流前沿模型,在邏輯推理、數理計算、代碼編寫、長文本理解等方面表現突出。這類模型的全參數訓練,對硬件算力、集群穩定性、算法適配優化均有嚴苛要求。長期以來,全球範圍內萬億級大模型訓練多採用海外高端算力產品,國內國產算力此前主要用於模型推理、小幅微調,難以完成全參數深度訓練,這也是行業發展中普遍面臨的技術難題。

  打造「專家團」模型 跨卡通信不「堵車」

  是次訓練的DeepSeek-V4-Pro採用的是混合專家模型(MoE)架構,猶如一個龐大的「專家團」:平時回答問題只激活少數幾位專家,看似高效,但後訓練時,「專家們」之間的溝通量卻是普通模型的幾十倍。再加上動態切換的注意力機制,這對芯片算力的調度和顯存資源的管理提出了極其苛刻的要求。

  本次訓練項目團隊通過三大硬核技術的突破,破解算力難題。包括構建了權重、梯度、激活、優化器狀態的分布式承載方案,把龐大的模型參數做成一套「顯存拼圖」,把每一塊都精準地分配到千卡集群的每一張卡上。其次,如果把MoE模型比作一個專家天團,在訓練過程中最怕的就是「分配不均」,團隊持續優化調度策略,對於關鍵訓練算子進行了深度適配與優化,同時建立了專家負載的實時監控與均衡機制,保證了每位「專家」分工合理各司其職,跨卡通信不再「堵車」。

  此外,專家天團火力全開的過程中,最可怕的不是慢,而是「跑着跑着就崩了」。當訓練跑上幾天幾夜,誰來守夜?項目團隊搭建了完整的監控體系,所有指標均可視、可告警、可自愈,全部實現可控,確保了長達1500多步的訓練過程中,沒有出現一次中斷或報錯。

  據公開資料檢索,這也是業界首個由第三方機構基於國產算力集群完成的DeepSeek-V4-Pro全參數後訓練工程實踐,本次項目的成功探索,標誌着國產算力適配超大參數大模型邁出了實踐重要一步。

  不僅如此,該項目模型算力利用率(MFU)達到約30%,關鍵訓練算子計算效率較初始版本提升約14%,各項指標均達到工業級運行標準。這將有助於提升國內AI產業鏈自主化水平,降低行業應用成本,為人工智能技術落地應用提供更多支撐。