國產芯片成功訓練萬億級AI大模型 三大硬核技術突破 各項指標達工業級運行標準

●日前,深圳河套學院聯合多家單位組成的項目團隊開展攻關,僅用一個月時間,依託昇騰910C國產AI算力集群,完成DeepSeek-V4-Pro1.6萬億參數大模型訓練。圖為深圳河套學院。 香港文匯報記者李望賢  攝
●日前,深圳河套學院聯合多家單位組成的項目團隊開展攻關,僅用一個月時間,依託昇騰910C國產AI算力集群,完成DeepSeek-V4-Pro1.6萬億參數大模型訓練。圖為深圳河套學院。 香港文匯報記者李望賢 攝

●深圳河套學院項目團隊開展技術復盤與學生實戰培養,在這一過程中,同學們不只是參與項目進展,更是承擔具體任務的「戰鬥員」。 香港文匯報深圳傳真
●深圳河套學院項目團隊開展技術復盤與學生實戰培養,在這一過程中,同學們不只是參與項目進展,更是承擔具體任務的「戰鬥員」。 香港文匯報深圳傳真

  人工智能時代,國產算力的大模型高效訓練和推理是國家發展戰略的大問題。日前,深圳河套學院聯合多家單位組成的項目團隊開展攻關,僅用一個月時間,依託昇騰910C國產AI算力集群,完成DeepSeek-V4-Pro1.6萬億參數大模型訓練,實現模型算力利用率(MFU)超過30%,各項指標均達到工業級運行標準,印證了國產AI芯片可支撐世界級超大參數模型訓練工作。

  據公開資料檢索,這也是業界首個由第三方機構基於國產算力集群完成的DeepSeek-V4-Pro全參數後訓練工程實踐,本次項目的成功探索,標誌着國產算力適配超大參數大模型邁出了實踐的重要一步。 ●香港文匯報記者 李望賢 深圳報道

  是次實踐由深圳河套學院AI訓練平台項目團隊,聯合哈爾濱工業大學(深圳)、深圳市大數據研究院、華為有關團隊,協同深智城AI算力平台共同完成。據介紹,萬億參數大模型是人工智能領域的主流前沿模型,在邏輯推理、數理計算、代碼編寫、長文本理解等方面表現突出。這類模型的全參數訓練,對硬件算力、集群穩定性、算法適配優化均有嚴苛要求。

  長期以來,全球範圍內萬億級大模型訓練多採用海外高端算力產品,國內國產算力此前主要用於模型推理、小幅微調,難以完成全參數深度訓練,這也是行業發展中普遍面臨的技術難題。是次訓練的DeepSeek-V4-Pro採用的是混合專家模型(MoE)架構,猶如一個龐大的「專家團」:平時回答問題只激活少數幾位專家,看似高效,但後訓練時,「專家們」之間的溝通量卻是普通模型的幾十倍。再加上動態切換的注意力機制,這對芯片算力的調度和顯存資源的管理提出了極其苛刻的要求。

  從「能跑」到「能訓訓穩訓優」

  本次訓練項目團隊通過三大硬核技術的突破,破解算力難題,實現了從「能跑」到「能訓訓穩訓優」。首先,把龐大的模型參數做成一套「顯存拼圖」,把每一塊都精準地分配到千卡集群的每一張卡上。

  其次,如果把MoE模型比作一個「專家團」,在訓練過程中最怕的就是「分配不均」,團隊持續優化調度策略,對於關鍵訓練算子進行了深度適配與優化,同時建立了「專家」負載的實時監控與均衡機制,保證了每位「專家」分工合理各司其職,跨卡通信不再「堵車」。

  此外,「專家團」火力全開的過程中,最可怕的不是慢,而是「跑着跑着就崩了」。當訓練跑上幾天幾夜,誰來守夜?項目團隊搭建了完整的監控體系,所有指標均可視、可告警、可自愈,全部實現可控,確保了長達1,500多步的訓練過程中,沒有出現一次中斷或報錯。

  模型算力利用率超過30%

  不僅如此,該項目模型算力利用率(MFU)超過30%,關鍵訓練算子計算效率較初始版本提升約14%,各項指標均達到工業級運行標準。這將有助於提升國內AI產業鏈自主化水平,降低行業應用成本,為人工智能技術落地應用提供更多支撐。

  深圳河套學院方面表示,未來將繼續聯合合作夥伴優化算力集群性能,進一步提升訓練效率,降低萬億模型訓練的算力成本。圍繞長文本處理、數學建模優化、AI智能體等方向開展技術探索,持續挖掘國產算力應用潛力。