深圳河套學院 30日成功訓練萬億級大模型

大公報 A13：內地 2026-06-06

　　人工智能時代，國產算力的大模型高效訓練和推理是國家發展戰略的大問題。長期以來，全球範圍內萬億級大模型訓練多採用海外高端算力產品，國內國產算力此前主要用於模型推理、小幅微調，難以完成全參數深度訓練。

　　日前，深圳河套學院聯合多家單位組成的項目團隊開展攻關，僅用1個月時間，依託昇騰910C國產AI算力集群，完成DeepSeek-V4-Pro 1.6萬億參數大模型訓練，實現模型算力利用率（MFU）超過30%，各項指標均達到工業級運行標準，印證了國產AI芯片可支撐世界級超大參數模型訓練工作，打破海外技術壟斷。\大公報記者李望賢深圳報道

　　證國產AI芯片可支撐世界級超大模型訓練

　　是次實踐，由深圳河套學院AI訓練平台項目團隊，聯合哈爾濱工業大學（深圳）、深圳市大數據研究院、華為有關團隊，協同深智城AI算力平台，面向國產算力大模型訓練開展聯合攻關，依託昇騰910C國產AI算力集群，完成1.6萬億參數大模型DeepSeek-V4-Pro全參數後訓練。

　　據介紹，萬億參數大模型是人工智能領域的主流前沿模型，在邏輯推理、數理計算、代碼編寫、長文本理解等方面表現突出。這類模型的全參數訓練，對硬件算力、集群穩定性、算法適配優化均有嚴苛要求。長期以來，全球範圍內萬億級大模型訓練多採用海外高端算力產品，國內國產算力此前主要用於模型推理、小幅微調，難以完成全參數深度訓練，這也是行業發展中普遍面臨的技術難題。

　　打造「專家團」模型跨卡通信不「堵車」

　　是次訓練的DeepSeek-V4-Pro採用的是混合專家模型（MoE）架構，猶如一個龐大的「專家團」：平時回答問題只激活少數幾位專家，看似高效，但後訓練時，「專家們」之間的溝通量卻是普通模型的幾十倍。再加上動態切換的注意力機制，這對芯片算力的調度和顯存資源的管理提出了極其苛刻的要求。

　　本次訓練項目團隊通過三大硬核技術的突破，破解算力難題。包括構建了權重、梯度、激活、優化器狀態的分布式承載方案，把龐大的模型參數做成一套「顯存拼圖」，把每一塊都精準地分配到千卡集群的每一張卡上。其次，如果把MoE模型比作一個專家天團，在訓練過程中最怕的就是「分配不均」，團隊持續優化調度策略，對於關鍵訓練算子進行了深度適配與優化，同時建立了專家負載的實時監控與均衡機制，保證了每位「專家」分工合理各司其職，跨卡通信不再「堵車」。

　　此外，專家天團火力全開的過程中，最可怕的不是慢，而是「跑着跑着就崩了」。當訓練跑上幾天幾夜，誰來守夜？項目團隊搭建了完整的監控體系，所有指標均可視、可告警、可自愈，全部實現可控，確保了長達1500多步的訓練過程中，沒有出現一次中斷或報錯。

　　據公開資料檢索，這也是業界首個由第三方機構基於國產算力集群完成的DeepSeek-V4-Pro全參數後訓練工程實踐，本次項目的成功探索，標誌着國產算力適配超大參數大模型邁出了實踐重要一步。

　　不僅如此，該項目模型算力利用率（MFU）達到約30%，關鍵訓練算子計算效率較初始版本提升約14%，各項指標均達到工業級運行標準。這將有助於提升國內AI產業鏈自主化水平，降低行業應用成本，為人工智能技術落地應用提供更多支撐。

讀大公報PDF版面