國產芯片成功訓練萬億級AI大模型三大硬核技術突破各項指標達工業級運行標準

香港文匯報要聞 2026-06-06

●日前，深圳河套學院聯合多家單位組成的項目團隊開展攻關，僅用一個月時間，依託昇騰910C國產AI算力集群，完成DeepSeek-V4-Pro1.6萬億參數大模型訓練。圖為深圳河套學院。香港文匯報記者李望賢攝

●深圳河套學院項目團隊開展技術復盤與學生實戰培養，在這一過程中，同學們不只是參與項目進展，更是承擔具體任務的「戰鬥員」。香港文匯報深圳傳真

　　人工智能時代，國產算力的大模型高效訓練和推理是國家發展戰略的大問題。日前，深圳河套學院聯合多家單位組成的項目團隊開展攻關，僅用一個月時間，依託昇騰910C國產AI算力集群，完成DeepSeek-V4-Pro1.6萬億參數大模型訓練，實現模型算力利用率（MFU）超過30%，各項指標均達到工業級運行標準，印證了國產AI芯片可支撐世界級超大參數模型訓練工作。

　　據公開資料檢索，這也是業界首個由第三方機構基於國產算力集群完成的DeepSeek-V4-Pro全參數後訓練工程實踐，本次項目的成功探索，標誌着國產算力適配超大參數大模型邁出了實踐的重要一步。 ●香港文匯報記者李望賢深圳報道

　　是次實踐由深圳河套學院AI訓練平台項目團隊，聯合哈爾濱工業大學（深圳）、深圳市大數據研究院、華為有關團隊，協同深智城AI算力平台共同完成。據介紹，萬億參數大模型是人工智能領域的主流前沿模型，在邏輯推理、數理計算、代碼編寫、長文本理解等方面表現突出。這類模型的全參數訓練，對硬件算力、集群穩定性、算法適配優化均有嚴苛要求。

　　長期以來，全球範圍內萬億級大模型訓練多採用海外高端算力產品，國內國產算力此前主要用於模型推理、小幅微調，難以完成全參數深度訓練，這也是行業發展中普遍面臨的技術難題。是次訓練的DeepSeek-V4-Pro採用的是混合專家模型（MoE）架構，猶如一個龐大的「專家團」：平時回答問題只激活少數幾位專家，看似高效，但後訓練時，「專家們」之間的溝通量卻是普通模型的幾十倍。再加上動態切換的注意力機制，這對芯片算力的調度和顯存資源的管理提出了極其苛刻的要求。

　　從「能跑」到「能訓訓穩訓優」

　　本次訓練項目團隊通過三大硬核技術的突破，破解算力難題，實現了從「能跑」到「能訓訓穩訓優」。首先，把龐大的模型參數做成一套「顯存拼圖」，把每一塊都精準地分配到千卡集群的每一張卡上。

　　其次，如果把MoE模型比作一個「專家團」，在訓練過程中最怕的就是「分配不均」，團隊持續優化調度策略，對於關鍵訓練算子進行了深度適配與優化，同時建立了「專家」負載的實時監控與均衡機制，保證了每位「專家」分工合理各司其職，跨卡通信不再「堵車」。

　　此外，「專家團」火力全開的過程中，最可怕的不是慢，而是「跑着跑着就崩了」。當訓練跑上幾天幾夜，誰來守夜？項目團隊搭建了完整的監控體系，所有指標均可視、可告警、可自愈，全部實現可控，確保了長達1,500多步的訓練過程中，沒有出現一次中斷或報錯。

　　模型算力利用率超過30%

　　不僅如此，該項目模型算力利用率（MFU）超過30%，關鍵訓練算子計算效率較初始版本提升約14%，各項指標均達到工業級運行標準。這將有助於提升國內AI產業鏈自主化水平，降低行業應用成本，為人工智能技術落地應用提供更多支撐。

　　深圳河套學院方面表示，未來將繼續聯合合作夥伴優化算力集群性能，進一步提升訓練效率，降低萬億模型訓練的算力成本。圍繞長文本處理、數學建模優化、AI智能體等方向開展技術探索，持續挖掘國產算力應用潛力。

讀香港文匯報PDF版面

國產芯片成功訓練萬億級AI大模型 三大硬核技術突破 各項指標達工業級運行標準

國產芯片成功訓練萬億級AI大模型三大硬核技術突破各項指標達工業級運行標準