話你知/如何讓AI大模型學會自我反思?

  如果把訓練一個萬億級參數的AI大模型比作解一道超級複雜的數學題,那麼每一張計算卡就像一名解題員。他們不僅要分工明確、日夜不停地連軸轉,還不能有人偷懶、不能有人出錯,更不能有人掉隊。

  這次訓練的DeepSeek-V4-Pro採用的是混合專家模型(MoE)架構,可以把它想像成一個龐大的「專家團」:平時回答問題只激活少數幾位專家,看似高效,但後訓練時,「專家們」之間的溝通量卻是普通模型的幾十倍。再加上動態切換的注意力機制,這對芯片算力的調度和顯存資源的管理提出了極其苛刻的要求。

  簡單來說,以前的國產算力更多是讓大模型「能用」(即推理部署),就像給模型修了一條單行道,輸入一個問題,輸出一個答案。而這次的「全參數後訓練」,則是要讓模型學會自我反思和調整,相當於在單行道的基礎上,又增加了複雜的立交橋和多條反饋回路,計算量和通信量瞬間翻了好幾倍。\深視新聞