翹首以待/DeepSeek新模型R2 傳春節後發布

  DeepSeek創辦人梁文鋒日前發表共同掛名論文,提出一套名為「流形約束超連接」(mHC)的全新模型訓練方法。隨着該論文面世,坊間猜測DeepSeek將推出下一代旗艦模型R2。現時證券界估計DeepSeek將於2月份春節前後公布R2。

  值得一提的是,mHC架構是通過將超連接的殘差空間,投影到雙隨機矩陣流形上,解決擴展殘差寬度帶來的訓練不穩定性問題,同時配合內核融合與通信重疊等工程優化手段,以僅6.7%的額外開銷實現模型性能與規模的同步提升,為大模型訓練優化提供切實的性能改進路徑與可擴展空間。

  DeepSeek去年推出R1模型,震撼全球資訊科技界,皆因RI模型開發費用遠低於美國科技企業同樣模型。分析師指出,R2或再次震動全球AI版圖,儘管Google Gemini 3去年11月超越OpenAI躋身效能榜前三,但中國低成本模型仍在前15強中佔據兩個席位。