消息指出DeepSeek繞過CUDA 為適配中國國產GPU做準備
DeepSeek全球爆火,再一次引發外界對GPU算力限制話題的關注。據報道,DeepSeek開發的大語言模型繞過了英偉達的CUDA框架,正為未來兼容國產GPU晶片做準備。

眾所周知,英偉達的CUDA(Compute Unified Device Architecture,統一運算架構)能大幅降低研發大模型的難度,獲全球開發商使用,一舉將英偉達推上AI晶片領域的壟斷地位。
但最新發現顯示,DeepSeek使用英偉達的H800晶片訓練時,使用英偉達底層硬體指令PTX(Parallel Thread Execution)語言,而非高階程式語言CUDA。
這樣意味著DeepSeek繞過了CUDA,使用更底層的程式語言做最佳化。
對於程式開發人員來說,CUDA是一種更友善的高階語言,開發者只需要專注於程式和演算法最相關的運作邏輯,而不太需要考慮具體的程式是如何在GPU等硬體上具體如何執行計算的,從而能夠降低開發難度。
而PTX在接近組譯語言的層級運行,允許進行細粒度的最佳化,如暫存器分配和Thread / Warp層級的調整。這種程式設計非常複雜且難以維護,所以業界通用的做法是使用CUDA這樣的高階程式語言。
換句話說,DeepSeek把優化做到了極致。
北京航空航天大學副教授黃雷表示,繞過CUDA可以直接根據GPU的驅動函數做一些新的開發,從而實現更細粒度的操作。
這也說明DeepSeek擁有一些擅長寫PTX語言的內部開發者。假如它之後使用國產GPU,其在硬體適配方面將會更得心應手,其只要了解這些硬體驅動提供的一些基本函數接口,就可以仿照英偉達GPU硬體的編程接口去寫相關的代碼,從而讓自家大模型更加容易適配國產硬體。
「這凸顯了DeepSeek非凡的工程水平,並表明美國對華制裁加劇的『GPU短缺危機』激發了他們緊迫感和創造力。」韓國Mirae Asset Securities Research的一名分析師表示。