消息稱DeepSeek準備適配國產GPU
DeepSeek在研發大模型時繞過了英偉達的護城河CUDA,這讓美國不少巨頭們感到了很大的威脅,而現在這件事才剛開始。 DeepSeek真的繞過了CUDA,那這件事又意味著什麼?對此,北京航空航天大學黃雷副教授接受採訪時表示,繞過CUDA,可以直接根據GPU的驅動函數做一些新的開發,從而實現更細微的操作。

譬如DeepSeek在多節點通訊時繞過了CUDA 直接使用PTX(Parallel Thread Execution),其最多只能實現以演算法的方式來高效利用硬體層面的加速。
一旦速度變得更快,打個比方這就意味著別人家的模型要訓練十天,而DeepSeek只需要訓練五天,那麼就能給模型餵更多的數據,即能讓模型在同等時間內看到更多的數據,間接提高模型的效果。
根據消息人士的說法,DeepSeek擁有一些擅長寫PTX語言的內部開發者。
那麼,假如它之後使用國產GPU,其在硬體適配方面將會更得心應手,其只要了解這些硬體驅動提供的一些基本函數接口,就可以仿照英偉達GPU硬體的程式介面去寫相關的程式碼,從而讓自家大模型更容易適應國產硬體。