英偉達正在“壟斷”AI產業,國內廠商準備好了嗎?
“為了計算和人類的未來,我捐出世界上第一台DGX-1 。 ” 2016 年8 月,英偉達創始人黃仁勳,帶著一台裝載了8 塊P100 芯片的超級計算機DGX-1 ,來到了OpenAI 的辦公大樓。在現場人員到齊後,老黃拿出記號筆,在DGX-1 的機箱上寫下這句話。

與其一同前往的還有特斯拉和OpenAI 的創始人,埃隆馬斯克。

這次OpenAI 之行,老黃不為別的,就是為了把這台剛出爐的超算送給OpenAI ,給他們的人工智能項目研究加一波速。
這台DGX-1價值超過百萬,是英偉達超過3000名員工,花費三年時間打造。
這台DGX-1 ,能把OpenAI 一年的訓練時間,壓縮到短短一個月。
而這,是他對人工智能未來的豪賭,加的一波注。
七年之後,在前不久的GTC 大會上,老黃穿著皮衣,拿著芯片,整個宣講不離AI 。
似乎是在告訴各位, AI 的時代,我英偉達,就要稱王了,當年的豪賭,他贏了!

這麼說吧,在去年經歷一波礦難之後,不少人都以為曾靠著礦潮狂賺一筆的英偉達,會在礦難之下市值暴跌,一蹶不振。
但實際情況卻有點微妙……
英偉達的股價在跌了大半年之後,從十月份開始,一路上漲,到現在,整個英偉達市值已經漲回到了6500 億美元,是AMD的4 倍,英特爾的6 倍。

瞧瞧,這還是當年那個求著各位買顯卡的老黃嘛?
而讓英偉達的股價瘋漲的,那便是他們從十多年前就開始押注的AI 計算。
給大家一個數據,從15 年後,英偉達的GPU 在超算中心的市場份額就一路上漲,這幾年穩居90% 左右。

在獨立GPU 市場上,英偉達的市場佔有率也一度超過80% 。

另外,包括YouTube 、Cat Finder 、 AlphaGo 、 GPT-3 、 GPT-4 在內, AI 歷史上那些叫得出名的玩意,幾乎都是在英偉達的硬件上整出來的。
英偉達的硬件,彷彿就是新時代的內燃機,載著AI 時代不斷前進。
差友們可能會有點疑問,為什麼在AI 爆發的時代,好像就只有老黃有好處,其它的顯卡生產商們的顯卡不能訓練AI 嘛?
能訓練,但只能訓練一點點。
為啥?
這就不得不提到英偉達從2006 年就開始著手開發一個東西—— CUDA ( 統一計算設備架構)。
差評君簡單解釋一下它是乾嘛的,當你想要計算一些比較龐大的運算問題時,通過CUDA 編程,你就能充分利用GPU 的並行處理能力,從而大幅提升計算性能。
差評君說一個聽來的比喻。
CPU 就好比是個數學教授, GPU 就是100 個小學生,放一道高數題下來那100 個小學生可能會懵逼;但是放100 道四則口算題下來,那100 個小學生同時做肯定比數學教授快多了。

深度學習就是上面的例子中那100 道口算題,那個讓GPU 處理器並行運算的“ 工具” 就叫CUDA 。
一般來說,使用CUDA 和不使用CUDA ,兩者在計算速度上往往有數倍到數十倍的差距。
既然CUDA 這麼有用,為什麼其它的GPU 廠商不去搞個競品呢?
不是不去搞啊,而是他們真的沒想到!
在早期, GPU 的作用只是為了加速圖形渲染,各大廠商們認為它就是一個圖形專用計算芯片,並沒有想到把GPU 用在其它通用計算方面。至於拿來做深度學習?以那個年代的AI 能力,一是沒有太大的必要,二是也沒有人覺得它有用。

英偉達深度學習團隊的布萊恩在聊到CUDA 時這麼說道:
“ 在CUDA 推出十年以來,整個華爾街一直在問英偉達,為什麼你們做了這項投入,卻沒有人使用它?他們對我們的市值估值為0 美元。 ”

不過說沒人用也是過於嚴重了。
其實早在2012 年,多倫多大學的Alex Krizhevsky 就在ImageNet 計算機視覺挑戰賽中,利用GPU 驅動的深度學習擊敗了其它對手,當時他們使用的顯卡是GTX580 。

在這之後又經過了4 年,那些搞深度學習的人才突然意識到, GPU 的這種設計結構方式,在訓練AI 的速度上,真的是CPU 不能比的。
而擁有了CUDA 原生支持的英偉達GPU ,更是首要之選。
到現在,資本們已經看到了AI 的重要之處,為什麼大家都還在卷AI 模型,而不去卷老黃的市場呢?
原因在於,它們已經很難再拿到AI 加速芯片的入場券了。在人工智能產業上,整個深度學習的框架已經是老黃的形狀了。
AI 發展的數十年間,英偉達通過對CUDA 開發和社區的持續投入, CUDA 和各類AI 框架深度綁定。
當今使用排行靠前的各類AI 框架,就沒有不支持CUDA 的,也就是說你想要讓你的深度學習跑的快?買張支持CUDA 的高性能卡是最好的選擇,說人話就是——買N 卡吧。

當然,在CUDA 大力發展期間,也有其它公司在嘗試著打破英偉達這種接近壟斷的局面。
2008蘋果就提過出OpenCL 規範,這是一個統一的開放API ,旨在為各種不同的GPU 型號提供一個規範,用以開發類似CUDA 的通用計算軟件框架。
但是,通用就意味著不一定好用。

因為各大廠商GPU 的型號繁而復雜,為了適應各種硬件,驅動版本也多如牛毛,質量參差不齊。而且缺少對應的廠商進行針對性的優化,所以,無論是哪一個版本的OpenCL ,在同等算力下,都比不過使用CUDA 的速度。
而且恰恰是因為OpenCL 的通用性,想要開發支持OpenCL 的框架,要比開發CUDA 的複雜不少。原因還是同一個,缺少官方的支持,看看英偉達對CUDA開發的工具支持吧,CUDA Toolkit,NVIDIA GPU Computing SDK以及NSight等等。
OpenCL這邊,就略顯寒酸了……
這就導致如今能支持OpenCL 的深度學習框架寥寥無幾。
舉個很簡單的例子,當下最火的框架PyTorch ,就連官方都沒有專門對OpenCL進行支持,還得靠著第三方開源項目才能用。

那同為顯卡供應商的AMD ,在面對老黃如日中天的CUDA 時,除了OpenCL ,有沒有自己的解決辦法呢?
方法確實是有,但效果也確實不咋的。
2016 年AMD 發布了全新的開放計算平台—— ROCm ,對標的就是英偉達的CUDA ,最關鍵的一點是,它還在源碼級別上對CUDA 程序進行支持。
你看,就算是老黃的死對頭AMD ,想的也不是另起爐灶,而是降低自己適配CUDA 的門檻……
但是,時至今日, ROCm 依然還是只支持Linux 平台,可能也是用的人太少了,有點擺爛的味道,畢竟,既然你支持CUDA ,那我為什麼要費盡心力去給你的ROCm 專門編寫一套支持框架呢?

同年,Google也有了行動,但畢竟不是芯片製造商,Google只是推出了自己的TPU 平台,專門針對自家的TensorFlow 框架進行優化,當然原生支持的最好的也只有TensorFlow 了。
至於英特爾那邊,也推出了一個OneAPI ,對標老黃的CUDA ,不過由於起步較晚,現在還處於發展生態的環節,未來會怎樣還不太好說。
所以靠著先發優勢還有原生支持,導致現在的深度學習,基本上離不開英偉達的GPU 和他的CUDA 。

最近大火的ChatGPT ,就用了老黃的HGX 主板和A100 芯片,而老黃對此也是很有自信的說道:
“ 現在唯一可以實際處理ChatGPT 的GPU ,那就只有我們家的HGX A100 。 ”
沒錯,沒有其它可用的了,這就是老黃的有恃無恐。

而隨著OpenAI 對大模型AI 的成功驗證,各家巨頭對大模型AI 的紛紛入局,英偉達的卡已經立馬成了搶手貨。

所以如今的AI 創業公司,出現了一件很有意思的現象,在他們的項目報告上,往往會搭上一句我們擁有多少塊英偉達的A100 。
當大家在AI 行業紛紛投資淘金時,英偉達就這樣靠著給大家賣水——提供AI 加速卡,大賺特賺,關鍵還在於,只有它賣的水能解渴。
因為它的硬件以及工具集,已經能影響到整個AI 產業的戰局和發展速度了。

更可怕的是,英偉達的優勢已經形成了一種壁壘,這壁壘厚到就連全球第二大GPU 廠商AMD 都沒有辦法擊穿。
所以在AI 大浪滔天的現在,能整出屬於自己的AI 大模型固然重要,但差評君卻覺得,啥時候能有自己的英偉達和CUDA 也同樣不可小覷。
當然,這條路也更難。

最後,差評君覺得在未來,我們需要抓緊突破的,絕對不只是對人工智能大模型相關的研究,更為重要的是整個計算芯片的設計,製造,以及AI 生態的建設。
新的工業革命已經到來, AI 技術的發展不僅加速了人類生產力的發展,也加速了那些落後產能的淘汰,現在各行各業都處在變革的前夕。
強者越強,弱者無用。雖然這句話很殘酷,但在AI領域,如果不奮力追上,可能真的已經不需要“ 弱者” 了。
來源:差評