平庸向左,黃仁勳向右
創立一家公司很容易,保持一家公司活著很難。為了讓曾經多次處在存亡之際的英偉達能夠活下去,聯合創始人兼CEO 黃仁勳(Jensen Huang) 在過去的29年裡曾經做出許多在當時極具風險的決定。
文/杜晨
來源/矽星人
1.
神奇的是,這些決定當中的絕大多數,最後竟然都被證明是正確的:從TNT,到可編程Shader(著色器),再到CUDA 架構以及其開源和前向兼容,以及總是超過當前圖形市場主流應用場景需求的算力和存儲性能水平——這些關鍵的技術和產品,以及革新性的戰略決策,一次又一次將英偉達在計算市場的地位推至新高。
在營銷策略助推下,今天的人們尊稱黃仁勳為“AI教父”,誇張地將英偉達的圖形計算產品描述為“核彈”。然而實際上,黃仁勳並沒有什麼封神的幻想——他做出的很多決定,完全是為了避免自己最害怕的事情發生:
英偉達淪為一家平庸的個人電腦零部件供應商。
“屏幕上就有那麼多像素,芯片上能加的功能就那麼多,但晶體管的數量還在不斷增加。這樣下去,在某個時間點上,圖形計算性能完全可以足夠任何人使用。你看今天各種集成顯卡,性能又好,又不要錢,就會發現這個分析是完全正確的,”
“那麼,如果我們不重新發明電腦圖形計算,不革自己的命,不徹底解放這塊圖形處理器的能力的話,結局就是英偉達必然會被商品化(commoditized)。”
——黃仁勳,via Stratechery
帶著這樣的恐懼,黃仁勳走上了一條自己革自己命的創業路。這條路,走到今天,已將近三十年。
2.
最近,英偉達召開了年度技術大會GTC 2022,發布了最新一代商用級H100 GPU,和以知名計算機科學家Grace Hopper 命名的Hopper 架構。新架構採用台積電4納米製程工藝,內存帶寬達到每秒3TB,在32和64位浮點計算上相比前一代Ampere 架構的A100 GPU 快了三倍。
H100 已經成為最新一代“核彈”,但英偉達還有更多殺手鐧:
通過最新的互聯技術NVLink 技術,8張H100單卡連接構成了的DGX H100 模組化超級計算機,算力達到了驚人的1EFlops;而NVLink Switch 技術在擴展性上也獲得了史詩級提升,支持最多256張H100 GPU 互聯。
由於GPU 進行深度學習計算需要大量的內存帶寬,英偉達甚至和ARM 合作開發了一款採用全新Grace 架構的CPU,專門用來輔助GPU 進行帶寬分配,從而讓GPU 可以全力開動進行計算,不會因為在內存帶寬上受到限製而影響發揮。
早已在深度學習計算方面身位領先的英偉達,再一次打造了新的GPU、CPU 架構、互聯技術。今天這家公司早已不再是單純的顯卡技術公司——它已經將圖形加速計算的功力推到極限,為深度學習計算帶來了新的可能性。
在GTC 大會上,黃仁勳認為人類將會迎來AI 被AI(而不只是人類)所創造出來的時代,並將其稱為“生產智能”(intelligence manufacturing)。
會後,黃仁勳接受了Stratechery 博客主筆/知名分析師Ben Thompson 的採訪。特別的是,黃仁勳在這次採訪中談到了一些過去鮮少討論的話題——特別是對於公司平庸化的恐懼,以及英偉達三十年的創業路走到今天的感悟。
在他看來,沒有比讓英偉達變成“Wintel” 生態下的一家普通供應商更可怕的事情了。
2009年,黃仁勳在斯坦福大學做了一場名為“Vision Matters”的演講。其中,他回憶起了公司在2000年推出可編程像素著色器(programmable pixel shader, 以下簡稱可編程shader),在當時差點要了公司的命。
但是如果沒做那個決定,英偉達可能就不會獲得今天的行業地位。
作为独立图形处理器概念的主要推手,英伟达拿着红衫等投资者的2000多万美元苦心研发 GPU 技术,虽然头两款产品 NV1、NV2 GPU 都遭遇了失败,还好 NV3(正式命名为 RIVA 128)由于技术相对先进、价格低廉,推出不到1年就实现了100万枚出货量。在 RIVA 128 打下的基础上,英伟达又在次年推出了 RIVA TNT,性能显著优于当时的竞争对手 3dfx 的产品,成功揽下当时多家显卡厂商加入其阵营。
RIVA 128 和TNT 的優秀戰績,助推英偉達在1999年成功上市,然而當時的黃仁勳已經不再看好這兩款產品所代表的技術理念了。
早年的GPU 產品,包括RIVA TNT 在內,都屬於固定功能的芯片。這類芯片的優勢就是運行固定功能的效率很高。
然而在黃仁勳看到的未來里,提升GPU 的純粹性能將變得毫無意義。因為屏幕上的像素總量是有限的,一個處理器裡能放進去的既有功能也是有限的。結果就是,總有一天人們將會滿足於現有GPU 的性能,不再需要更新更快的GPU……屆時,英偉達將會淪為一家平庸的PC 零部件供應商。
於是,黃仁勳開始了英偉達的第一次“離經叛道”:推出了可編程shader。
英偉達這樣做的背後理念,就是改變GPU 作為固定功能處理器的身份,將它變成一個可編程的處理器,讓用戶可以在英偉達GPU 上做更多創意工作,包括3D渲染、特效製作、遊戲開發等——這樣,英偉達GPU 的用戶將不僅僅是普通消費者,也將包括開發者。
3.
這次轉型差點要了英偉達的命,不是因為這個方向錯了——它是正確的,只是發生得太早了。
前面提到,面向特定功能設計的處理器運行起來效率高,而如果要把GPU 做成可編程的,則GPU 的運行效率會比之前低,而且要在算力、內存等各方面的增加額外成本。
英偉達把可編程shader 及適配顯卡做出來了,可是圖形開發者還沒有準備好為未來買單。他們所開發的遊戲和圖形計算應用,在當時還無法從可編程shader 技術中獲益。結果就是,英偉達搞的新技術和產品很好很強大,從消費者的視角來看卻過於昂貴且沒用。
“這個處理器架構是全新的,可編程像素shader 在過去從來沒有過,可編程的GPU 處理器和編程模型也前所未有——所有這些尷尬的現實,我們都只能咽到肚子裡。”黃仁勳說。
GTC 2020,黃仁勳從烤箱裡拿出即將發布的顯卡
“嚥下去之後,我們接下來組建了編譯器團隊,研究SDK和庫,到處去找開發者去跟他們安利我們的新架構,讓他們意識到這套東西的好處——我們甚至要自己動手開發庫,拿給開發者看把他們的應用導入到我們這裡有多容易、有哪些好處;我們甚至用了市場營銷的預算,幫開發者營銷他們用我們架構開發的新產品,來創造市場需求……”
久而久之,英偉達不再是一家硬件公司了。可以說它是為了體面地活下去,而不得不實現了“硬件技術+軟件體驗+開發生態”垂直整合的技術平台公司。
後來的GeForce、CUDA、Tensor Core 等,每一個在英偉達公司技術發展歷程上寫下濃墨重彩一筆的技術,從某些角度上都和可編程shader 相似:超前的技術能力、較高的可編程自由度、面向生態合作夥伴開放的商業模式等。
但與此同時,它們其實都是黃仁勳為了避免英偉達走向平庸而決定推出的。如果沒有Shader、CUDA、RTX、DGX 等這些在各自的誕生時間點上顯得“離經叛道”的技術,今天的英偉達恐怕早已淪為一家普通的顯卡公司,和今天掛著GeForce 的名號生產顯卡的那些我們耳熟能詳的品牌,沒有多少不同。
4.
英偉達最近幾年全力投入AI 技術的支持,同樣是避免公司走向平庸的結果。
按黃仁勳的說法,英偉達公司歷史上幾次具有里程碑意義的關鍵技術推出,背後其實都是對自家GPU 技術的發展成果進行了“泛化”(generalize),然後發現居然它可以做更多不同的事情。
結果就是,英偉達在不斷遷移和泛化GPU 能力的過程中,建立了一套全新的,基於GPU 技術的計算機科學架構。
而當人工智能時代來臨的時候,英偉達搭建好的這套新架構非常適合用來加速深度學習方面的任務。
正是在這樣的條件下,黃仁勳從之前的顯卡大王變成瞭如今的“AI教父”。但如果有人以為英偉達只是碰巧趕上這波AI 的浪潮,那他就大錯特錯了。
早在十年前,黃仁勳就已經相信,圖形計算加速成就了早年的英偉達那樣,而新時代的英偉達應該全力投入到AI 計算的加速上,而且沒有別的公司比英偉達更適合做這件事。
一個最典型的例子就是機器人(robotics)。黃仁勳表示:“一個經典的機器人問題,涉及感知、推理、規劃,以及之後許許多多的不同任務。這些任務涉及多個傳感器的大量實時數據;並且出於多元化和冗餘的目的,處理器需要用不同的算法進行處理。”這些任務的特性,正好是英偉達的GPU 架構所擅長的。
包括AI、自動駕駛、數據中心/高性能計算、超級計算機、工業邊緣計算、元宇宙相關的融合現實互動技術等等……現在如果我們去英偉達的網站上,會看到這家公司簡直無所不做,早已不是大部分普通消費者用戶所認識的那家顯卡公司了。
這些較新的業務,都可以被視為英偉達避免平庸而不斷突破自己邊界的體現。
在採訪中,黃仁勳說自己這一生最大的禮物,就是身邊有著一群世界上最富有才能的同事。而他自己最大的才能,是堅韌不拔。
“我堅持這條路的時間比其他人都長,但那隻是因為我有耐心而已。只要我選定了一條道路,我能夠一直在上面走很長很長的時間。這就是我的耐心。”