特斯拉,不僅僅是芯片
特斯拉渴望成為世界領先的人工智能公司之一。迄今為止,他們還沒有部署最先進的自動駕駛技術;這一榮譽適用於Alphabet 的Waymo 。此外,在生成式人工智能世界中,特斯拉也不見踪影。話雖如此,由於數據收集優勢、專業計算、創新文化和領先的人工智能研究人員,他們可能擁有在自動駕駛汽車和機器人技術領域實現跨越式發展的秘訣。
特斯拉目前擁有非常少量的內部人工智能基礎設施,只有約4000 個V100 和約16000 個A100。與世界上其他大型科技公司相比,這個數字非常小,因為Microsoft 和Meta 等公司擁有超過10 萬個GPU,而且他們希望在中短期內將這個數字翻倍。特斯拉人工智能基礎設施薄弱的部分原因是其內部D1 訓練芯片多次延遲。
現在故事正在發生變化,而且變化很快。
Tesla 正在將其AI 能力在1.5 年內大幅提高10 倍以上。這一部分是為了他們自己的能力,但很大一部分也是為了X.AI。今天,我們希望深入了解Tesla 的AI 能力、H100 和Dojo 的季度產能預估,以及Tesla 因其模型架構、訓練基礎設施和包括HW 4.0 在內的邊緣推理而產生的獨特需求。
D1訓練芯片的故事是一個漫長而艱辛的故事。它面臨著從芯片設計到電力傳輸的問題,但現在特斯拉聲稱它已經準備好成為眾人矚目的焦點並開始批量生產。回顧一下,特斯拉自2016 年以來一直在為其汽車設計內部人工智能芯片,自2018 年以來一直為數據中心應用設計內部人工智能芯片。
在芯片發布之前,我們披露了他們採用的特殊封裝技術。該技術稱為InFO SoW。為了簡單起見,可以將其視為晶圓大小的扇出封裝。這與Cerebras 原則上所做的類似,但優點是——允許進行已知良好的芯片測試,這是特斯拉架構中最獨特和最有趣的方面,因為這個InFO-SoW 內置了25 個芯片,沒有直接連接內存。
我們還在2021 年更詳細地討論了其芯片架構的優缺點。此後最有趣的方面是,特斯拉必須製造另一個位於PCIe 卡上的芯片來提供內存連接,因為片上內存是不夠。
特斯拉本應在2022 年實現多次產能提升,但由於芯片和系統問題而從未實現。現在已經是2023 年中期了,它終於開始提高產量了。該架構非常適合特斯拉的獨特用例,但值得注意的是,它對於內存帶寬嚴重瓶頸的LLM來說沒有用。
特斯拉的用例很獨特,因為它必須專注於圖像網絡。因此,它們的架構差異很大。過去,我們討論了深度學習推薦網絡和基於Transformer 的語言模型如何需要非常不同的架構。圖像/視頻識別網絡還需要不同的計算、片上通信、片上存儲器和片外存儲器要求的組合。
這些卷積模型在訓練期間在GPU 上的利用率非常低。隨著NVIDIA 的下一代產品正在對Transformer(尤其是稀疏MoE)進行進一步優化,特斯拉對其自己的差異化優化卷積架構的投資應該會取得良好的效果。這些圖像網絡必須符合特斯拉推理基礎設施的限制。
HW 4.0,特斯拉第二代FSD 芯片
雖然訓練芯片是由台積電製造的,但在特斯拉電動汽車內運行人工智能推理的芯片被稱為全自動駕駛(FSD)芯片。特斯拉的車輛型號極其有限,因為特斯拉有一個非常頑固的信念,即他們不需要汽車的巨大性能來實現完全自動駕駛。此外,特斯拉的成本限制比Waymo 和Cruise 嚴格得多,因為它們實際上出貨量很大。與此同時,Alphabet Waymo 和GM Cruise 正在使用全尺寸GPU,在開發和早期測試期間,其汽車成本要高出10 倍,並且正在尋求為自己的車輛製造更快(也更昂貴)的SoC。
特斯拉第二代芯片自2023 年2 月起在汽車中發貨,該芯片的設計與第一代設計非常相似。第一代基於三星14nm 工藝,圍繞三個四核集群構建,總共12 個Arm Cortex-A72 核心,運行頻率為2.2 GHz。然而,在第二代設計中,該公司將CPU 核心數量增加到五個集群,每集群4 個核心(20),總共20 個Cortex-A72 核心。
第二代FSD芯片最重要的部分是三個NPU核心。三個內核各自使用32 MiB SRAM 來存儲模型權重和激活(activations)。每個週期,256 字節的激活數據和128 字節的權重數據從SRAM 讀取到乘法累加單元(MAC)。MAC 設計為網格,每個NPU 核心具有96×96 網格,每個時鐘週期總共有9,216 個MAC 和18,432 次操作。每個芯片有3 個NPU,運行頻率為2.2 GHz,總計算能力為每秒121.651 萬億次操作(TOPS)。
第二代FSD 擁有256GB NVMe 存儲和16GB Micron GDDR6(14Gbps),位於128 位內存總線上,提供224GB/s 帶寬。後者是最值得注意的變化,因為帶寬逐代增加了約3.3 倍。FLOP 與帶寬的增加表明HW3 難以充分利用。每個HW 4.0 有兩個FSD 芯片。
HW4 板性能的提高是以額外的功耗為代價的。HW4板的空閒功耗大約是HW3的兩倍。在高峰期,我們預計它也會更高。HW4的外部電壓為16 伏,電流為10 安,即使用的功率為160 瓦。
儘管HW4 的性能有所提高,但特斯拉希望HW3 也能實現FSD,可能是因為他們不想對購買FSD 的現有HW3 用戶進行改造。
信息娛樂系統採用AMD GPU/APU。與具有獨立子板的上一代相比,它現在也與FSD 芯片位於同一塊板上。
HW4 平台支持12 個攝像頭,其中1 個用於冗餘目的,因此有11 個攝像頭正在使用。在舊的設置中,前置攝像頭中心使用三個較低分辨率的1.2 兆像素攝像頭。新平台使用兩個更高分辨率的5 兆像素攝像頭。
特斯拉目前不使用激光雷達傳感器或其他類型的非攝像頭方法。過去,他們確實使用了雷達,但在一代中期被刪除了。這大大降低了車輛的製造成本,特斯拉致力於優化車輛,該公司相信純攝像頭傳感是自動駕駛車輛的一條可能途徑。然而,他們還指出,如果有可行的雷達可用,他們會將其與攝像頭系統集成。
在HW4平台上,有一款自行設計的雷達,稱為Phoenix。Phoenix 將雷達系統與攝像頭系統相結合,旨在利用更多數據打造更安全的車輛。Phoenix 雷達使用76-77 GHz 頻譜,峰值有效各向同性輻射功率(EIPR) 為4.16 瓦,平均EIRP 為177.4 mW。它是一種具有三種傳感模式的非脈衝汽車雷達系統。雷達PCB 包括用於傳感器融合的Xilinx Zynq XA7Z020 FPGA。
特斯拉AI 模型差異化
特斯拉的目標是生產基礎人工智能模型,為其自動機器人和汽車提供動力。兩者都需要了解周圍環境並在周圍導航,因此可以將相同類型的人工智能模型應用於兩者。為未來的自主平台創建有效的模型需要大量的研究,更具體地說,需要大量的數據。此外,這些模型的推理必須以極低的功耗和低延遲進行。由於硬件限制,這極大地減少了特斯拉可以提供的最大模型尺寸。
在所有公司中,特斯拉擁有最大的可用於訓練其深度學習神經網絡的數據集。道路上的每輛車都使用傳感器和圖像來捕獲數據,並將其乘以道路上特斯拉電動汽車的數量,得到一個龐大的數據集。特斯拉將其收集數據的部分稱為“fleet scale auto labeling”。每輛Tesla EV 都會拍攝一段45-60 秒的密集傳感器數據記錄,包括視頻、慣性測量單元(IMU) 數據、GPS、里程計等,並將其發送到Tesla 的訓練服務器。
Tesla 的模型接受了分割、掩模、深度、點匹配和其他任務的訓練。通過在道路上擁有數百萬輛電動汽車,特斯拉擁有大量標記和記錄良好的數據源可供選擇。這使得能夠在公司設施的Dojo 超級計算機上進行持續訓練。
特斯拉對數據的信念與該公司已建立的可用基礎設施相矛盾。特斯拉只使用了他們收集的數據的一小部分。由於嚴格的推理限制,特斯拉因過度訓練模型以在給定模型大小內實現最佳精度而聞名。
過度訓練小模型會導致全自動駕駛的性能停滯不前,並且無法使用收集到的所有數據。許多公司同樣選擇進行盡可能大規模的訓練,但他們也使用更強大的汽車推理芯片。例如,NVIDIA 計劃在2025 年向汽車客戶提供計算能力超過2,000 TeraFLOPS 的DRIVE Thor,這是特斯拉新款HW4 的15 倍以上。此外,NVIDIA 架構對於其他模型類型更加靈活。