亞馬遜去年還大量短缺的GPU 為何今年就變「充足」了?
商業內幕報道,去年,亞馬遜龐大的零售業務遇到了一個大問題:它無法獲得足夠的人工智慧晶片來完成關鍵工作。根據大量亞馬遜文件顯示,由於該項目被推遲,該企業對內部流程和技術進行了徹底改革,以解決這一問題。

2024年初,在亞馬遜內部,一些員工數月都無法獲得GPU,這擾亂了公司零售部門專案的及時推出,該部門涵蓋其電子商務平台和龐大的物流業務。
當時,亞馬遜的零售部門遭受了1000多個P5實例的供應短缺,P5是AWS的雲端伺服器,最多可包含8個英偉達H100 GPU。
2024年7月,亞馬遜啟動了“格陵蘭計畫”,這是一個“集中式GPU協調平台”,旨在更好地管理和分配其有限的GPU供應。文件顯示,該公司也收緊了內部GPU所使用的審核程序。
文件解釋說,該平台可以追蹤每個計畫的GPU使用情況,共享閒置伺服器,並實施「回收」措施,將晶片重新分配給更緊急的項目。該系統還提供簡化的網路設定和安全性更新,同時提醒員工和領導者註意GPU使用率低的項目。
今年,亞馬遜員工被「強制要求」透過格陵蘭專案來獲取「所有未來需求」的GPU容量,該公司預計這將透過「減少閒置容量和優化叢集利用率」來提高效率。
亞馬遜的一項指導方針指出:“GPU太寶貴了,不能先到先得。相反,分配應該基於投資回報率,並結合常識性考慮來決定,以促進公司自由現金流的長期增長。”
這項努力帶來了成效。 2024年12月,亞馬遜內部預測表明,2025年晶片短缺情況將有所緩解,晶片供應有望改善。
在一封電子郵件中,亞馬遜的發言人表示,該公司透過亞馬遜網路服務(AWS)採購GPU的零售部門現在已完全能夠使用人工智慧處理器。
這位發言人說:「亞馬遜有充足的GPU容量,能夠繼續為我們的零售業務和公司的其他客戶進行創新。AWS很早就認識到,生成式人工智慧的創新推動了所有客戶(包括亞馬遜)對雲端運算服務的快速採用,我們迅速評估了客戶不斷增長的GPU需求,並採取措施提供他們推動創新所需的容量。」
但即便有這些努力,仍有跡象顯示亞馬遜仍擔心GPU供應問題。
格陵蘭計畫團隊最近的招聘啟事承認,GPU需求的爆炸式增長已成為這一代的決定性挑戰:“我們如何獲得更多的GPU容量?”