資料中心GPU使用壽命或短得驚人一般只有1到3年
過去一年多里,人工智慧(AI)浪潮席捲全球,主要的科技公司都在大舉投資資料中心GPU,這使得市場上最大的資料中心GPU英偉達賺得盆滿缽滿。雖然高效能的資料中心GPU定價很高,但是使用壽命卻不太長,這是由於平常承受著AI推理訓練的繁重工作負載,往往比其他元件老化得更快。
據報道,最近有報告稱,雲端服務供應商(CSP)營運的資料中心裡,這些GPU在AI工作負載中的利用率約為60%至70%。以這個使用率,GPU通常只能使用1到2年,即便較為理想的狀態,最多也只有3年。需要強調的是,現在用於AI和HPC應用的資料中心GPU功耗很高,可達700W或以上,這對於晶片來說是一個很大的壓力,一定程度上也減少了壽命。
如果想要延長資料中心GPU的使用壽命,其中一種方法是降低利用率,然而這也意味著其以更緩慢的速度貶值,並且需要更長的時間才能回本,這對於付出高昂成本的企業來說是不利的。因此大部分雲端服務供應商衡量了收益以後,最常見的做法仍然是以高利用率運作。
此外,報告也根據數據統計結果指出,資料中心GPU的年化故障率約為9%,3年後大概在27%,一般使用一年後更可能頻繁出現故障。