在機器學習領域的華山論劍中Google 打敗了英偉達
2019 年7 月11 日,Google 宣布旗下的Google Cloud Platform(GCP)在最新一輪的MLPerf 基準競賽中創造了三個新的表現記錄,這三個記錄都是基於Cloud TPU v3 Pod 實現的。Google 表示,利用Cloud TPU Pod 的強大速度,這三個記錄用了不到兩分鐘的計算時間就得以完成。
MLPerf:機器學習領域的華山論劍
MLPerf是2018年5月由Google、百度、Intel、AMD、哈佛大學和斯坦福大學等企業和學術機構聯合發布的一款基準測試工具,它的用處是用來測量機器學習軟件和硬件的執行速度,獲得了吳恩達和Google機器學習負責人Jeff Dean的強烈推薦。
針對MLPerf 的發布,吳恩達聲明稱:
AI 正在給各個行業帶來改變,但為了充分這項技術的真正潛力,我們仍然需要更快的硬件與軟件……我們當然希望獲得更強大的資源平台,而基準測試方案的標準化進程將幫助AI技術開發人員創造出此類產品,從而幫助採用者更明智地選擇適合需求的AI 選項。
Jeff Dean 也在Twitter 上表示,Google 很高興與眾多大學和企業一起,成為致力於將MLPerf 作為衡量機器學習性能的通用標準的組織之一。
MLPerf 項目的主要目標包括:
通過公平且實用的衡量標準加快機器學習發展進程。對各競爭系統進行公平比較,同時鼓勵創新以改善業界領先的機器學習技術。保持基準測試的成本合理性,允許所有人參與其中。為商業及研究社區提供服務。提供可重複且可靠的測試結果。
在具體的測試項目上,MLPerf 覆蓋了視覺、語言、商業和通用四大領域,包含七項基準測試方案。每個MLPerf 訓練基準測試的度量標準是:在特定數據集上訓練一個模型使其達到特定性能的總體時間。眾所周知,機器學習任務的訓練時間有很大差異,因此,MLPerf 的最終訓練結果是由指定次數的基準測試時間平均得出的,其中會去掉最低和最高的數字。
MLPerf 的結果根據專區和給定的產品或平台進行分類,目前有兩種專區,即封閉專區(Closed Division)和開放專區(Open Division)。其中封閉專區會指定使用的模型,並限制批量大小或學習率等超參數的值,它對於對比硬件和軟件系統非常公平。
英偉達成為第一回合最大贏家
2018年12月12日,支持MLPerf的研究者和工程師們公佈了第一個回合的競賽結果,其中測量了多種機器學習任務在主流機器學習硬件平台上的訓練時間,包括Google的TPU、英特爾的CPU和英偉達的GPU。其測試基準如下:
通過這次競賽,MLPerf 產生了封閉專區V0.5 版本,其結果如下:
從結果來看,英偉達在其提交的六個MLPerf 基準測試結果中取得了最佳性能,其中包括圖像分類、目標實例分割、目標檢測、非循環翻譯、循環翻譯和推薦系統——從而成為最大贏家。
利用Cloud TPU v3 Pod,Google 五局三勝
2019 年7 月10 日,MLPerf 第二回合的競賽結果公佈,其測試標準如下:
基於這輪競賽結果的封閉專區V0.6 版本如下:
可以看到,根據MLPerf封閉專區0.6版本所呈現的結果,在基於Transformer和SSD模型的基準測試項目中,Google Cloud TPU比英偉達預置GPU的最佳表現高出了超過84%。另外,基於ResNet-50模型,Google Cloud TPU也比英偉達預置GPU略微勝出。
在本次競賽中,幫助Google 勝出的,是Cloud TPU v3 Pod。
Cloud TPU v3 Pod 是Google 推出的第三代可擴展雲端超級計算機,其核心特徵就是內置了Google 自主打造的TPU 處理器。2019 年5 月,Google 在I/O 開發者大會上宣布了它的測試版並進行了公開預覽。
每一個Cloud TPU 最高可包含1024 個單獨的TPU 芯片,這些芯片通過二維環形網狀網絡連接,TPU 軟件堆棧使用該網絡通過各種高級API 將多個機架作為一台機器進行編程;用戶還可以利用Cloud TPU Pod 的一小部分,稱為“切片”。
Google 方面表示,最新一代Cloud TPU v3 Pod 採用了液冷式設計,可實現最佳性能;每一個都提供超過100 petaFLOP 的計算能力;Google 也號稱,就每秒原始數學運算而言Cloud TPU v3 Pod與全球五大超級計算機相當,儘管它的數值精度較低。
藉著這次在MLPerf 第二次結果中出風頭的機會,Google 也不忘在官網推介一下Cloud TPU v3 Pod 的最新進展。比如說,Recursion Pharmaceuticals 是一家運用計算機視覺技術來處理細胞圖像,通過分析細胞特徵來評估疾病細胞藥後反應結果的公司;以往該公司在通過本地GPU 訓練模型時需要24 小時,但利用Cloud TPU Pod ,只需要15 分鐘就可以完成。
作為一個典型的技術派,Google 之所以如此著力推進Cloud TPU 的進展,當然也是希望有更多的開發者參與其中——畢竟雲計算是當前Google 最為重視的業務之一。