自研VCU視頻轉碼芯片讓谷歌擺脫對高耗低能的英特爾平台的依賴
多年來,英特爾通過與CPU集成的視頻編解碼器而長期主導市場。但隨著客戶需求的爆發性增長,這家芯片巨頭的解決方案已顯得愈加力不從心。與此同時,許多科技企業也在努力換用基於自研芯片的加速方案,比如搜索巨頭Google設計的Argos視頻轉碼單元(VCU)。
谷歌正在利用自研高效芯片,來替換數千萬顆英特爾CPU 。
Tom’s Hardware 指出,與通用型的處理器相比,基於定制的專用集成電路(ASIC)往往具有高得多的硬件性能,而谷歌YouTube 網站後台已經給出了相當積極的反饋。
據悉,用戶每分鐘都會向YouTube 上傳超過500 小時各種格式的視頻內容,而谷歌需要將之轉碼成多種分辨率(包括144p、240p、360p、480p、720p、1080p、1440p、2160p 和4320p ),以及高效的數據格式(比如H.264、VP9 或AV1),此時就需要相當強大的算力提供支撐。
回顧谷歌歷史,該公司通常有兩種轉碼選項。其一是英特爾的視覺計算加速器(VCA)方案,它包含了三路至強E3 CPU、內置了Iris Pro P6300 / P580 GT4e 核顯和先進的硬件編碼器。另一種選項,就是使用基於純軟件編碼的通用型英特爾至強處理器。
然而谷歌認為,對於新興的YouTube 工作負載來說,上述兩套方案都已顯得難以為繼。比如VCA 本身就相當費電,而擴展至強處理器的數量,也無異於大幅增加服務器的總量,意味著額外的功耗與數據中心空間佔用。
一番思索過後,谷歌毅然決定使用內部定制的硬件來支撐未來業務需求。為實現平穩過渡,該公司初代Argos VCU 並沒有徹底取代英特爾的中央處理器(CPU),因為服務器仍需運行操作系統並管理存儲驅動器和網絡連接。
換言之,谷歌Argos VCU 在很大程度上更像是一塊依賴於CPU 的GPU 加速卡。不過與我們在普通顯卡上見到的流處理器不同,Argos 主要集成了十組H.264 / VP9 編碼器引擎。
輔以幾個解碼器內核、四通道LPDDR4-3200 內存控制器(接口位寬為4 × 32-bit),一個PCIe 接口、一個DMA 引擎、以及一個用於調度目的的小型通用內核。
除了內部設計的編碼/ 轉碼器,其餘大多數IP 都源於直接的第三方許可,以降低Argos VCU 的開發成本。此外每顆VCU 都搭配了8GB 的ECC LPDDR4 內存。
谷歌的主要設計理念,就是將盡可能多的高性能編碼/ 轉碼器放入單個芯片、並兼顧良好的節能特性,然後將VCU 的數量與所需的服務器數量分開擴展。
通過在一款擴展卡PCB 板上安置兩顆VCU,然後在每台雙路至強服務器上安裝10 張Argos 加速卡,谷歌就能夠極大地提升每列機架的總體編碼/ 轉碼性能。
與英特爾Skylake 服務器系統相比,谷歌VCU 平台在計算效能/ 總體擁有成本(TCO)方面實現了高達7 / 33 倍的改進(分別針對H.264 / VP9 編碼而言)。
對比英特爾CPU + 三年運營運營費用,VCU 方案毫無疑問地成為了谷歌旗下YouTube 流媒體視頻服務的首選。
從官方分享的性能數據來看,單個Argos VCU 的H.264 轉碼性能,僅比基於雙路Intel Skylake 服務器的平台略快一些。
但考慮到谷歌能夠在同樣大小一台服務器內塞下多達20 張VCU 加速卡,谷歌自研方案毫無疑問地具有顯著的效率優勢。
至於要求更高的VP9 編解碼器,谷歌VCU 方案也是英特爾雙路至強平台的五倍速。如此出眾的表現,著實讓人刮目相看。
一些分析師認為,谷歌或可將400 ~ 3300 萬顆Intel 處理器換成自家的VCU 。
但除了視頻轉碼,這家搜索巨頭旗下還有許多其它業務,因此對於AMD / Intel處理器的採購需求已讓相當旺盛,除非該公司的數據中心SoC可在數年時間內準備就緒。
有趣的是,在谷歌展示第二代Argos加速卡的同時,英特爾也沒有停下在GPU領域的研發腳步。比如該公司基於DG1 Xe-LP的4-Tile SG1加速卡,就能夠為多達12 / 28路4K 60fps視頻流提供轉碼和解碼支撐。