安卓旗艦芯片驍龍855性能初探:略顯不足?
上個月初,高通在夏威夷召開的第三屆驍龍技術峰會上,正式推出了萬眾矚目的驍龍8系列旗艦移動芯片Snapdragon 855。正如大多數機友所知,驍龍855將會是2019年新一代頂級旗艦智能手機標配的移動芯片。那麼,這枚芯片與上一代相比究竟帶來怎樣的性能改進呢?本月中旬,知名評測站AnandTech發布了驍龍855芯片的首測報告,我們一同來看看。
在開始性能評測之前,還是要把驍龍855 的性能參數複習一遍。高通驍龍855 是一枚7 納米工藝八核心設計的芯片,這次高通的核心結構設計主要基於ARM 的DynamIQ CPU 集群,具體為1 大核+ 3 中核+ 4 小核的設計。大核基於ARM 最新Cortex-A76 設計,可以提供非常高的峰值性能,3 個中核同樣也是Cortex-A76 定制,4 個小的核心基於Cortex-A55。
與此同時,與上一代驍龍845 芯片相比,驍龍855 並沒有大幅提升CPU 核心的時鐘頻率。高通強調,自家的Kryo 485 CPU 集群由於是基於ARM 最新的Cortex-A76 進行半定制設計,大內核配備了更大的512kb 的L2 緩存,頻率達到2.84GHz 峰值頻率,高通稱性能相比上一代還是提高了45%。
驍龍855 中的三個中核頻率為2.42GHz,並各有256kb 的L2 緩存,4 個1.8GHz 主頻小核的每個核心各有128kb 的L2 緩存。此外,驍龍855 還集成了新一代圖形處理單元Adreno 640 GPU,高通官方稱能夠帶來高達20% 的圖形渲染速度提升,同時還能繼續保持業界領先水平的每瓦特能效。
AnandTech 這一次拿到手的驍龍855 設備並非任何一個品牌的零售機型,而是高通所準備的參考設計機型Snapdragon 855 QRD。經上手,他們認為今年高通QRD 測試機的設計可能是有史以來最接近於上市新機的一次,外殼更加美觀,也更加堅固,讓人很難注意到這本是一款參考設備。
而在硬件方面的性能表現,高通已經明確表示,任何情況下對QRD 設備的性能測試結果,都只會是一種接近於正式零售機型的成績而已,手機廠商真正發布的旗艦機成品將可能與此有明顯偏差,因為改進軟件底層設計也會對性能有所優化。
AnandTech 稱,他們真正對這款高通QRD 設備的實際設備操作時間是有限的,所以儘管已經進行了大量的測試,但仍會遺漏掉某些測試,因為某些些測試很耗時間,例如GPU 連續性能測試環節。
驍龍855 的最大問題在於內存延遲
AnandTech 稱,去年高通在驍龍845 上引入一個奇怪的設計,就是在內存控制器前引入一個系統級緩存大小為3MB 的新緩存層次結構。這個新模塊主要是為各種IP 模塊充當SoC 更寬的緩衝範圍,從而減少對DRAM 運行內存訪問量,達到提高系統能效的目的。除了提高能效水平,理論上該模塊理應還能起到性能助推器的作用。因為行業早有先例,最著名的就是蘋果自主設計的A 系列芯片,自A7 以來蘋果的芯片就開始充分利用這一系統緩沖模塊。
作為去年的旗艦,高通在驍龍845 中引入這樣一個IP 模塊相當令人興奮,但是這也是一把雙刃劍,因為直接導致了30% 的DRAM 內存延遲(相比驍龍835),從而限制了基於Cortex-A75 定制內核的某些性能。不幸的是,最新的驍龍855 在這方面似乎沒有做出任何明顯改進,因為高通已經確認這一IP 模塊與驍龍845 中使用的相同。
AnandTech 表示,為了研究驍龍845、855 和麒麟980 之間的差異,首先根據延遲測試中繪製圖表了解內存層次結構,也就是通過可視化的圖標更好的分析層次結構之間的各種延遲跳躍。
在驍龍845與驍龍855芯片之間,最新的Kryo 485大核L2緩存增加了512KB,相比上一代的性能內核增加了256KB,同時L2延遲得到了改善,只不過兩枚芯片在2.8GHz頻率下彼此接近。驍龍845與驍龍855的DSU L3緩存大小相同,在這部分緩存層次結構上,兩個芯片之間的延遲幾乎是相同的,但有趣的是,這與華為麒麟980的4MB大小的L3形成鮮明對比,後者雖然更大,但似乎慢了20%。
在另一張線性圖上,可以更清楚地看到DRAM 內存延遲的差異。驍龍855 似乎確實比845 稍微改善了內存延遲。不過,這可能是其他組件帶來的功效,因為新款參考設備配備的是2133MHz LPDDR4X 內存,而去則為1866MHz 內存,新內存在頻率上就已提高了14%。關鍵是與麒麟980 芯片相比較,麒麟980 採用了與驍龍855 相同的CPU 微架構和2133MHz 頻率內存,但在這方面高通這一旗艦芯片的內存延遲表現似乎並不理想。
針對CPU 性能和效率的SPEC 2006 測試
AnandTech 繼續針對高通驍龍855 設備進行了SPEC 2006 測試,並稱SPEC 這個測試軟件權威性更足,可作為確定CPU 和系統的微觀體系結構方面的宏觀基準測試,或者說是一個重要的行業標準化的CPU 測試基準套件。當然了,儘管SPEC 2006 已被棄用,取而代之的是SPEC 2017,但AnandTech 認為編譯的SPEC 2006 對於移動平台來說仍然是一個很好的基準測試工具。
在SPEC 2006 測試中,驍龍855 的表現出色,與華為麒麟980 的表現不相上下,不過這個結果應該不太令人驚訝。
在SPECint 2006 測試中,驍龍855 的性能相比驍龍845 提升了51%,同時能效提升了39%。而與麒麟980 相比,驍龍855 僅略微領先4%,可以說在Android 陣營之中,麒麟980 和驍龍855 是目前性能表現最接近的競爭對手。
在SPECfp 2006 測試中,高通驍龍855 比驍龍845 提升了61%,而且比華為麒麟980 表現更好,9% 的頻率優勢即是領先優勢。
不過,在所有這些測試結果中,能效方面的數據同樣非常之重要。由於高通上個月在夏威夷發布驍龍855 時,並沒有在CPU 能效方面發表任何有意義的說明,這不免讓人擔憂。幸運的是,這種擔憂是多餘的,因為驍龍855 似乎已非常高效,即便是在頻率高達2.85GHz 的大核表現上。
其實深入到測試的成績去分析,最有趣的肯定還是高通驍龍855 與麒麟980 的性能比較。驍龍855 的時鐘頻率高了9%,並且官方表示經過一些微結構特性的調優改善了IPC 性能,而麒麟980 則又有更大的L3 緩存和內存延遲優勢。
在絕大多數負載測試中,這兩種芯片基本並駕齊驅,只是在一些關鍵方面存在差異。某些對運行內存需求較少的負載測試中,驍龍855 更容易展現出其高頻率的優勢。而在延遲敏感的負載測試中,這種差異會縮小或逆轉。其中在462.libquantum 測試項目中,驍龍855 表現相對優異,按照高通方面的解釋,該芯片之所以在這方面的領先,主要是得益於CPU 內核的定制功勞,不過高通沒有具體說明是哪個方面帶來的提升。
測試項目458.sjeng 顯示出了兩者最大的性能表現差異,這個差距達到了13%。該項基準對內核分支機構的錯誤預測最為敏感,高通聲明他們對核心的分支機構數據結構進行了更改。而比較讓人覺得奇怪的結果是429.mcf 測試項目,該項驍龍855 表現出色,儘管芯片存在內存延遲的缺陷,但結果卻與此相悖,AnandTech 認為驍龍855 在這項比麒麟980 性能更好,有可能是因為有更出色的L3 緩存延遲。
再深入SPECfp 2006 的測試結果,可以非常明確地將結果分為兩組。在其中一組項目測試中,驍龍855 明顯優於華為麒麟980,在447.dealII 和453.povray 這兩項測試中分別領先了17% 和22%。而在另一組測試中,驍龍855 則與麒麟980 並駕齊驅,因為這些負責測試項目對內存較為敏感。
跑完這些測試,AnandTech 表示,總體而言,驍龍855 的CPU 性能並不令人失望,平均性能領先於華為麒麟980,只不過不是很多。在大多數情況下,兩芯片組的基本並駕齊驅,這主要取決於兩枚芯片針對不同負載項目的工作量。
當然了,AnandTech 還認為驍龍855 芯片的能效一流,因為其能效表現超出了實現更高頻率的預期。不過,既然是QRD 參考平台,很多數據就仍可能存在一定程度的不確定性,不代表真正上市的品牌零售手機,但如果確實有代表性,那麼2019 年安卓旗艦將能提供更出色的續航性能。
AI 人工智能“理論”性能很出色
除了大量改進CPU 和GPU,驍龍855 另一重要的改進就在於AI Engine 人工智能引擎。高通驍龍855 芯片通過內部改進Hexagon 技術,並增加了相應的運算能力,可以實現每秒超過7 萬億次運算(7TOPs)
簡單的說,驍龍855 的Hexagon 690 在上一代包含有4 個標量處理單元和2 個1024b 的HVX 向量處理單元(Hexagon Vector eXtensions)的基礎上,將HVX 向量處理單元數量提升到了4 個,使其處理能力是之前兩倍。不僅如此,高通還首次引入了全新的HTA(Hexagon Tensor Accelerator)張量加速器,為特定的複雜機器學習任務提供更高的吞吐量。
不過,AnandTech 在詢問高通關於全新HTA 張量加速器的進一步細節時,高通並不願透露更多關於這一新模塊的性能,只是簡單的提到了AI 運算性能達到7 TOPs,但具體每一個單獨的單元性能如何高通不會提供具體數字。
AnandTech 稱,其實最糟糕的情況是關於最新HTA 張量處理器的API 開放情況,畢竟要等到年底的Android Q 發布之後才會公開提供NNAPI,而當前相關API 僅限於內部公開。這就意味著,當涉及到AI 運算性能測試的環節,無法實測出最新HTA 張量加速器性能如何,實測數字更多還是體現在HVX 向量處理單元的改進上。
– AiBenchmark
首先,從AiBenchmark 性能測試開始。AnandTech 認為,這一來自瑞士蘇黎世聯邦理工學院計算機視覺實驗室的新工具,足已經足以展開AI 性能的廣泛測試,因為這個工具是第一個廣泛利用到Android 最新NNAPI 的測試工具,而不是依賴於每個SoC 芯片廠商的SDK 工具和API,所以理應能夠更好地如預期那樣準確測出基於NNAPI 應用程序的性能。
AnandTech 將AiBenchmark 的測試結果劃分為好幾組,在第一組測試中,高通驍龍855 的表現良好,只是沒有非常突出的某一項。這裡的AI 運行性能更多還是受到了系統調度程序的影響,而且由於負載測試是短時間突發的性質,主要測試的是CPU 允許以多快的速度達到其最大性能點。
接下來轉到8 位整數量化模型測試,這些測試模型適用於大多數硬件加速的設備。高通驍龍855 在這一組所有基準測試中表現都處於領先。在Pioneers 這項的基準測試中,可以清楚地看到得益於HVX 加速單元的性能翻了一番,完成測試的時間不到上一代芯片驍龍845 的一半。
這部分AI 性能基準測試,主要體現出NNAPI 基準測試中API 和驅動程序方面的表現。結果顯示,驍龍855 比上一代以及競爭對手都出色,擁有更優異的加速度。這可能是因為高通明顯改善了這裡的驅動程序,所以與過去的驍龍845 芯片相比,新一代能夠更充分地利用硬件。
再到FP16 的負載測試,終於看到高通的一些競爭出頭了,其中麒麟980 的NPU 硬件加速在這裡得到了體現。其實按照以往,高通的芯片應該利用GPU 性能來處理這些工作負載,顯然驍龍855 在這方面取得了巨大的進步,因為新平台對NNAPI 功能支持更加成熟了。
最後到FP32 負載測試,這一組測試也能看出驍龍855 顯著的改進,高通驍龍855 終於能夠充分利用GPU 加速了,所以新一代芯片在這項測試中擁有相當大的領先優勢。
– 魯大師AIMark
AnandTech稱,與AIBenchmark相比,AIMark仍然算得上是有用測試工具。這個基準測試沒有利用到NNAPI,但利用到了高通的SNPE框架進行加速測試。因此,這也為能夠與蘋果iPhone進行比較提供了的難得機會。
總的來說,在魯大師測試中,高通驍龍855 的AI 性能相比驍龍845 提高了2.5-3 倍。
AnandTech 表示,在高通當天的發布會活動中,官方還展示了運行InceptionV3 的內部基準測試,該測試充分體現了HVX 向量處理單元單元和最HTA 張量加速器的性能。根據當時提供的數據顯示,這款驍龍855 參考設備可以達到148 inferences/s 的AI 運算性能。
總的來說,儘管在AI 性能基準測試中沒有能直接測試HTA 張量加速器的性能,但驍龍855的AI 推理性能非常出色,這一點主要基於其驅動程序得到了很大的改進,而且Hexagon 690 的向量執行單元也增加了一倍。不過測試歸測試,如何利用和處理這種性能才是關鍵,希望接下來能夠看到基於AI 的更出色、更令人興奮的相關應用程序。
綜合系統性能:略顯不足?
AnandTech 稱,任何設備在現實世界常規的實際負載測試都更具參考意義,因為其實際性能不僅取決於硬件的原生性能,還取決於軟件,例如CPU 調度和系統API 之類的因素會對設備的實際性能產生非常大的影響。
這部分測試首先從PCMark 的Web Browsing 2.0 測試開始,不過高通驍龍855 開局不利。由於某些原因,驍龍855 QRD 參考設備難以與驍龍845 正式零售機型拉開差距,甚至與華為Mate 20 的麒麟980 相近的預期也沒能達到。
Video Editing 測試部分驍龍855 的分數也很一般,但原因很大程度上受限於這個測試本身的瓶頸,大多數設備在這份排名之中已經很多體現出顯著差異。
Writing 2.0 這項測試是PCMark 中最重要的測試之一,幸運的是,驍龍855 QRD 設備與華為麒麟980 相比性能差距終於在預期的範圍之內。
Photo Editing 2.0 這一測試比較能夠突顯RenderScript 負載的爆發性能。結果顯示高通驍龍855 QED 設備性能表現良好,不過去年正式零售的驍龍845 機型還是排在第一。
最後,在單線程綁定的數據處理測試結果中,高通驍龍855 的性能表現很好,但仍然與華為麒麟980 設備差不多,並且落後於Pixel 3,畢竟谷歌親兒子手機的調度程序非常激進。
總的來說,高通驍龍855 QRD 設備在PCMark 測試中的得分是比較高最高,但是這樣的成績有點令人失望,因為當前來看似乎沒有達到驍龍845 手機谷歌Pixel 3 的高度,而且部分排名華為麒麟980的Mate 20 也比它領先。
AnandTech 表示,他們與高通討論了上述情況,看到這樣的數據高通方面也很驚訝,不過高通表示,他們將會對此進行深入了解,並認為手機廠商掉正式零售機型調度程序和軟件堆棧,可能會提供更高的性能。無論如何,還要等驍龍855 零售機型上市之後才有最後結論。
在另外兩項基於網絡瀏覽器的基準測試Speedometer 2.0 和WebXPRT 3 之中,高通驍龍855 參考設備也只跑出了類似上述相對較弱的成績。AnandTech 認為,在這部分本來預期高通驍龍855 會表現得非常好,畢竟驍龍845 如此突出,然而驍龍855 進步非常非常小,特別是在考驗吞吐量負載的Speedometer 2.0 測試項目中。結果來看,驍龍855 僅比上一代提升了17%,與麒麟980 相比也有顯著的差距。
CPU 調度加載機制分析
AnandTech 從去年開始引入這一新的測試項目,之前在針對iPhone XS 的評測中就曾詳細比較過歷代A 系列芯片,結果顯示運行iOS 12 系統之後每一代機型的調度程序和DVFS 響應能力都有明顯不同。
在這部分測試中,驍龍855 QRD 從睡眠空閒到滿載峰值性能的狀態,其調度機制讓其只要大約100ms 就能實現。AnandTech 還將搭載驍龍845 的三星Galaxy S9+ 和谷歌Pixel 3 進行了比較,在這之中Pixel 3 的調度非常激進,而Galaxy S9 + 則是呈階ti 化的頻率提升方式,這兩款設備的感知響應有明顯差異。
高通驍龍855 參考設備的CPU 調度機制介於兩者之間。需要注意的是,驍龍855 負載情況下,在大約40ms 的時間內就能提升到2.45GHz 頻率,激活“高效”的大內核,這必須是一種非常快速的響應能力了。
再將高通驍龍855 與麒麟980 進行比較,可以看出驍龍855 在達到峰值性能狀態方面並沒有變慢,但這些成績的奇怪之處在於,當從小內核轉移到其他內核時,負載過程中會出現明顯約2.4ms 的暫停狀態。當然了,這只是高通為其參考設備定制調度機製而已,其他廠商的驍龍855 正式零售機型如何調度還需進一步研究。
AnandTech 表示,總的來說,高通855 在現實世界中的性能,或者說實際性能比預期的要低一。目前還不太能確定這是什麼原因,但在CPU 調度機制方面,經驗證其負載的升頻速度並不比華為麒麟980 慢。現在另一種可能合理的解釋是,驍龍855 的L3 緩存較小乃至DRAM 延遲較高,所以在實際性能中暴露出了某些缺點。
無論如何,各大手機廠商正式零售的驍龍855 旗艦機型,最終性能肯定會與高通的參考設備有所差異,不同的廠商對設備的性能都有不同的調整。
GPU 性能測試
GPU 圖形處理單元一直是高通旗艦芯片的強項,這一次驍龍855 所集成的Adreno 640 GPU 雖然變得更強勁了,但提升幅度上仍有所保守,僅能夠帶來高達20% 的圖形處理速度提升,更像只是利用了7 納米工藝製程的進步而已。不過,這可能是因為高通在保持GPU 模塊面積不變大的情況下,又增加了50% ALU(算術邏輯單元)數量的緣故。
首先來看最新GFXBench 5 Aztec Ruins 測試工具的成績如何。AnandTech 聲明稱,由於時間有限,這次測試並非非常完整的測試,在以往既包含峰值性能又提供持續性能成績的情況下,這次測試只簡單的測試了峰值性能。
在Aztec Ruins 場景之下,無論是高級模式還是普通模式下,驍龍855 的Adreno 640 GPU 性能提升幅度基本與高通官方宣稱的不一致,實際是比20% 的提升有所下降的。同時,這一性能成績也落後於蘋果的A11 和A12 芯片,當然峰值性能的功耗不同。
說到功耗,就來看看跑Manhattan 3.1 場景的性能和負載能效情況。如下面兩圖可以看到,在峰值性能的能效方面,高通驍龍855 處於領先地位,不過還是落後於蘋果最新的A12 仿生芯片。比較明顯的改善下雨,驍龍855 的總功耗與驍龍845 相比有所下降了,目前約為4.4W,而之前驍龍845 手機通常為5W。
最後是T-Rex 場景的性能,由於像素和填充率限制比較大,所以在此場景的性能提升比較有限。這可能是因為受到了某些方面的CPU 限制,但不確定這是否是問題的答案,因為GFXBench 基準測試一直以來對CPU 的要求都非常低。
T-Rex 場景的能效方面,在性能略微提高的情況下,驍龍855 相比驍龍845 能效提升了30% 左右。
AnandTech 表示,總的來說,驍龍855 內置Adreno 640 GPU 初始性能和效率成績,已經比較讓人滿意了,主要是上一代驍龍845 在某些方面有點令人失望,因為去年高通選擇通過提高峰值功率來實現更高的性能,相比驍龍835 的做法相當消極。不過,雖然驍龍855 這枚新芯片並沒有完全恢復到驍龍835 芯片的低功耗水平,但至少已經達到了一半,而且與驍龍845 相比性能確實有了顯著的改進。
最終小結
AnandTech 表示,對於高通和上一代旗艦芯片驍龍845 來說,2018 年是非常成功的一年。因為作為芯片設備供應商,高通為各大廠商提供了一枚非常可靠和全面的SoC 系統級芯片,有助於廠商更輕鬆的構建自家的旗艦設備。從這方面來看,新一代芯片驍龍855 仍將會延續這一趨勢不變。
AnandTech 一直對高通採用的1+3 的CPU 配置是否具有優勢持懷疑態度,但在看到新一代芯片主要核心的初步性能和能效測試數據之後,他們對此不再那麼擔心。不過,AnandTech 稱他們不會就參考設備的整體表現過早下結論,因為他們還沒有時間來測試非主要內核的性能和能效,不確定他們在競爭中是否處於領先位置。
在性能方面,AnandTech 稱驍龍855 的表現有點奇怪,只有在SPEC 中相對穩定的負載測試中,驍龍855 的性能似乎表現非常好,性能持平或超過華為麒麟980。不過,高通對CPU 微架構的改良通過測試成績還是能表現出來的,可以說已經是不錯的壯舉了。但不幸的是,驍龍855 內存子系統沒有得到改進,仍然存在一些DRAM 延遲的情況,這主要是高通系統級緩存的問題所在。
同時,雖然驍龍855 芯片在現實應用測試中的性能足夠出色,但並沒有達到AnandTech 對性能的預期。無論出於什麼原因,至少高通對芯片的改進在對參考設備的測試中沒有明顯體現出來。令AnandTech 更為好奇的是,在幾乎所有實際應用的負載測試中,華為麒麟980 都能夠擊敗了驍龍855,而且高通表示CPU 微體系結構的改變能夠幫助提升web瀏覽器性能,但在這方面測試又落後於競爭對手,目前不清楚是不是限制系統緩存或系統緩存延遲造成的結果。
AnandTech 表示,上述一切就是他們非常典型的芯片測試過程,但在一些性能測試中,驍龍855 表現有點不理想,高通可能會對此進一步調查並改進,或許在正式零售機型發布之前能解決這些問題。但無論正式零售設備的系統性能能否得到改善,驍龍855 改善最明顯還是功耗,其能效看起來非常出色。高通今年沒有公開談論驍龍855 能效水平,這不免讓人擔心,實際經過測試發現其能效非常不錯,2019 年的旗艦相比去年理應能夠帶來更長的續航時間。
在GPU 性能方面,高通對驍龍855 的GPU 性能改進相當保守,僅20% 的性能提升比預期低。不過,AnandTech 認為這可能是因為高通有了更多的內部目標,例如將改進的重點放在整體功耗的降低上,希望能夠將之前驍龍845 較高的GPU 功耗水平上降下來。
AnandTech 最後表示,總的來說,驍龍855 是高通又一枚打造得非常出色的SoC 系統級芯片,非常期待能快點去驗證這一結論,但真正的定論,還要等到在首批正式商用的零售旗艦上市並測試後才能得出。