M1 Ultra就是終極目標解密蘋果電腦芯片三步走計劃
今夜凌晨,蘋果又開了一場“芯片上”的發布會!意料之內,芯片再次成為蘋果春季新品發布中最亮眼的存在;意料之外,傳聞已久的M2芯片沒有登場,反而是M1系列推出旗艦版M1 Ultra,以將兩塊M1芯片“粘”在一起的設計思路,震驚全場。
作為M1系列Mac電腦芯片的第四彈,M1 Ultra成為了蘋果電腦芯片的終極武器。蘋果通過一個三步走的策略,接近實現給Mac兩年換芯的大計,而且幾乎每次都在“幹翻”自己,也幾乎每次都在“教”芯片同行做事。
1140億顆晶體管、20核CPU、最高64核GPU、32核神經網絡引擎、2.5TB/s數據傳輸速率、800GB/s內存帶寬、最高128GB統一內存……這些堪稱恐怖的規格全部集聚於一塊“至尊版”電腦芯片上。
至此,蘋果在M1系列電腦芯片棋局上的落子,得以清晰而完整的展現。
▲蘋果M1系列四大芯片,從左至右:M1、M1 Pro、M1 Max、M1 Ultra
好馬配好鞍,M1 Ultra芯片被搭載於單台3萬元起售的台式機主機Mac Studio上,號稱比最快的iMac性能最高提升3.4倍,比頂配Mac Pro性能提升80%。
這是蘋果繼早前圓柱形“垃圾桶”式外形、長方形機箱式外形後,對專業級桌面主機形態的又一次嘗試。雖然外形第一眼看起來像一個加厚版的Mac mini,但其內裡從結構到配置則完全不同。
▲Mac工作室
除了首次在頂級專業台式Mac中採用自研M1系列芯片外,蘋果還第一次往顯示器新品Studio Display裡塞了一顆A13仿生芯片,A13之前被用在2019年iPhone 11系列智能手機、2021年入門級iPad 9中。
而加入手機SoC級別的芯片,用來強化攝像頭和音箱功能,也是蘋果的顯示器形態的一次新嘗試。不過目前蘋果專業顯示器的天花板仍然是那台售價超4萬元的XDR 6K專業顯示器。
▲Studio Display(圖左)和Mac Studio(圖右)
Mac Studio主機和Studio Display顯示器都從3月10日9點起預購,主機3月18日發售,顯示器則要等獲批後發售。
此外,新款iPad Air 5首次搭載與iPad Pro同款的M1芯片,第三代iPhone SE智能手機也換上了與最新iPhone 13系列同款的A15仿生芯片,兩款新品將從3月11日21點起預購,3月18日發售。
蘋果Mac換芯的策略是什麼?這個性能突破天際的電腦芯片解決了哪些核心難題?下面,芯東西將著重複盤和解讀這背後的技術邏輯。
一、 M1 Max + M1 Max = M1 Ultra
從2020年6月宣布Mac換芯計劃,並在當年11月首推電腦芯片M1,到現在不到兩年的時間,蘋果已接近完成既定的“兩年芯片過渡計劃”,只差最後一款Mac Pro。
去年蘋果推出性能爆棚的M1 Max芯片時,大家普遍以為這已經是M1系列芯片的封頂之作,畢竟M1 Max芯片已經觸及台積電N5製程可製造的極限,面積達到432mm²。
結果,蘋果這次直接掀翻了台式機芯片的天花板,亮出M1系列的真正收官之作——M1 Ultra。
據芯東西得知,M1 Ultra就是蘋果M1系列的最後一顆芯片,不會有第五顆了。而且從一開始,蘋果就有清晰計劃要分為三個階段來將M1用到Mac產品:第一階段,進入到普及性的Mac,包括MacBook Air、Mac Mini乃至入門版MacBook Pro;第二階段,來到更高階的MacBook Pro;第三階段,進入專業級台式機主機,將桌面電腦性能推升到一個新的高度。
M1 Ultra採用台積電5nm工藝,由兩塊M1 Max芯片拼接而成,這樣的“組合”使得其晶體管數量達到1140億顆,這也是蘋果自研芯片的晶體管數量首次突破1000億顆。
該芯片的各項硬件指標也翻番:20核CPU包含16個高性能核心、4個高能效核心;GPU核心數量增至64核;32核神經網絡引擎能夠帶來每秒22萬億次的運算能力;統一內存最高規格達到128GB;內存帶寬提升至800GB/s,達到最新型號台式PC芯片的10倍以上。同時,M1 Ultra最高支持8TB的SSD固態硬盤存儲。
尤其是多die(Multi-die)GPU配置,可以說是做了大膽而驚人的設計,這裡的核心難度在於高端部件通常消耗的內部帶寬過高,超過1TB/s,致使將它們連接起來在技術上很難實現。
像之前Mac Pro中用的傳統多GPU系統,每個GPU都是獨立的。因為帶寬不夠,多個GPU難以在單個圖形任務上進行有效地協同。但如果能通過某種方式將多個GPU借助die-to-die技術連接起來,就可能在一個任務中同時使用它們。
這是多家芯片公司都在研究的問題,目前看來,蘋果似乎成為了第一家實現目標的公司。
在介紹M1 Ultra前,蘋果高管也就兩塊芯片“粘”在一起的難點賣了個關子,他說直接採用兩塊芯片來增加芯片核心面積的方式很常見,但以前這種做法會增加功耗、拖慢傳輸速率,給開發者增加負擔。
那麼蘋果怎麼做呢?
今天,蘋果揭曉了其秘密武器—— UltraFusion。
在對M1 Ultra做規劃時,蘋果考慮到對統一內存的擴充,重點思考了延遲、帶寬、功耗和性能等指標,選擇採用了融合拼接的方式,並與合作夥伴(芯片代工製造方)進行了非常密切的合作,來實現UltraFusion技術的應用。
這裡涉及復雜的技術難關,比如,為了做到統一的架構,上面和下面的芯片延遲需相同,CPU看到的必須是一致的。蘋果要求其延遲不要超過一般的延遲,對性能的影響不到10%。
此前M1系列芯片一直採用蘋果自己定制的封裝方式來實現高速統一內存架構,而UltraFusion作為蘋果創新定制的多晶粒架構,是2.5D先進封裝的一個最新例子。
其基本原理應該是某種矽中介層(interposer)被鋪在兩個M1 Max芯片下面,兩個芯片之間的信號可以通過矽中介層的佈線。這使得M1 Ultra芯片可同時傳輸超過10000個信號,其連接密度是現有技術的兩倍,實現高達2.5TB/s低延遲處理器間帶寬,比業內高端多芯片帶寬的4倍還多。
這意味著,M1 Ultra芯片雖然是兩個芯片的組合體,但在工作時會表現出一枚芯片的整體性,被所有軟件識別為一枚完整芯片,開發者無需重寫代碼就能直接運用它的強大性能。
可以說,史無前例。
總而言之,借助UltraFusion架構,蘋果成為第一家將兩個GPU拼在一起而且實現2.5TB/秒超高傳輸速率的芯片供應商。
蘋果這些不按常理出牌的做法,背後其實是一種以解決問題為第一目的實用主義原則在做指導,比如他們把這個“粘接融合多個芯片”的UltraFusion架構沒有當做一個標準接口,只是他們為了實現M1 Ultra性能功耗目標的一個工具,而如果後面遇到更大的挑戰,說不定還會整出怎樣更腦洞大開的“工具”。
除了這些以外,M1 Ultra內還集成了多種定制的蘋果技術,如能夠同時驅動多台外接顯示器的顯示引擎、雷電4控制器集成、同類最佳的安全技術,包括蘋果最新的安全隔區、基於認證硬件的安全啟動和運行時防漏洞利用技術。
二、性能實測: GPU 功耗遠低於英偉達3090
蘋果在特定電腦系統上進行了性能測試,大致可以反映Mac Studio、Mac Pro和iMac的性能對比。
參與測試的Mac Studio系統配置為M1 Ultra芯片、128GB RAM、8TB 固態硬盤,Mac Pro系統配備了3.2GHz 16核英特爾Xeon W處理器、192GB RAM、4TB固態硬盤,27英寸iMac系統配備了3.6GHz 10核英特爾Core i9 處理器、128GB RAM、8TB固態硬盤。
根據蘋果提供的數據,在相同功耗下,M1 Ultra處理多線程任務的速度比16核英特爾旗艦至強i9-12900K提升了90%;實現同樣性能時,M1 Ultra的功耗比12900K少100W。
這裡需注意的是,在多線程工作負載方面,蘋果可以說一直都是頂級守擂者,但其在單線程方面有點擠牙膏,高性能核心已經被英特爾新架構超越。
GPU方面尤其值得一提。
蘋果聲稱實現同樣的性能,M1 Ultra的功耗只有主流獨立GPU的1/3,或比最強顯卡英偉達GeForce RTX 3090少200W。
當然,考慮到蘋果M1 Ultra採用的是台積電5nm工藝,而英偉達3090採用的是三星8nm工藝,這裡製造工藝的升級貢獻了一部分能效的提升。
相比27英寸iMac中的AMD Radeon Pro 5700XT獨立顯卡,M1 Ultra的GPU性能提升高達4.5倍,甚至比起Mac Pro中的AMD Radeon Pro W6900X,性能提升幅度也達到了80%。下圖是8K渲染速度提升情況的測試結果。
M1 Ultra的媒體處理引擎資源同樣翻倍,其處理ProRes格式視頻編解碼任務的吞吐能力提升至史上最高,最多可同時播放18條8K ProRes 422格式的視頻流。
三、將A13 仿生芯片塞入顯示器
為了配合Mac Studio主機,蘋果還推出了一款分辨率達5K級別的新顯示器產品Studio Display。
這款顯示器首次內置了蘋果的自研旗艦手機芯片A13,用於優化視頻人物居中、空間音頻和“嘿Siri”等功能的處理能力。
同時,新款iPhone SE用上和iPhone 13系列同款的A15仿生芯片,有6核CPU和4核GPU,CPU性能比iPhone 8提升1.8倍,GPU處理速度比二代SE最高提升1.2倍,神經網絡處理能力提升26倍。
iPad Air 5亦換上與iPad Pro同款的M1芯片,相比上代A14性能提升達到了60%,8核圖形處理器最高提速至2倍,16核神經網絡引擎也讓機器學習性能大幅提升。
當然,軟硬件協同是蘋果產品體驗的一貫優勢,macOS系統和各款專業App已為蘋果M1系列芯片優化,能夠充分利用M1 Ultra的性能。
面向碳中和,蘋果稱其定制芯片的出色能效幫助Mac Studio在整個產品生命週期內消耗更少電力,並稱Mac Studio在一整年裡所消耗的電力比起一台高端配置的台式PC可節省最高達1000千瓦時。
蘋果目前在全球公司運營方面已實現碳中和,計劃在2030年年底前讓全部公司業務實現碳中和,包括製造供應鍊和所有產品生命週期在內。這意味著蘋果所生產的每一枚芯片,從設計到製造,都將實現100%碳中和。
結語:蘋果芯,幹翻自己!
如今,蘋果已經在幾乎所有的Mac產品線中全面應用了其自研芯片。
今天蘋果的推出M1 Ultra芯片,雖說與此前盛傳的M2芯片不符,但其直接將兩塊GPU連在一起的設計思路,乍一看有些出乎意料,但細想其實是非常合理的進化方向。
決心在自研電腦芯片上一往無前後,蘋果每一次推出的M1系列芯片新品類都是各種先進技術的集大成者,並且每一次都創造了一個新的芯片設計高地,誰能想到當初驚艷登場的M1芯片,如今竟成了M1系列中最低配的存在呢?
在單個芯片觸達實際尺寸極限後,蘋果開始走堆料路線,並通過創新架構將多個芯片封在一起,實現更強悍的性能效果。理論上,三個乃至更多芯片的組合,也是可以實現的,不過據芯東西了解,蘋果暫無這麼做的興趣。
至於M1芯片終極版本究竟能在實際產品中發揮出怎樣的水準?我們非常期待看到它在後續實測的表現。