10年前,晶片巨頭的技術人員怎麼看HBM?
因為AI的推動,英偉達和HBM在近年來人盡皆知。但可能很少人知道,AMD是世界上第一個推出HBM GPU的晶片公司。最近,我們看到了一篇AMD技術人員在2015年的採訪,我們來看看,這家晶片巨頭當年是怎麼看HBM的。再次強調一下,這是一篇2015年的文章,重發的原因是希望大家以此,看看業界可能是怎麼看HBM的。
以下為文章原文:
雖然當時沒有引起太多關注,但2011 年,AMD 和記憶體製造商Hynix(現為SK Hynix)公開宣布計劃合作開發和部署下一代記憶體標準:高頻寬記憶體(HBM)。 HBM 本質上是GDDR 的繼任者,它將在記憶體工作方面實現一些非常重大的變化,以進一步提高記憶體頻寬並降低記憶體功耗。
在過去十年中,AMD(以及圖形處理領域的前身ATI)一直走在圖形處理領域採用新記憶體技術的前沿,率先部署了基於最新2 種圖形DDR 標準(GDDR4 和GDDR5)的產品。因此,AMD 和Hynix 的聲明雖然當時並不是什麼大事,但卻是AMD 過去行為的合理延伸,即繼續為未來產品探索新記憶體技術。假設AMD 和Hynix 聯盟一切順利(這是有可能的,但不一定),幾年後這兩家公司將能夠將技術推向市場。
四年過去了,成功的實驗讓位給產品化。本月早些時候,在AMD 2015 財務分析師日上,該公司宣布將在本季度向零售市場發布其首款配備HBM 的GPU – 實際上是世界上第一款配備HBM 的GPU。從那時起,人們就提出了許多問題,例如AMD 打算用HBM 做什麼,以及這對他們的產品意味著什麼(這是否像看起來那麼重要?),儘管AMD 尚未準備好透露即將推出的配備HBM 的GPU 的細節,但該公司希望盡快推出HBM,以便在本季稍後GPU 發布之前解釋這項技術是什麼以及它能為他們的產品帶來什麼。
到目前為止,已經有許多關於HBM 的演示發布,包括記憶體製造商、負責塑造HBM 的JEDEC 組織、AMD 甚至NVIDIA。因此,儘管第一批HBM 產品尚未上市,但HBM 的基礎已被充分理解,至少在工程圈內是如此。事實上,正是HBM 在那些技術圈內才真正被充分理解,這推動了AMD 今天的最新披露。 AMD 認為HBM 是未來一年的一項重要競爭優勢,而現有的HBM 演示主要面向工程師、學術界和投資者,AMD 希望邁出下一步,向最終用戶推廣HBM 技術。
這引出了今天文章的主題:AMD 對高頻寬記憶體的深入披露。為了在下一代GPU 發布之前做好準備,AMD 正在與技術和遊戲媒體聯繫,宣傳HBM 以及它對AMD 產品的意義。
GDDR5 達到極限的地方
要真正理解HBM,我們必須追溯到第一個電腦內存接口,但為了方便和理智,我們將把這一課濃縮為以下內容。電腦和記憶體介面的歷史是在寬並行介面和快速串行介面之間不斷移動的循環。序列埠和並行埠、USB 2.0 和USB 3.1 (Type-C)、SDRAM 和RDRAM,有一個不斷開發更快介面的過程,然後開發更寬的接口,並根據條件在它們之間來回切換。
到目前為止,在PC 記憶體的競爭中,鐘擺已經向串行接口方向傾斜。儘管已經過了4 代GDDR,但記憶體設計師仍在不斷提高時脈速度以增加可用記憶體頻寬,最終出現了GDDR5,其每針資料速率高達7Gbps+。 GDDR5 已在高端市場陪伴我們近7 年,比任何以前的記憶體技術都長,並且在此過程中比最初計劃的走得更遠、更快。
但在介面週期中,當談到GDDR5 時,串列介面的鐘擺終於達到了頂點。早在2011 年AMD 顯示卡發布會上,我問當時的圖形技術長Eric Demers GDDR5 之後會發生什麼,雖然他預計GDDR5 會繼續使用一段時間,但很明顯GDDR5 已經接近極限。高速匯流排帶來了許多工程挑戰,雖然仍有改進的空間,但問題是這樣做是否值得。
GPU 社群對此的簡短回答是「否」。 GDDR5 類記憶體可以進一步發展,既可以使用現有的GDDR5,也可以使用理論上的差分I/O 記憶體(例如USB/PCIe 總線,但用於記憶體),但這樣做會以巨大的功耗為代價。事實上,即使是現有的GDDR5 實作也已經消耗了相當多的電量;由於GDDR5 複雜的時脈機制,大量的記憶體電量僅用於分配和維持GDDR5 的高時脈速度。任何未來的GDDR5 類技術都只會加劇這個問題,並帶來新的複雜性,例如需要在記憶體晶片中添加更多邏輯,這是一個有點痛苦的組合,因為邏輯和密集記憶體很難一起製造。
目前,GDDR5 的耗電量情況是這樣的,根據AMD 估計,Radeon R9 290X(250W TDP)的耗電量中15-20% 用於記憶體。即使在該公司採用更寬、更慢、主頻為5GHz 的512 位元GDDR5 記憶體匯流排以更好地控制功耗之後,情況仍然如此。因此,使用更快、功耗更高的記憶體標準只會加劇這個問題。
隨著消費者(和工程師)越來越重視功耗問題,消費性設備的功耗一直在下降。電池容量固定的行動裝置當然是最佳例子,但即使在PC 領域,CPU 和GPU 的功耗也已達到峰值,之後有所下降。趨勢是朝著更節能的設備發展- 2005 年高端GPU 的空閒功耗在2015 年將是無法容忍的- 這又給更快的串行內存技術帶來了另一個阻礙,因為功耗會在預計整體功耗下降的同時上升,因此單一裝置的工作功耗會降低。
最後,除了上述所有問題之外,還有可擴展性問題。我們將在討論HBM 的優勢時進一步討論這個問題,但簡而言之,GDDR5 最終也會佔用大量空間,尤其是當我們談論當前高階顯示卡的384 位元和512 位元配置時。在一切都變得越來越小的時代,還需要進一步縮小內存,而GDDR5 和潛在的衍生產品並不適合解決這個問題。
最終結果是,在GPU 記憶體領域,鐘擺開始擺回平行記憶體介面。 GDDR5 已經發展到了一個點,再進一步發展就會越來越低效,這導致研究人員和工程師尋找更寬的下一代記憶體介面。這就是他們選擇HBM 的原因。
HBM:寬而慢,快而快
鑑於進一步推動GDDR5 和類似記憶體技術所面臨的挑戰,高頻寬記憶體技術的發展在過去十年中已轉向更寬、更慢的介面。隨著串列介面達到極限,並行介面成為越來越可行的替代方案。儘管它們也帶來了自己的挑戰——畢竟串行接口最近佔據主導地位是有原因的——但進一步改進串行接口的挑戰的增加與使並行接口更易於實現的技術的發展相吻合。因此,鐘擺又擺回了並行介面和HBM。
簡而言之,HBM 將「wide & slow 」範式發揮到了極致。 HBM 並非圍繞ASIC 建立高速晶片陣列,透過256/384/512 位元記憶體匯流排實現每針7Gbps+ 的速度,而是在最基本的層面上將記憶體時脈速度降低到每針1Gbps,但作為交換,記憶體匯流排變得更寬。有多寬?這取決於規範的實施和生成,但AMD 迄今為止展示的範例涉及4 個HBM 裝置(堆疊),每個裝置都有1024 位元寬的記憶體匯流排,組合起來形成一個巨大的4096 位元記憶體匯流排。它可能不會被調高時脈速度,但如果它有那麼寬,就不需要這樣做了。
當然,雖然額外的記憶體頻寬很不錯,但更有趣的部分是HBM 如何實現這一點。雖然寬而慢的平行總線的概念在紙面上很容易理解,但實現它又是另一回事。 4096 位元記憶體匯流排涉及數千條跡線,遠遠超過GDDR5,所有這些跡線都必須精心建構才能使HBM 正常運作。因此,有幾項基本技術正在透過HBM 大規模(但不一定是首次)引入。
第一個也是最根本的問題是如何有效率地佈線4096 位元記憶體匯流排?即使是最好的表面貼裝BGA 技術也有其局限性,而Hawaii正在推動其512 位元GDDR5 記憶體匯流排的發展。更寬的總線只會讓這一過程變得更加困難,無論是在PCB 或晶片基板上佈線如此寬的總線,還是使用BGA 將晶片連接到這些線路,都會帶來問題。
解決方案的第一步是開發能夠實現更高密度佈線的東西,而這個東西就是矽中介層。廣義上講,中介層是一種部分製造的矽晶片,它不是開發成一個裝滿邏輯的完整ASIC,而是只開發到具有金屬層,以便在設備之間路由訊號和電源。中介層之所以有效,是因為它利用了現代光刻製程的一些核心優勢,允許創建非常精細的路徑,而這在傳統的PCB 和基板上是不可能/不切實際的。
使用矽中介層解決了HBM 的一些基本問題,但它也提供了一些附帶好處。除了解決明顯的佈線問題外,中介層還允許將DRAM 放置在非常靠近ASIC 的位置,但不必放置在ASIC 上方(即堆疊封裝),這對於GPU 等高TDP 設備來說是不切實際的。透過能夠將DRAM 放置在如此靠近ASIC 的位置,它避免了長記憶體路徑的缺點,使較短的路徑更易於構建,並且在此過程中所需的功率更少。它也有利於集成,因為與PoP 技術類似,您可以將更多設備功能放在與ASIC 相同的封裝上,從而減少需要放置在封裝外並佈線到ASIC 的設備數量。
當然,中介層也有一個缺點,就是成本。雖然AMD 並沒有詳細討論成本問題(這是技術深入探討,而不是分析師會議),但中介層本質上是一個非常大的、部分開發的矽片,這意味著它的生產成本相對較高,尤其是與成本非常低的PCB 和傳統基板相比。緩解這一問題的事實是,中介層不需要經過最複雜、最昂貴的光刻階段(實際的前端光刻),因此成本只是矽晶圓本身,以及創建金屬層所需的工作,最終的中介層只有約100 微米厚。此外,這不需要尖端晶圓廠——舊的、完全攤銷的65nm 設備運作良好——這進一步降低了成本。最終結果是中介層的成本仍然很高,但並不像最初看起來那麼糟糕。這最終就是為什麼HBM 將首先在高階顯示卡等高利潤產品上推出,然後才有可能進入APU 等更便宜的裝置。
同時,從長遠來看,AMD 及其供應商也將從批量生產中受益。第一批中介層是在經過改造的65nm 光刻生產線上生產的,但是一旦批量生產規模擴大,開發僅中介層的生產線將變得經濟實惠,因為它們不需要同時提供完整的光刻能力,因此運行成本更低。目前還不清楚這個截止點在哪裡,但聽起來它很快就會發生。
從更廣泛的角度來看,在整體方案中,中介層成為整個晶片上的一個新層,位於傳統基板和安裝在其上面的任何DRAM/ASIC 之間。微凸塊將DRAM 和ASIC 連接到中介層,然後中介層將連接到基板,最後基板連接到其配套的PCB。 PCB 安裝本身將在此過程中變得更容易一些,因為不再需要透過基板佈線記憶體走線,這意味著唯一剩下的連接是資料(PCIe 總線等)和ASIC 和DRAM 的電源。所有複雜的佈線基本上都集中在中介層發生。
接下來,這裡另一個重大技術突破是矽通孔(TSV) 的創建。有了中介層來實現密集記憶體匯流排的佈線,另一個需要解決的問題就是創建密集記憶體。解決方案是將多個記憶體晶片堆疊在一起形成單一裝置/堆疊,以創建單一1024 位元堆疊,而TSV 正是實現這一點的關鍵。
堆疊DRAM 的原因非常簡單:透過將DRAM 減少到更少的分立設備,可以簡化生產,更不用說節省空間了。這裡的挑戰是,由於DRAM 是堆疊的,因此無法使用傳統的表面貼裝連接,而傳統的邊緣連接(如PoP 中使用的)既不夠密集,也不能很好地擴展到HBM 所需的那種堆疊。
因此,需要一種方法來將DRAM 連接路由到堆疊的較低層,而TSV 解決了這個問題。常規通孔可以將兩層連接在一起,而TSV 則透過將通孔直接穿過矽元件來連接更遠的層,從而擴展了這一原理。最終結果有點類似於透過微凸塊將DRAM 晶片表面貼裝在一起,但具有透過層進行通訊的能力。從製造的角度來看,在矽中介層和TSV 之間,TSV 是更難掌握的技術,因為它基本上結合了DRAM 製造的所有挑戰以及將這些DRAM 晶片堆疊在一起的挑戰。
在開發出堆疊DRAM 的方法後,HBM 堆疊的最後一個元件是位於堆疊底部的邏輯晶片。同樣配備TSV 的邏輯晶片負責實際操作其上方的DRAM 晶片,然後處理堆疊和ASIC 之間的HBM 匯流排操作。這實際上是一個相當有趣的發展,因為最終結果是儘管HBM 總線很簡單,但增加了更多邏輯,但同時由於TSV 和中介層,添加該邏輯比以往任何時候都更容易。
HBM 的淨收益
現在我們有機會討論HBM 的構造方式以及建構它的技術障礙,我們終於可以談談HBM 的性能和設計優勢了。 HBM 當然首先是進一步增加記憶體頻寬,但堆疊DRAM 和更低功耗的結合也開闢了一些無法透過GDDR5 實現的額外可能性。
我們先從HBM 的頻寬能力開始。頻寬量最終取決於使用的堆疊數量以及這些堆疊的時脈速度。 HBM 使用DDR 訊號接口,雖然AMD 目前尚未公佈最終產品規格,但他們已經向我們提供了足夠的資訊來開始建立完整的圖景。
AMD 使用的第一代HBM 允許每個堆疊的時脈頻率高達500MHz,經過DDR 訊號傳輸後,每個引腳的速率可達1Gbps。對於1024 位元堆疊,這意味著單一堆疊可以提供高達128GB/秒(1024b * 1G / 8b)的記憶體頻寬。 HBM 反過來允許使用2 到8 個堆疊,每個堆疊承載1GB DRAM。到目前為止,AMD 的範例圖(以及NVIDIA 的Pascal 測試工具)都是用4 個堆疊繪製的,在這種情況下,我們將看到512GB/秒的記憶體頻寬。這當然比R9 290X 的320GB/秒記憶體頻寬或NVIDIA 的GTX titan X 的336GB/秒要高得多,記憶體頻寬增加了52-60%。
更有趣的可能是HBM 對DRAM 能耗的影響。正如我們之前提到的,R9 290X 將其250W 功率預算的15-20% 用於DRAM,或絕對功率約為38-50W。同時,根據AMD 自己的估算,GDDR5 每瓦功率的頻寬為10.66GB/秒,透過此計算可達到30W+。另一方面,HBM 每瓦提供的頻寬超過35GB/秒,每瓦能源效率立即提高3 倍。
當然,AMD 隨後會將部分收益重新投入到增加記憶體頻寬中,因此,說記憶體功耗降低了70% 並不是那麼簡單。根據我們先前對4 堆疊配置的512GB/秒記憶體頻寬的估計,512GB/秒HBM 解決方案的功耗約為15W,而320GB/秒GDDR5 解決方案的功耗則為30W+。最終結果表明,DRAM 功耗幾乎減半,AMD 節省了15-20W 的功耗。
將DRAM 功耗降低15-20W 的實際優勢是什麼?除了能夠將其用於降低整體顯示卡功耗之外,另一種選擇是將其用於提高時脈速度。由於PowerTune 對功耗進行了嚴格限制,更大的GPU 功率預算將允許AMD 提高時脈速度和/或更頻繁地以最大GPU 時脈速度運行,從而將效能提高到目前無法確定的程度。現在需要提醒的是,更高的GPU 時脈速度通常需要更高的電壓,這反過來會導致GPU 功耗的快速增加。因此,儘管擁有額外的功率餘裕確實有助於GPU,但它可能並不像人們希望的那樣有利於提高時脈速度。
同時,在AMD 新產品發布和基準測試之前,額外記憶體頻寬帶來的效能提升同樣不明朗。根據經驗,GPU 幾乎總是記憶體頻寬瓶頸——畢竟它們是高吞吐量處理器,每秒能夠進行數萬億次計算,而頻寬僅為數十億位元組——因此毫無疑問,HBM 更高的記憶體頻寬將提高效能。然而,即使在AMD 目前的顯示卡上,記憶體頻寬的增加目前也不會帶來1:1 的效能提升,未來產品也不太可能有任何不同。
更糟的是,任何新的AMD 產品都將基於GCN 1.2 或更新版本,該版本引入了AMD 最新一代的色彩壓縮技術。最終結果是,在相同的工作負載下,記憶體頻寬壓力會下降,而記憶體頻寬可用性則會上升。 AMD 最終將獲得大量有效記憶體頻寬——這對於高解析度來說非常有用——但這也使得無法預測最終的效能影響。不過,看看AMD 如何在有效記憶體頻寬增加2 倍以上的情況下為圖形工作負載帶來什麼,這仍然很有趣。
AMD 希望利用HBM 的最後一個主要優勢(這一點他們甚至沒有特別提及)是HBM 帶來的更密集設計帶來的新外形設計。隨著大型GDDR5 記憶體晶片被更窄的HBM 堆疊取代,AMD 告訴我們,所產生的ASIC + RAM 設定可以小得多。
小多少? 1GB GDDR5 由2Gbit 模組組成(R9 290X 的標準模組大小),佔用672mm²,而HBM 堆疊的1GB DRAM 僅佔用35mm²。即使我們針對4Gbit 模組(目前出貨的顯示卡中使用的最大模組)重新計算,我們最終得到的仍然是336mm²,而不是35mm²,對於1GB DRAM 來說,這仍然節省了89%。最終,HBM 堆疊本身由多個DRAM 晶片組成,因此仍有相當多的矽片在使用,但由於堆疊,其2D 佔用空間顯著減少。
根據AMD 自己的估計,配備HBM 的單一GPU 封裝將小於70mm X 70mm (4900mm²),而R9 290X 的封裝則為110mm X 90mm (9900mm²)。由於HBM 堆疊不需要非常複雜的電源傳輸電路,因此可以節省更多空間,因此卡片的空間節省可能非常可觀。根據我們的估計,整個卡的尺寸仍然會相當大— 所有這些VRM 和連接器都需要放置在某個地方— 但可以節省大量空間。 AMD 打算如何使用這些節省下來的空間還有待觀察,不過在此向AMD 表示歉意,NVIDIA 已經展示了他們的Pascal 測試平台,用於他們的夾層連接器設計,不言而喻,這樣的外形尺寸開闢了一些非常有趣的可能性。
最後,售後市場愛好者可能會也可能不會享受到使用HBM 帶來的最後一個好處。由於DRAM 和GPU 現在位於同一包裝中,AMD 將在封裝上安裝整合式散熱器(IHS),以補償HBM 堆疊和GPU 晶片之間的高度差異,保護HBM 堆疊,並為HBM 堆疊提供足夠的冷卻。高階GPU 晶片已經裸露了一段時間,因此IHS 為晶片帶來的保護與IHS 為CPU 帶來的保護相同。但同時,這意味著不再可能直接接觸GPU,因此極端超頻者可能會失望而歸。我們必須看看出貨產品是什麼樣的,以及在這些情況下是否可以移除IHS。
結束語
結束這次深入探討後,作為第一家推出HBM 解決方案的GPU 製造商(事實上,AMD 預計將成為唯一一家推出HBM1 解決方案的供應商),AMD 已製定了一些非常積極的產品目標,這要歸功於HBM 帶來的收益。在我們進一步了解AMD 即將推出的顯示卡之前,我認為最好不要抱持太大的期望,因為HBM 只是GPU 這個完整拼圖中的一塊。但同時,我們要明確一點:HBM 是GPU 的未來記憶體技術,由於記憶體頻寬大幅增加,它有潛力顯著提高效能,大約明年,AMD 將是唯一一家提供這項技術的GPU 供應商。
AMD 則希望盡可能利用其領先優勢,無論是在技術層面還是在消費者層面。在技術層面,AMD 到目前為止很少談論性能,所以我們必須拭目以待,看看他們的新產品會帶來什麼。但AMD 對其利用HBM 尺寸優勢的計畫持更開放的態度,因此我們應該期待看到一些非傳統的高階GPU 設計。同時在消費者層面,預計HBM 將進入技術詞典,成為高性能產品的最新流行語——幾乎肯定會印在今天的顯示卡盒上,就像GDDR5 多年來一直印在顯卡盒上一樣——因為AMD希望讓每個人都知道他們的優勢。
同時,從長遠來看,高階GPU 只是AMD 預計的HBM 更廣泛應用的第一步。儘管AMD 目前尚未承諾推出任何其他產品,但隨著產量的提高和成本的下降,HBM 預計將在更廣泛的領域實現經濟可行性,包括低端GPU、HPC 產品(例如FirePro S 和AMD 即將推出的HPC APU)、高階通訊設備,當然還有AMD 的主流消費級APU。作為利潤率較低的產品,消費級APU 可能遙遙無期,但從長遠來看,它們很可能是HBM 最有趣的用例,因為APU 是目前頻寬最匱乏的圖形產品之一。但在我們走得太遠之前,讓我們看看AMD 本季晚些時候能在其高階顯示卡上使用HBM 做些什麼。