SRAM,不能微縮?還能救救
相較於非揮發性記憶體的快速推成出新,易失性記憶體在過去四、五十年裡沒有太大的變化,依舊以DRAM(動態隨機存取記憶體)和SRAM(靜態隨機存取記憶體)為主,其中前者因應用範圍廣闊,再加上週期性的市場波動,早已成為了半導體行業如今的風向標。
而後者SRAM與之相比,因其無需週期性更新存儲的數據,通電情況下數據可一直保存,具有訪問速度快的優點,通常用於CPU的高速緩存上面,但它處理1比特數據需要六個電晶體,而DRAM只需一個電晶體,也導致了集成度較低,在相同體積下容量較小,存在體積大、成本較高等缺點。
新思界產業研究中心的報告顯示,2021年,全球半導體記憶體市場規模達到1,540億美元左右,其中SRAM市場規模僅佔極小一部分,2021年全球SRAM市場規模約4億美元。在全球範圍內,美國是最大的SRAM需求市場,其次是日本。全球範圍內,SRAM市場主要被美國賽普拉斯(Cypres)、日本瑞薩電子(Renesas)、美國ISSI公司(被北京君正收購)三家廠商所佔據,合計市場佔有率達82%。
在2023年以前,SRAM向來是最被冷落的儲存技術之一,但隨著近一年AI的爆火,情況正在悄悄改變。
AI帶火SRAM
2024年2月,GoogleTPU第一代設計者Jonathan Ross所創立的Groq公司正式宣布,其新一代LPU在多個公開測試中,以幾乎最低的價格,相比GPU推理速度翻倍,後續有三方測試結果表明,該晶片對大語言模型推理進行最佳化效果顯著,速度相較於英偉達GPU提高了10倍。
在首次公開基準測試結果中,Groq搭載的Llama2或Mistreal模型在計算和反應速度上遠遠超過ChatGPT。這項成績背後,是Groq團隊為大語言模型(LLM)量身定制的專用晶片(ASIC),它使得Groq每秒可以生成高達500個token。相較之下,目前ChatGPT-3.5的公開版本每秒只能產生約40個token。
知情人士透露,LPU的工作原理與GPU截然不同。它採用了時序指令集電腦(Temporal Instruction Set Computer)架構,這意味著它無需像使用高頻寬記憶體(HBM)的GPU那樣頻繁地從記憶體中載入資料。這項特點不僅有助於避免HBM短缺的問題,還能有效降低成本。
有從事人工智慧開發的用戶稱讚,Groq是追求低延遲產品的“遊戲規則改變者”,低延遲指的是從處理請求到獲得回應所需的時間。另一位用戶則表示,Groq的LPU在未來有望對GPU在人工智慧應用需求方面實現“革命性提升”,並認為它可能成為英偉達A100和H100晶片的“高性能硬體”的有力替代品。
更重要的是,有別於其他GPU依賴高速資料傳輸,Groq的LPU並沒有採用高頻寬記憶體(HBM),它選擇的正是SRAM,其速度比GPU所使用的記憶體快約20倍。
一時間,和SRAM相關的概念股都成了香餑餑,不少人爭先恐後地在投資平台詢問AI相關,SRAM儼然成了又一個HBM。
不過,很快就有專業人士給這波突如其來的熱潮降溫了:SRAM早就是個非常成熟的技術了,CPU中的寄存器和緩存都用的是SRAM,SRAM早已以IP內核形式完成在SoC的集成,本身的技術價值沒有更大的突破。雖然SRAM確實要比DRAM快,但其價格很貴,容量較小,LPU甚至其他運算晶片,大量使用SRAM時需要有所權衡。
此外,也有人指出Groq選擇了SRAM的理由,主要是它只負責推理、不訓練,而推理所需要的存儲空間比訓練要小得多,所以Groq的單闆卡只有230MB的內存,由於成本和容量限制,需要謹慎看待SRAM這輪爆火。
即便如此,AI還是為體積較小的SRAM打開了一條透著光的縫隙,一個全新的應用領域,就意味著更多的成長機會,而不是局限在之前的一畝三分地上。
有趣的是,早在Groq官宣新的LPU前,國外網站半導體工程已經與Alphawave Semi 首席技術官Tony Chan Carusone、Quadric 首席營銷官Steve Roddy 和西門子EDA 存儲技術專家Jongsin Yun 就人工智能和SRAM 的最新人工智能問題進行了討論。
西門子EDA 儲存技術專家Jongsin Yun表示, SRAM 與CMOS 邏輯製程相容,這使得SRAM 在從一種技術遷移到另一種技術時,可以追蹤邏輯效能的提升。 SRAM 是晶片內的本機可用記憶體。因此,它能提供即時存取的數據,這也是為什麼它在人工智慧應用中受到青睞的原因。憑藉數十年的製造經驗,我們了解其大部分潛在問題以及如何最大限度地發揮其優勢。就效能而言,SRAM 是我們迄今所知效能最高的記憶體解決方案,因此成為人工智慧的首選。
Quadric 行銷長Steve Roddy 則表示,SRAM 是任何人工智慧處理解決方案的關鍵要素,SRAM 的用量在很大程度上取決於你談論的是資料中心還是設備,或者是訓練還是推理。但不論何種應用,在處理元件旁邊都會有大量的SRAM。不同類型運算實作之間的所有架構差異,歸根結底都是管理記憶體、管理權重和激活流的不同策略,而這又極大地依賴可用和可選的記憶體類型。任何晶片架構師都要根據自己的部署方案有效地規劃記憶體層次結構,但在任何方案中,都必須有SRAM。
Alphawave Semi 技術長Tony Chan Carusone也表示,SRAM 對人工智慧至關重要,尤其是嵌入式SRAM。它的性能最高,而且可以直接與高密度邏輯整合在一起。僅從這些原因來看,它就非常重要。邏輯的擴充性比SRAM好。因此,SRAM 變得更加重要,並佔用了更大一部分晶片面積。一些處理器上有大量的SRAM,而且這種趨勢可能會持續下去,這將成為整個處理器的一個重要成本驅動因素。一個新趨勢是,將這些已達到視網膜極限的大型晶片分解成多個晶片組,並透過適當的互連,使它們能夠像一個大型晶片一樣運行,從而整合更多的運算和更多的SRAM。反過來,大量的SRAM 進一步推動了向基於晶片的實現過渡。
透過這幾位專家的討論我們可以發現,即使是不像Groq那樣直接把SRAM當作內存來使用,AI依舊和SRAM脫不開幹系,SRAM未來也有望隨著AI的火熱來煥發第二春。
SRAM的絆腳石
但困擾SRAM的,遠不止應用,還有技術。
前面提到過,SRAM採用的是6晶體管架構(邏輯區通常包含4個電晶體/單元),但是,在跟上CMOS 縮放的步伐時,SRAM 卻表現不佳,這對功耗和性能產生了影響。隨著人工智慧設計對內部記憶體存取的要求越來越高,如何在技術節點遷移過程中進一步擴大SRAM 的功耗和效能優勢已成為一項重大挑戰。
在2022年底,台積電的一篇論文帶來了可怕的壞消息——雖然邏輯仍在或多或少地沿著歷史趨勢線擴展,但SRAM 擴展似乎已經完全崩潰。
台積電曾在正式推出N3 製造技術時表示,與N5(5 奈米級)製程相比,新節點的邏輯密度將提高1.6 倍和1.7 倍,而台積電在論文卻承認,與N5 相比,新技術的SRAM 單元幾乎沒有擴充。
台積電N3 的SRAM 位元尺寸為0.0199µm^²,與N5 的0.021 µm^² SRAM 位元相比,僅縮小了約5%。改進後的N3E 情況更糟,因為它配備了0.021 µm^² SRAM 位元組(大致相當於31.8 Mib/mm^²),這意味著與N5 相比完全沒有縮放。
隨著晶片效能的成長,對快取和SRAM 的需求只會增加,但N3(僅用於少數產品)和N3E 卻無法減少SRAM 所佔用的晶片面積,也無法降低新節點比N5 更高的成本。從根本上說,這意味著高效能處理器的晶片尺寸將會增加,成本也會增加,同時SRAM 單元也會與邏輯單元一樣容易出現缺陷。雖然晶片設計人員將能夠利用台積電N3 的FinFlex 創新技術(在一個區塊中混合和匹配不同種類的FinFET,以優化其性能、功耗或面積)來緩解SRAM 單元變大的問題,但無法根治SRAM無法擴展這一問題
事實上,早在20nm 製程中,SRAM 就無法與邏輯相應地擴展,這也注定了當片上記憶體變得比晶片本身還要大時,會面臨功耗和性能方面的挑戰。而針對這些問題,系統設計人員和硬體開發人員也從那時起就不斷提出新的解決方案和開發新的技術。
AMD採取了不同的方法。它推出了一種名為3D V-Cache 的技術,該技術允許將單獨晶片上的附加SRAM 高速緩存記憶體堆疊在處理器頂部,從而增加處理器核心可用的高速緩存量。額外的晶片增加了成本,但允許存取額外的SRAM。
另一種策略是擁有多層快取。處理器核心可以擁有隻有它們才能存取的私有(非共享)一級和二級緩存,以及在處理器核心之間共享的更大的末級快取(LLC)。由於處理器擁有如此多的內核,共享LLC 允許某些內核有時使用更多容量,而另一些內核有時使用更少容量,以便在所有處理器內核上更有效地使用總容量。 」
設計人員採取的另一種方法是盡可能只使用單核心記憶體。在較舊的製程節點中,編寫暫存器檔案時,使用雙核心記憶體的可能性要大得多,但這樣做也會增加面積。因此,在較低的節點中,設計人員會盡量讓所有東西都從記憶體的單一連接埠運行,因為這些是最小、最密集的全功率選擇。他們不一定會放棄SRAM,但他們會盡可能使用單核內存,選擇嘗試使用較小的存儲器,並選擇SRAM 來獲得可用頻寬,而不是真正的大存儲。
還有一種方法就是在SRAM 外圍設計中增加支援電路。 SRAM 和周邊設備不再共用電源。取而代之的是採用雙電源軌,以單獨利用最高效的電壓電平,在某些設計中,SRAM 可以進入休眠模式,只需最低電壓即可保留數據,直到CPU 的下一次訪問。由於洩漏電流與VDD 呈指數關係,因此這種設計具有顯著的功耗優勢。一些SRAM 設計採用了額外的電路來解決運作中的薄弱環節,目的是提高最低工作電壓。
例如,高密度(HD)SRAM 單元可以透過對所有6 個電晶體使用單鰭電晶體來實現最小的幾何尺寸。然而,由於在寫入操作過程中相同尺寸的上拉(PU) 和過柵(PG) 電晶體之間存在爭用問題,因此HD 單元在低電壓工作時面臨挑戰。
當然,用新的嵌入式記憶體類型來取代SRAM也是一種可行方法,但每種類型都有自己的問題。主要的競爭者MRAM和ReRAM只佔用一個電晶體面積,雖然它們的電晶體面積比SRAM大,但它們的整體單元尺寸仍然只有SRAM的三分之一,包括外圍電路在內的宏觀尺寸目標成品尺寸只有SRAM的一半左右。雖然在尺寸上有明顯優勢,但寫入速度的效能仍然遠低於SRAM。
imec公司的Hellings也提出了自己的想法,如果物理學不允許使用更小的SRAM,那麼替代方案就需要重新考慮架構並採用晶片組。如果SRAM無法在N3或N2中擴展,那麼我們可以將更先進的邏輯晶片與較舊技術製造的SRAM晶片結合。這種方法可以提高邏輯的PPA,同時使用具有成本效益的(較舊的、可能產量更高、成本更低)技術節點來製造SRAM。原則上,AMD 基於V-cache 的系統可以擴展,只將邏輯晶片轉移到下一個節點。然後,需要使用3D 整合或晶片組方法(2.5D)將兩個晶片組合在一起。
在後摩爾時代,當SRAM擴展變得不那麼容易的時候,大家都在齊心協力地尋找方法,尋找一種破解之道,讓SRAM跟上邏輯電路的腳步,但截至目前,行業內依舊沒有一個公認合理的,兼顧擴展、功耗和成本三方面的解決方案。
新的解決方案
在眾多老牌廠商上下求索之際,也有新創企業在發光發熱。
以色列新創公司RAAAM Memory Technologies 在今年4月宣布獲得400 萬美元融資,用於開發系統級晶片(SoC) SRAM 替代產品。
該公司成立於2021 年,由來自巴伊蘭大學和瑞士洛桑聯邦理工學院(EPFL)的四位專門從事超大規模積體電路(VLSI)設計的博士創建,分別是羅伯特-吉特曼(Robert Giterman) 、洛桑聯邦理工學院副教授兼電信電路實驗室主任安德烈亞斯-伯格(Andreas Burg)、巴伊蘭大學教授兼顧問亞歷山大-費什(Alexander Fish)和巴伊蘭大學副教授兼科學顧問亞當-特曼(Adam (Adi) Teman)。
RAAAM 聯合創始人兼首席執行官羅伯特-吉特曼(Robert Giterman)在一份聲明中說:「RAAAM的增益單元隨機存取記憶體(GCRAM)技術是一種獨特的片上記憶體解決方案,只需要三個電晶體就能儲存一位數據,而現有的基於SRAM的最高密度記憶體技術需要6-8個電晶體。成本製造。
RAAAM 官方表示,GCRAM 與標準CMOS 完全相容,可用作任何SoC 的SRAM 直接替代品,透過縮小晶片尺寸降低製造成本,或在相同晶片尺寸內增加記憶體容量提高系統效能。
該公司表示,SoC 將越來越多的片上面積用於嵌入式記憶體SRAM,SRAM 使用具有兩個穩定狀態的觸發器電路來儲存二進位位元值。該電路需要四個晶體管來儲存一個比特,兩個晶體管來控制單元的訪問,SoC 嵌入式記憶體的尺寸正在不斷增大,在人工智慧和機器學習等某些應用中,其尺寸已達到SoC 總面積的75%,這無疑限制了SoC 的開發和應用。
根據RAAAM官方表示,GCRAM 技術依賴只需2-3 個電晶體(取決於面積或效能優先權)的高密度位元組。與高密度6T SRAM 設計相比,此結構可將面積縮小2 倍。位元組由去耦寫入和讀取連接埠組成,提供原生雙埠操作,由寄生儲存節點電容保存資料。與傳統的1T-1C eDRAM 不同,GCRAM 不依賴微妙的電荷共享來讀取資料。相反,RAAAM的GCRAM 提供一個主動讀取晶體管,可提供放大的位元線電流,從而提供低延遲的非破壞性讀取,而無需大型儲存電容器。因此,GCRAM 無需對標準CMOS 製造流程進行任何改動或增加成本,只要設計得當,就能隨著技術的發展而擴展。
其認為,雖然過去曾嘗試過2T/3T 儲存單元的概念,但迄今為止,寄生儲存電容的減少和對漏電流增加的擔憂阻礙了其在65 奈米以上的應用。 RAAAM 的專利創新包括記憶體位元和周邊層的巧妙電路設計,從而顯著降低了位元漏電,提高了資料保持時間,並針對各種應用優化了專門的刷新演算法,確保即使在最極端的工作條件下方也能保持極高的記憶體可用性。事實上,RAAAM已經展示了GCRAM 技術在各種代工廠(如台積電、意法半導體、三星、聯電)製程節點上的成功擴展,包括在28 奈米(Bulk 和FD-SOI)和16 奈米FinFET 技術上實作高達1Mbit GCRAM 記憶體巨集的矽演示器。
GCRAM 的簡報中,也詳細介紹了該技術如何使用獨立的讀寫端口,而不是DRAM 的每個單元組合讀寫端口,這使它能夠放大單元存儲的電荷,並分別優化讀寫過程,同時保持類似SRAM 的效能。
目前RAAAM的種子輪投資者包括Serpentine Ventures、J-Ventures、HackCapital、Silicon Catalyst Angels、Claves Investments 以及作為策略投資者的大型跨國半導體公司。
對於走至窮途末路的SRAM來說,RAAAM的GCRAM 技術提供了一個新思路,打開了一扇新的大門,更好的消息是RAAAM不會直接出售記憶體,只做技術的授權。
根據官方介紹,RAAAM 採用的是智慧財產權供應商授權模式,,半導體公司在支付一定的費用和生產單位專利使用費後,就可以獲得RAAAM 的GCRAM 技術授權,RAAAM 會根據客戶規格實現前端記憶體控制器和基於GCRAM 的硬記憶體巨集,並提供軟RTL 封裝(使用標準SRAM 介面),該封裝器實例化了GCRAM 硬宏(GDS) 和軟刷新控制(RTL)。此外,客戶還會收到硬記憶體巨集的特性報告和用於系統層級驗證的行為模型。
目前,RAAAM 正在實施和鑑定基於GCRAM 的記憶體編譯器,該編譯器將使RAAAM 的客戶能夠根據客戶規格自動產生GCRAM IP 的完整前端和後端視圖以及相應的特性報告。
問題來了,RAAAM,以及前文提到的幾個方向,誰才是SRAM的大救星呢?