IBM的AI野心:用模擬芯片取代數字芯片
儘管我們仍處於人工智能革命的邊緣,但人工智能已經開始徹底改變我們的生活和工作方式。只有一個問題:人工智能技術非常耗電。據估計,運行大型人工智能模型在其生命週期內產生的排放量比普通美國汽車還要多。
人工智能的未來需要能源效率方面的新創新,從模型的設計方式到運行模型的硬件。在一個日益受到氣候變化威脅的世界中,人工智能能源效率的任何進步對於跟上人工智能快速擴大的碳足跡都至關重要。
IBM 研究中心在人工智能效率方面的最新突破之一依賴於模擬芯片,即功耗低得多的芯片。在今天發表在《自然》雜誌上的一篇論文中,來自世界各地IBM 實驗室的研究人員展示了他們的原型模擬AI 芯片,用於節能語音識別和轉錄。他們的設計被用於兩個人工智能推理實驗,在這兩種情況下,模擬芯片都像同類全數字設備一樣可靠地執行這些任務,但完成任務的速度更快,消耗的能源更少。
為人工智能推理設計模擬芯片的概念並不新鮮——研究人員多年來一直在考慮這個想法。早在2021 年,IBM 的一個團隊就開發了使用當電脈衝施加到材料上時,相變存儲器(PCM) 就會工作,從而改變設備的電導率。該材料在非晶相和結晶相之間切換,較低的電脈衝將使器件更加結晶,提供較小的電阻,而足夠高的電脈衝使器件非晶態,從而產生大電阻。PCM 設備不是記錄數字系統中常見的0 或1,而是將其狀態記錄為非晶態和晶態之間的連續值。該值稱為突觸權重,可以存儲在每個PCM 設備的物理原子配置中。存儲器是非易失性的,因此當電源關閉時重量仍會保留。相變存儲器將神經網絡的權重直接編碼到物理芯片上。但該領域之前的研究尚未表明如何將此類芯片用於我們所看到的當今人工智能領域主導的大規模模型。例如,GPT-3 是較大的流行模型之一,擁有1750 億個參數或權重。
IBM 研究團隊創建的設計可以在每個芯片上編碼3500 萬個相變存儲設備;換句話說,模型具有多達1700 萬個參數。雖然其規模尚未與當今最先進的生成式人工智能模型相媲美,但將這些芯片組合在一起使其能夠像數字芯片一樣有效地處理真實人工智能用例的實驗。
團隊採取的方法是優化在計算中,尤其是在數字信號處理中,MAC 運算是指計算兩個數字的乘積並將其添加到累加器(CPU 中處理算術運算的部分)。MAC 是一個基本的計算單元。乘法累加(MAC) 運算主導深度學習計算。通過讀取電阻式非易失性存儲器(NVM) 器件陣列的行,然後沿列收集電流,該團隊表明他們可以在存儲器內執行MAC。這樣就無需在芯片的內存和計算區域之間或跨芯片移動權重。模擬芯片還可以並行執行許多MAC操作,從而節省時間和能源。
模擬概念具有巨大潛力,但芯片設計和製造也面臨重大挑戰:模擬計算本質上不精確,必須開發新工藝才能大規模生產高產量NVM,並將模擬芯片連接到傳統數字芯片。系統。但IBM 的研究人員所做的工作表明,這些芯片在未來可能會像數字芯片一樣有用。
測試模擬人工智能硬件
IBM 研究中心的團隊設計了兩個實驗來測試其設計的有效性。第一個圍繞關鍵字話語檢測。就像您希望智能揚聲器在您大聲說“嘿Siri”或“嘿Google”時做出響應一樣,該團隊希望看到他們可以使用他們的芯片設計來識別特定的口語單詞。他們構建了一個可監聽12 個單詞的系統,在每種情況下,模擬芯片都能以與當今基於軟件的系統相同的精度對每個單詞做出反應,但速度要快得多。如今等待和偵聽特定關鍵字的系統需要電源才能閒置等待,而團隊創建的設計可以在不需要時關閉電源,因為模型權重存儲在芯片上的非易失性存儲器中。
使用上傳到MLCommons(行業基準測試和協作網站)的模型,該團隊可以將演示系統的功效與在數字硬件上運行的系統進行比較。由MLCommons 開發的MLPerf 存儲庫基準數據顯示,IBM 原型比同一網絡類別中最佳MLPerf 提交快七倍,同時保持高精度。該模型使用硬件感知訓練在GPU 上進行訓練,然後部署在團隊的模擬AI 芯片上。
第二個實驗規模相當大,暗示未來可以使用基於模擬芯片的生成人工智能係統來代替數字芯片。它的目標是使用團隊的五個芯片縫合在一起來實現一個大型複雜的模型,並模擬片外數字計算,以展示模擬人工智能的可擴展性。研究人員運行了MLPerf 上發現的循環神經網絡轉換器(RNNT)語音到文本模型,以逐個字母地轉錄一個人所說的內容。RNNT 在當今的許多現實應用中很受歡迎,包括虛擬助手、媒體內容搜索和字幕系統以及臨床文檔和聽寫。
該系統包含5 個芯片上1.4 億個PCM 設備的4500 萬個權重。它能夠採集人們說話的音頻並以非常接近數字硬件設置的精度進行轉錄。與第一個演示不同,這個演示並不完全是端到端的,這意味著它確實需要一些片外數字計算。然而,這裡涉及的額外計算很少,如果在芯片上實現,最終的能源效率仍然高於當今市場上的產品。
該團隊再次使用上傳到MLCommons 的數據,將其網絡的功效與在數字硬件上運行的RNNT 進行比較。MLPerf 數據顯示,IBM 原型的每瓦性能(或效率)估計比同類系統高出大約14 倍。這是IBM 研究人員能夠使用MLPerf 進行實際測試的第一個模擬系統,因為過去的實驗規模太小,無法進行比較。
模擬人工智能的下一步是什麼
自然語言任務並不是模擬人工智能可以解決的唯一人工智能問題——IBM 研究人員正在研究許多其他用途。在本月早些時候發表在《自然電子》雜誌上的一篇論文中,該團隊展示了可以使用節能模擬芯片設計來實現可擴展的混合信號架構,該架構可以在計算機視覺圖像識別的CIFAR- 10 圖像數據集中實現高精度。
這些芯片由位於東京、蘇黎世、紐約約克敦高地和加利福尼亞州阿爾馬登實驗室的IBM 研究人員構思和設計,並由外部製造公司製造。相變存儲器和金屬層在位於奧爾巴尼納米技術綜合體的IBM 研究實驗室進行了處理和驗證。
如果您將今天在《自然》雜誌上發表的工作的優點(例如大型陣列和並行數據傳輸)與《自然電子》論文中展示的芯片的強大數字計算模塊相結合,您會看到許多構建模塊實現快速、低功耗模擬AI 推理加速器的願景所需。並將這些設計與硬件彈性訓練算法相結合,該團隊預計這些人工智能設備將來能為各種人工智能模型提供相當於神經網絡精度的軟件。
雖然這項工作對於模擬人工智能係統來說是向前邁出的一大步,但在我們在市場上看到包含此類設備的機器之前,還有很多工作要做。該團隊在不久的將來的目標是將上述兩個工作流整合到一個模擬混合信號芯片中。該團隊還在研究如何在他們的芯片上實現基礎模型。
模擬人工智能現在正在很大程度上解決當今數字系統正在解決的各種人工智能問題,並且具有功耗意識的模擬人工智能的願景與我們今天使用的數字系統相結合,變得越來越清晰。
延伸閱讀:IBM 用於深度學習推理的模擬AI 芯片
我們正處於人工智能革命的開端,這場革命將重新定義我們的生活和工作方式。特別是,深度神經網絡(DNN) 徹底改變了人工智能領域,並隨著基礎模型和生成式人工智能的出現而日益受到重視。。但在傳統數字計算架構上運行這些模型限制了它們可實現的性能和能源效率。專門用於人工智能推理的硬件開發已經取得了進展,但其中許多架構在物理上分割了內存和處理單元。這意味著人工智能模型通常存儲在離散的內存位置,計算任務需要在內存和處理單元之間不斷地整理數據。此過程會減慢計算速度並限制可實現的最大能源效率。
IBM 研究中心一直在研究重塑人工智能計算方式的方法。模擬內存計算,或者簡稱模擬人工智能,是一種很有前途的方法,可以藉用神經網絡在生物大腦中運行的關鍵特徵來應對這一挑戰。在我們的大腦以及許多其他動物的大腦中,突觸的強度(在本例中是“權重”)決定了神經元之間的通信。對於模擬人工智能係統,我們將這些突觸權重本地存儲在納米級電阻存儲設備的電導值中,例如相變存儲器(PCM) 並通過利用電路定律並減少在內存和處理器之間不斷發送數據的需要來執行乘法累加(MAC) 操作,這是DNN 中的主要計算操作。
為了將模擬人工智能的概念變成現實,需要克服兩個關鍵挑戰:這些存儲器陣列需要能夠以與現有數字系統相當的精度進行計算,並且它們需要能夠與其他數字計算單元,以及模擬人工智能芯片上的數字通信結構。
在早前發表在Nature Electronics 上的一篇論文中,IBM Research 引入了最先進的混合信號模擬AI 芯片來運行各種DNN 推理任務,從而在應對這些挑戰方面邁出了重要一步。它是第一款經過測試的模擬芯片,與數字芯片一樣擅長計算機視覺人工智能任務,同時能效顯著提高。
該芯片是在IBM 的Albany NanoTech Complex中製造的,由64 個模擬內存計算核心(或塊)組成,每個核心包含256×256 的突觸單位單元交叉陣列。每個模塊中都集成了緊湊的基於時間的模數轉換器,以在模擬世界和數字世界之間進行轉換。每個圖塊還集成了輕量級數字處理單元,執行簡單的非線性神經元激活功能和縮放操作。
每個圖塊可以執行與DNN 模型的一層相關的計算。突觸權重被編碼為PCM 設備的模擬電導值。全局數字處理單元集成在芯片中間,可實現更複雜的操作,這些操作對於執行某些類型的神經網絡至關重要。該芯片還在所有塊和全局數字處理單元的芯片互連處具有數字通信路徑。
使用該芯片,我們對模擬內存計算的計算精度進行了最全面的研究,並在CIFAR-10圖像數據集上證明了92.81% 的準確率。我們相信這是目前報導的使用類似技術的芯片中精度最高的。在本文中,我們還展示瞭如何將模擬內存計算與多個數字處理單元和數字通信結構無縫結合。測得的每個區域的吞吐量為400 GOPS/mm2 的8 位輸入輸出矩陣乘法該芯片的功耗比之前基於電阻式存儲器的多核內存計算芯片高出15 倍以上,同時實現了可比的能源效率。
通過將這種64 塊芯片的面積和能源效率高的模數轉換器(ADC)、高度線性乘法累加計算和強大的數字計算塊與我們展示的大規模並行數據傳輸相結合我們在2021 年IEEE VLSI研討會上推出的34 塊芯片中,現在已經展示了實現快速、低功耗模擬AI 推理加速器芯片架構願景所需的許多構建模塊。
利用我們的學習成果,我們設計了一個類似的加速器架構,該架構於今年早些時候發佈在IEEE Transactions on VLSI systems上。我們的願景將許多模擬內存計算塊與與大規模並行2D 網格連接的專用數字計算核心相結合。結合我們近年來開發的複雜的硬件感知訓練,我們期望這些加速器在未來幾年能夠在各種模型中提供與軟件等效的神經網絡精度。