世界上最快的AI晶片,是何方神聖?
這兩天,IBM低調地發了一個新聞,推出了一款類腦晶片「北極」(NorthPole),對比4nm節點實現的NVIDIA H100 GPU相比,NorthPole的能效提高了五倍,成為當之無愧是現在世界最強的AI晶片。如此逆天的性能,但在國內,關於這款晶片的新聞卻寥寥無幾。那麼,它究竟是何方神聖呢?
把腦子裝進晶片,就行了?
首先,IBM的「北極」NorthPole是一種類腦晶片,我們需要先了解什麼是類腦晶片。
所謂類腦晶片,顧名思義,就是一種高度模擬人腦運算原理的晶片,基於對現代神經科學的理解,反覆思考如何從電晶體到架構設計,演算法以及軟體來模仿人腦的運算。如果把類腦晶片做得更像人腦,就會被賦予一個新的名字-神經形態運算(Neuromorphic Computing)。
人類的思考方法與現在傳統的晶片有許多區別,例如,人沒有單獨的記憶體,沒有動態隨機存取記憶體,沒有哈希層級結構,沒有共用記憶體等等。
「儲存」和「處理器」錯綜複雜地深繞在人腦裡,在人腦的結構中有「神經元」的存在。在電腦中,以數位化核心相互交流基於事件的訊息,叫做脈衝,這點和人腦傳遞訊息的方式相似。
人類便從人腦中得到靈感,從而創造出這樣的晶片,來提升性能,成為真正的“人工智慧”,甚至無限接近人類,獲得思考能力。
當然,人腦很複雜,人們所製造出來的IC元件,也存在著優勢,所以人們最終目標就是把這二者的優勢融合起來。
總而言之,用人話來解釋,類腦晶片,就是結合生物大腦和人造裝置各自優點而設計製造出來的一種晶片,而它也會像人一樣思考,自我學習。
想造一顆這樣的晶片,可不是光變元件結構就行的,而是從材料、元件、電路、架構帶動演算法和應用改變的。一言蔽之,就是集合各種最先進的技術,才能造出這樣的晶片。
雖然實現路徑很多,但奈何這種晶片技術難度太大了,且不說好不好造,設計出來就很難了,所以目前也在開拓階段,都還無法達到商業化水準。
但筆者了解到,之所以類腦晶片還未形成大規模商業化,一是因為設計難題依存,就拿英特爾、IBM都看好的CMOS型,多塊全數位非同步設計的晶片互聯、晶片連接的有效性和時效性以及軟體層互連運算、分散式運算和靈活分區等問題都難以解決;二是製造、軟體和生態都要完全推翻,雖然矽基電晶體路線部分可重複使用,但底層不可能完全照搬,這進一步加劇大規模商業化難度。
那,我們為啥費大力氣折騰類腦晶片?
類腦晶片實在太香了,筆者了解到,某些情況下,完美的神經形態晶片可以用比傳統解決方案低1000倍的能耗來解決問題,這意味著我們可以在固定的功耗預算下,打包更多的晶片來解決更大規模的問題。
類腦晶片的超高能效比足以讓我們牟足力氣研究和突破。拿一個最典型的例子來看,AlphaGo下棋打敗了人類,但人類只用了20瓦的大腦能耗,而AlphaGo是2萬瓦。
神經形態晶片涉及的領域與機會,圖源丨Nature Computational Science
結構上,目前全世界的類腦晶片基本上都一致,都是由神經元運算、突觸權重儲存、路由通訊三部分構成,同時採用與脈衝神經網路(SNN)模型。
但依據材料、裝置、電路,分為類比電路主導的神經形態系統(數模混合CMOS型)、全數位電路神經系統(數位CMOS型)、基於新型元件的數模混合神經形態系統(憶阻器是候選技術)三種流派。
全球範圍內,參與神經形態運算晶片開發的機構主要包括三類:英特爾、IBM、高通等為代表的科技巨頭企業,史丹佛、清華。
根據筆者先前與英特爾研究院對話中獲悉,數位CMOS型是目前最易產業化的形式,一方面,技術和製造成熟度高,另一方面,不存在模擬電路的一些顧慮和限制。
當然,要強調的是,數位CMOS型還只是最初階的類腦晶片,還不算完全模擬人腦的神經形態元件,只能算是一種藉鏡神經形態概念的一種晶片。但光是藉鏡人腦,這種晶片就能夠碾壓世界上任何一種晶片。IBM的NorthPole就是這樣的數位CMOS型的類腦晶片。
類腦晶片主要類型和研發進度,製表丨電子工程世界
IBM的晶片,什麼水平?
先說結論,應該是迄今為止,人類水平最高的類腦晶片了,對於類腦晶片研究又上了一個台階。
2008年,IBM就開始研究類腦運算了,2011年有了第一次突破性成果:IBM的第一代神經突觸電腦晶片。研究人員製造出兩個這樣的晶片模型:一顆包含262,144個可編程突觸,一顆則包含65,536個可學習突觸,透過測試展示其可執行導航、機器視覺、模式識別、關聯記憶和分類等簡單功能。
直到2014年,IBM在《科學》雜誌發表了一篇文章,向全世界展示了劃時代的技術進展:一個符合DARPA SyNAPSE計畫指標的、擁有100萬神經元的類腦處理器,即TureNorth,在當時掀起了類腦晶片研究熱潮。
沉寂8年,「北極」(NorthPole)問世,NorthPole就是建立在IBM最後一顆類腦晶片TrueNorth基礎之上,彼時TrueNorth就有這比傳統微處理器低四個數量級的能效比,對比一下二者,就能很直觀感受到IBM技術的變化:
單一TrueNorth晶片包含4096個運算核心,可實現神經突觸和神經元排列的動態映射。IBM TrueNorth系統的一個吸引人的功能是,單一晶片由54億個電晶體組成,僅消耗70mW的功率密度,僅佔傳統運算單元的1/10000;
NorthPole採用12nm節點製程製造,在800平方毫米內整合了220億個晶體管,有256個內核,在8位元精度下,每個內核每個週期可執行2048次運算;在4位元和2位元精度下,運算次數有可能分別增加一倍和四倍。運行基於人工智慧驅動的影像辨識演算法速度是目前市場上同類晶片的22倍,能源效率是同類晶片的25倍。在不使用最先進製程的情況下,NorthPole晶片能耗是使用最先進技術的人工智慧晶片的1/5。整體而言,NorthPole的速度大約是TrueNorth的4000倍。
圖/IBM
結構方面,NorthPole與TrueNorth一樣,由一個大型運算單元陣列(16×16)組成,每個單元都包含本地記憶體和程式碼執行能力。
計算資源方面,NorthPole每個單元都經過最佳化,可執行精度較低的計算,精度從2 bit到8 bit 不等。為確保執行單元使用,它們不能根據變數值執行條件分支,也就是說,使用者程式碼不能包含if語句。這種簡單的執行方式使每個計算單元都能進行大規模並行執行。在2 bit精度下,每個單元可並行執行8000多次計算。
儲存方面,所有的記憶體都被封裝在一顆晶片內, 這意味著每個核心都可以輕鬆存取晶片上的記憶體。設備外部來看,NorthPole看起來像是一個主動記憶體晶片,這有助於將NorthPole整合到系統中。
不只如此,這款NorthPole目前採用的是12nm奈米節點製程製造,目前CPU最先進的技術是3nm,而IBM還在研發2nm奈米節點技術,如果用上2nm,可能IBM的類腦晶片性能還會再提升很大檔次。
圖/IBM
NorthPole的潛在應用主要包括影像和視訊分析、語音辨識以及Transformer神經網絡,這些網絡是為ChatGPT等聊天機器人提供支援的大型語言模型(LLM)。這些人工智慧任務可能會用於自動駕駛汽車、機器人、數位助理和衛星觀測等領域。
某些應用程式所需的神經網路太大,無法安裝在單一NorthPole晶片上。在這種情況下,這些網路可以分解為更小的部分,並分佈在多個NorthPole晶片上。
而NorthPole的超高能效比,意味著它不需要笨重的液體冷卻系統來運行,風扇和散熱器就足夠了,而它也可以部署在更小的空間中。
國內開始研究類腦晶片了嗎?
如此強大的晶片,國內也早已有所佈局。
國內研究則包括清華大學、浙江大學、復旦大學、中科院等頂尖學府和機構,同時近兩年不斷湧現新創公司,如靈薰科技、時識科技、中科神經形態等。其中以清華大學的天機芯和浙江大學的達爾文晶片最具代表性。
具體而言,國內的主要成果包括:
清華大學2015年開發的第一代天機芯採用110nm工藝,2017年,第二代天機芯開始取得先進成果,基於28nm工藝製成,由156個功能核心FCore組成,包含約4萬個神經元和1000萬個突觸。相較於第一代,密度提升20%,速度提高至少10倍,頻寬提高至少100倍,此外,清華大學還自主研發了軟體工具鏈,支援從深度學習框架到天機芯的自動映射和編譯。根據清華大學的計劃,下一代天機芯將是14nm或更先進的工藝,功能將強大更多;
浙江大學聯合之江實驗室共同研發的類腦計算機,其神經元數量與小鼠大腦神經元數量規模相當。該電腦包含792顆達爾文2代晶片,支援1.2億個脈衝神經元、720億個神經突觸,而其典型運作功耗僅350W~500W;
2020年10月,清華大學計算機系張悠慧團隊精儀系施路平團隊與合作者在《自然》(Nature)雜誌發文首次提出「類腦計算完備性」以及軟硬體去耦合的類腦計算系統層次結構;
2023年9月,中國科學院計算技術研究所尤海航研究員和唐光明研究員帶領的研究團隊開發了超導神經形態處理器原型晶片“蘇遼(SUSHI)”,它是一款基於超導單磁通量子( SFQ)電路的超導計算晶片;
2023年10月,由中科南京智能技術研究院自主研發是目前國內規模最大、國際一流的類腦超級電腦服務正式啟用,它已實現5億神經元2500億突觸智能規模,較現有計算系統能效提升10倍以上,核心晶片自主可控。
IBM的成果代表著,這項佈局未來的技術離我們又更近了一步,而目前一些新創公司逐漸形成方案,開始應用。不難預見,在近幾年,這項技術商業化將逐步展開,而彼時研究成果也將照進現實。