史上最大晶片是里程碑,還是「歷程悲」?
用一片12吋晶圓產出一顆晶片,這簡直就是暴殄天物。要知道一片12吋晶圓目前大客戶的合約單價也能達到100美元以上,興建一條12吋晶圓產線更是需要超過200億元人民幣。也有業內人士這樣點評:最大晶片是怎麼來的?它的尺寸是因為現在量產晶圓最大就這麼大,電晶體數量是因為16nm只能夠放進去這麼多。
難道,史上最大的晶片就是博眾人眼球的作品。然而,當你知道這個每邊長大約9英寸的晶片能夠實現什麼的時候,可能你又會覺得這樣做也不是不可以。
史上最大晶片誕生
根據外媒的報導,這顆大晶片採用台積電16nm製程製造,面積42225 平方毫米,擁有1.2萬億個電晶體,400000 個核心,片上內存18 Gigabytes,內存帶寬19 PByte/s,fabric帶寬100 Pbit/s。它就是近幾天火爆網絡的史上最大晶片Cerebras Wafer Scale Engine(以下簡稱:Cerebras WSE)。
Cerebras WSE由人工智慧初創公司Cerebras Systems(以下簡稱:Cerebras)推出,該公司成立於2016年,並在當年拿到了來自於Benchmark的2500萬美元的A輪投資。值得一提的是,有機構在2017年全球五大值得關注的AI晶片公司榜單中就列舉了Cerebras。
Cerebras的創始人是晶片業界的老兵——50歲的Andrew Feldman,他也是這家公司的CEO。瀏覽他的過往履歷會發現,他還曾參與創立小型伺服器公司SeaMicro,同樣出任CEO,後來這個公司賣給了AMD,作價3.34億美元。此後,Andrew Feldman在AMD做了兩年半的副總裁。
準確地說,Cerebras帶有一定的光環,但並不耀眼,如果不是這個史上最大晶片的出現甚至可以說有一點名不見經傳。但是,隨著Cerebras WSE發布之後,全球晶片界都在關注這顆晶片、這家公司,甚至是這家公司的員工。
和我們過往習慣的「摩爾定律」相反,這顆晶片走向了另一個「極端」,試想如果晶圓尺寸允許,可能它的邊長甚至會超過9英寸。當然這只是設想。
如此巨大的晶片能夠幹什麼呢?
首先是算力的大幅度提升。讓我們重溫一下這些恐怖的數字:1.2 萬億個電晶體和400000 個核心。如果以純數字論來說,前一個數字並不是目前最高的,三星在實現快閃記憶體晶片eUFS時做到了2萬億個的數量。區別在於Cerebras WSE專為流程加工而設計,以能夠讓400000個核心高性能運轉,它就是一個超級計算機。讓人吃驚的一點是,Cerebras不僅給了Cerebras WSE更多的AI核心,並且在計算方式上也高人一籌,晶片內部採用的稀疏線性代數核(Sparse Linear Algebra Cores, SLAC),永遠不會乘以零,這讓算力得到了更充分的利用。Feldman表示,Cerebras WSE訓練AI系統的速度可以比現有硬體快100到1000倍。
當然,Cerebras WSE不僅是算的更快,而且其存儲性能也是和算力匹配的,高於目前主流GPU內存性能的3000倍。片上內存18 Gigabytes的威力可見一斑。再配備以19 PByte/s的內存帶寬,這讓該晶片不僅存的夠多,也存的夠快。
針對目前AI行業飽受詬病的延遲問題,這顆晶片也給出更優解。Cerebras WSE通過Swarm通信結構連接在一個帶有100 Pb/s帶寬的2D網格中。對於每個神經網絡,Swarm提供獨特且優化的通信路徑。因此,該晶片也具備更出色的高帶寬和低延遲性能。
對於史上最大晶片的發布,國內外科技愛好者都是一片叫好。
Linley Group首席分析師Linley Gwennap表示:「Cerebras憑藉其晶圓級技術實現了巨大的飛躍,在單片矽上實現了比任何人想像的更多的處理性能。」
Tirias Research首席分析師兼創始人Jim McGregor講到:「隨著人工智慧的發展,矽和平台解決方案也在不斷發展。Cerebras WSE是半導體和平台設計領域令人驚嘆的工程成就,可在單晶圓級解決方案中提供超級計算機的計算,高性能存儲器和帶寬。」
專用處理器和SoC架構師唐杉興奮地說:「膜拜一下Cerebras的巨型晶片,每邊大約9英寸,22cm。我記得我之前寫文章還畫過一個類似的對比圖。[機智]Wired的文章,看來Cerebras要走到前台了。」
……
大晶片並不是突發奇想
將晶片做大並不是Cerebras的首創,早在上世紀七八十年代就已經有人開始做這方面的嘗試了。
1980年成立的Trilogy當時拿著2.3億美元的資金做超大晶片,不過由於難度過大,該項目僅僅持續了5年時間。
近一兩年,半導體產業信賴的「摩爾定律」進展遲緩之後,先進封裝工藝和超大晶片都開始被重點關注,且都取得了一定的成果。
大家一定對一年半以前的英偉達GTC(GPU Technology Conference)大會記憶猶新,因為就是這場盛會,讓我們有幸見證了史上最大、最貴GPU的誕生。這款GPU的名字是Nvidia DGX-2。
DGX-2雙板總計16塊GPU,總計512GB HBM2 存儲,具有12個NVSwitch。DGX-2 的算力可達 2 千萬億次浮點運算,功耗 10 千瓦。當然,這樣做的成本也是高昂的,這個最大的GPU售價達到了39.9萬美元。
對於英偉達DGX-2的發布,英偉達CEO黃仁勛表示:「人生完整了。」
顯然,市場對於英偉達發布的最大GPU並不買帳,發布會之後英偉達股價跌幅達到了6.64%。
說完最大的GPU,我們看一下最大的FPGA。就在幾天前,各大FPGA粉絲群裡面有一個新聞刷屏了,那就是賽靈思推出了史上最大的FPGA晶片「Virtex UltraScale+ VU19P」。該晶片擁有多達350億個電晶體,密度在同類產品中也是最大的,相比上代Virtex UltraScale VU440增大了1.6倍,而功耗降低了60%。從電晶體數量來看,超過了AMD 64核心的二代霄龍和英偉達GV100。
馬克杯口大小的FPGA,汽車後備箱大小、重大300斤的GPU,還有就是一片晶圓一顆晶片的Cerebras WSE。到底是什麼在驅動晶片越做越大?
尋覓通用人工智慧的硬體最優解
不管是各界人士的評論里,還是產品的介紹里,最大晶片們都有一個共同的標籤,那就是人工智慧。
是的,人工智慧出來了許多年,也火了許多年。但是,現在的人工智慧讓很多地方政府和投資機構覺得像「雞肋」,實在是食之無味,棄之可惜。造成這一局面的一個很重要的原因在於,當算法在不斷精進的過程中,晶片性能開始滯後,應對單一領域計算已經乏力,更不要說什麼通用人工智慧了。
當前的AI晶片的設計思想主要有三大類。分別是專用於機器學習的加速晶片;類腦仿生晶片;可高效計算各類人工智慧算法的通用AI晶片。
GPU和FPGA性能的不斷提升,以及TPU、NPU和ASIC的出現讓機器學習方面應用有了快速發展,已經實現了部分落地場景。而在類腦晶片和通用AI晶片方面遲遲沒有動靜,因此,Cerebras WSE的出現確實讓人們看到了曙光。
理想的AI晶片需要具備高度並行的處理能力,能夠支持各種數據長度的按位、固定和浮點計算,晶片本身具有高端帶、低延遲,在核心計算單元和內存之間有豐富的連結,在實現高性能運算的情況下兼備低功耗的特點。並且,這樣的晶片還要低成本。
在Cerebras WSE出現之前,雖然英偉達推出了大型GPU這樣的產品,但是大家對於實現通用AI更為認可的方式是可重構架構設計。通過這種架構設計的可重構晶片具備軟體、硬體雙編程的特性,硬體架構和功能隨軟體變化而實時動態變化,因而又被稱為軟體定義晶片。可重構晶片的基礎思路是通過找到數據間的依賴關係,然後通過這種關係進行實踐切割,然後對計算進行分配,最終實現資源的復用。
目前,可重構晶片應用到的技術主要有計算陣列重構、存儲帶寬重構和數據位寬重構。通過採用上述技術,軟體定義的層面不僅僅局限於功能這一層面,算法的計算精度、性能和能效等都可以納入軟體定義的範疇。
在可重構晶片領域,目前主要玩家包括傳統晶片公司英特爾和賽靈思,還有初創公司Cerebras、Wave computing、寒武紀、比特大陸等。
是的,你沒有看錯,Cerebras同樣是可重構晶片的玩家之一。不過,Cerebras WSE的價值絕不僅僅是可重構,其在晶片設計和晶片製造方面都有里程碑的意義。
在晶片設計方面,Cerebras WSE絕對算是一次大膽且成功的嘗試。單一晶片上做大規模的計算核心集成,節省了晶片之間傳輸的時間和功耗,這樣的方式比傳統在數據中心做訓練明顯更經濟實惠,不僅大大提升了訓練的效率,成本也有望降低。另外,其內部核心不做乘零運算,給予當前的AI晶片以提示,大大縮減了模型訓練的時間,這對於當前的人工智慧產業而言價值非凡。
在晶片製造方面,台積電在這顆史上最大晶片面世過程中同樣居功至偉。台積電高級副總裁Brad Paulsen表示,台積電調整其設備以進行一次連續設計,而不是多個獨立設計的網格,從而從300毫米的晶圓上,切割下來一個最大的正方形來做晶片。是的,有了台積電的鼎力支持才會有這顆史上最大晶片,同時也掀開了晶圓代工的新篇章。
Cerebras用最大晶片給通用AI晶片設計提供了一個全新的思路,當材料和設備的物理極限難以突破時,放大晶片的尺寸在大規模運算中不失為一種好方法。不過,就算有可重構的計算方法,Cerebras WSE也僅僅是作為多種算法的兼容,並不能讓基於一種數據經過訓練後得到的模型同時適應多種應用場景,這還需要算法上面做攻關。
當然,Cerebras WSE肯定不是完美的。首先第一個要解決的問題就是散熱問題,不管是晶片做高,還是晶片做大,散熱都是共同的難題;其次是生態問題,打破常規的晶片就需要打破常規的系統和機器;第三是算力分配問題,當年聯發科「一核有難,多核圍觀」的窘境相信很多人都還記得,40萬個內核如何協調工作是個大問題;最後是時序問題,如此巨大的晶片如何能夠做到信號傳輸不延遲。
總結
誠然,我們對於Cerebras WSE的商用還有諸多疑問,它的散熱、生態、時序等等。但是,我們不得不說,這顆晶片是超越摩爾定律路線上濃墨重彩的一筆,在AI大數據並行的應用場景中也獨具優勢。我們期待有一個通用的AI晶片有朝一日能夠像CPU一樣通用,搭載著更先進的算法跑在我們身邊的智能設備中。
無論如何,Cerebras WSE都將成為世界晶片發展史上的一座里程碑。