赶超英特爾索尼做過最美的芯片夢
如果現在說,日本半導體公司要超越英特爾,恐怕很多人都會付之一笑,雖然在去年被三星超越,但英特爾仍然是這顆藍星上最強的半導體廠商之一,至於日本半導體廠商,不論是做存儲的鎧俠,還是做傳感器的索尼,或者是近年發展迅速的瑞薩,連全球半導體廠商的TOP 10都沒擠進去,可謂是名落孫山。
訪問:
不過大家都承認的一點是,日本半導體祖上還是闊過的,把時間回溯到上世紀80年代,幾家日廠可以說是叱吒風雲,飛利浦、英特爾、摩托羅拉……都不過是日本半導體的手下敗將耳。
但日本半導體就像一顆天空中劃過的流星,在上世紀80年代的短暫輝煌後,又在美國的圍追堵截中敗下陣來,1985年,美國與日本簽訂《廣場協議》,日元對美元的大幅升值,導致了日本經濟的泡沫逐漸破碎,對日本國內的半導體行業造成了一波沉重打擊。
1986年初,美國商務部裁定日本存儲器存在不正當競爭、低價傾銷,對日本徵收100%反傾銷稅;1987年6月,美國通過“東芝制裁法案”,取消一系列採購合同,並禁止東芝的所有產品向美出口2至5年;1991年,美日再次簽訂了一份為期五年的《新半導體協定》,美國要求外國半導體在日本的市場份額必須達到20%……
各類不平等協定和製裁法案,讓富士通、NEC、日立、東芝和三菱在內的日本半導體五大巨頭由盛轉衰,將這個潛力無限的市場拱手讓給了美國,1996年,美國半導體佔據30%以上的全球市場份額,而日本半導體已經不足30%,兩國之間的差距逐漸拉大。
為了幫助日本本土半導體廠商走出困境,日本企業還進行過一番自救型的調整,1999年,NEC和日立分別剝離旗下DRAM業務,成立了新公司爾必達(Elpida),後續三菱電機的DRAM部門也併入進爾必達,意在對抗美國DRAM企業。
不過,此時的日本企業並非只有守成之士,還有不甘於平凡的日本企業野心勃勃,打算學習勾踐臥薪嘗膽,通過梭哈一把,再度登上半導體世界的王座。
01.Cell處理器的誕生與雛形
2000年,伴隨著次世代遊戲主機PS2在全球範圍內的大獲成功,風頭正盛的SCE(索尼電腦娛樂)開始為下一代主機做準備,而CEO久夛良木健的腦袋中萌生出一個大膽的想法,能不能通過與美國企業合作,打造出類似英特爾和PowerPC一樣的通用處理器,不僅可以用在下一代主機上,還能給其他數碼家電乃至服務器使用,一旦成功,SCE就能徹底統治主機市場,贏得下一個十年不再是夢想。
這種想法一旦冒出來,就在久夛良木健心底里扎了根,改變半導體市場格局,赶超行業龍頭英特爾……未來的種種美好願景彷彿已經在向SCE招手了。
2000年,索尼電腦娛樂(SCE)、東芝和IBM一同簽署協議,成立了STI聯盟,並將研發中心設立在得克薩斯州的奧斯汀市,該聯盟商定,在接下來的4年研發週期內,索尼將提供資金預算,IBM主要負責處理器研發,東芝則負責後續處理器和相關存儲芯片的生產。
這一研發,就是四五年,索尼前後投入了數十億美元的研發資金,幾乎耗空了PS1至PS2所攢下的家底,而這顆被稱為Cell的處理器卻遲遲不能問世。
不過這絲毫不影響索尼對外的大吹特吹,2003年,久夛良木健在接受日本《PCWatch》專欄採訪時表示,足夠數量的Cell處理器串聯在一起,就可以達到甚至超過“地球模擬器”(地球シミュレータ,NEC制的超級計算機,在當時是世界上最快的計算機之一)的性能。
能夠模擬器地球的處理器,這一下子就把人的胃口吊起來了,大家都把目光投向了這索尼,想要看看這顆媲美超算的處理器究竟有何過人之處。
好在功夫不負有心人,2004年11月,IBM、索尼公司、索尼電腦娛樂公司和東芝公司首次披露了代號為Cell、被高度期待的高級微處理器的一些關鍵概念,這是四家公司為新一代計算應用及數字消費電子產品聯合開發的一種微處理器。
在發布會上,四家公司最終確認Cell是一種多核心芯片,包含一個64位電源處理器核心和多個協作處理器核心,能夠進行大規模的浮點處理,其專為計算密集型和豐富媒體寬帶應用而優化,包括電腦娛樂、電影及其他形式的數字內容等。
根據發布新聞稿,Cell處理器在設計上的一些主要優勢包括:
多線程、多核心結構
同時支持多種操作系統
提供給主內存及輔助芯片(Companion Chips)的豐富雙向總線帶寬
靈活的板載I/O (輸入/輸出)接口
用於實時應用的實時資源管理系統
板載硬件,支持安全系統,可實現知識產權的智能保護
採用了90納米的絕緣矽(Sillicon-on-insulator, SOI)技術
“大量和豐富的內容,如多信道高清廣播節目及高分辨率CCD/CMOS成像設備拍攝的百萬像素數字靜態/移動圖像等,要求大容量實時媒體處理功能。將來,所有格式的數字內容都將被融合在一起,整合到寬帶網絡上,從而開始出現爆炸式增長。”索尼公司執行副總裁兼首席運營官、索尼電腦娛樂公司總裁兼集團首席執行官久夛良木健講道。“要自由實時地訪問和/或瀏覽浩如煙海的內容,在三維環境下更加高級的圖形用戶界面在將來會成為’關鍵’。要處理如此豐富的應用,當前的PC結構無論是在處理功率還是在總線帶寬上都已接近了極限。”
四家公司都為這顆Cell處理器拿出了最大的誠意:IBM計劃於2005年上半年在紐約East Fishkill市的圓晶生產工廠開始Cell微處理器的試生產;索尼希望於2006年推出裝有Cell處理器的寬帶內容及高清晰電視(HDTV)系統;索尼電腦娛樂也希望推出其裝有Cell的新一代電腦娛樂系統即PS3,以實現電腦娛樂體驗的革命性變化;東芝為Cell設想了多種應用,希望於2006年推出其第一種基於Cell的產品——一種高清晰電視系統(HDTV)。
2004年,Cell處理器發布的前夕,野心勃勃的久夛良木健甚至找上了蘋果CEO史蒂夫·喬布斯,向他推銷Cell處理器,希望能這款跨時代的處理器能搭載在下一代Mac上,希望Cell的生態能夠拓展至個人電腦與桌面端之上。
不過喬布斯沒有給他面子,直接拒絕了這個提議,他絲毫不掩飾對Cell設計的失望,表示Cell甚至還不如用了這麼多年的PowerPC,後面的事情相信大家也知道,蘋果在第二年的全球開發者大會上宣布轉投英特爾和x86的懷抱,徹底斷了索尼的念想。
但久夛良木健沒有灰心,因為索尼還有PS3這一次世代主機的大殺器,PS1和PS2兩代主機在全球賣了上億台,只要Cell芯片的PS3一出手,別管你是英特爾還是蘋果,都得在索尼面前俯首稱臣。
02.Cell處理器的獨特與“強大”
前面講了這麼多關於Cell芯片的內容,索尼、IBM和東芝都信心十足,但它究竟強大在何處,恐怕大家還沒有一個具體的概念。
2005年,Cell芯片研發接近完成,開始試產首批芯片,其採用90nm工藝,搭載4個頻率高達4GHz的PPE主核心(Power Processor Element,簡稱為PPE,由PowerPC970簡化而來),以及32個總計1TFloaps算力的基於SIMD的協處理器(Synergistic Processor Element,以下簡稱SPE),整體性能絲毫不遜於頂級的桌面端處理器,甚至摸到了服務器芯片的門檻,此外還整合了XDR內存控制器,可配合25.6GBps帶寬的內存系統,而它的前端總線也採用96位、6.4GHz頻率的FlexIO並行總線(原名稱為“Redwood”,RAMBUS公司所開發),這也是有史以來速度最快的計算機總線。
不過,4顆PPE加上32顆SPE這種搭配,讓芯片面積與功耗達到了一個很高的程度,而多核心設計也影響了最終的量產良率。
(勞倫斯伯克利國家實驗室針對Cell、AMD Opteron,英特爾Itanium2,以及Cray X1E的性能對比)
IBM也給出了具體的技術解析,CELL作為一種微處理器,介於傳統桌面處理器(如Athlon 64和Core 2系列)和專業的圖形顯卡(如NVIDIA和ATI)的混合體,在預期當中,Cell不僅能用於娛樂設備、高清晰度顯示器以及高清電視系統,也能用於數字成像系統(醫療、科學等)和物理模擬(如科學和結構工程建模)等方面,可謂是一顆全能處理器。
Cell處理器具體被分成四個部分:外部輸入和輸出結構,被稱為Power Processing Element(PPE)的主處理器(一個雙向同步多線程的PowerPC 2.02內核),八個功能齊全的協處理器,被稱為Synergistic Processing Elements(SPE),以及連接PPE、輸入/輸出元素和SPE的專用高帶寬循環數據總線,稱為Element Interconnect Bus(EIB)。
為了實現高性能計算, Cell處理器需要利用EIB將SPE和PPE連接起來,通過完全緩存一致性的DMA(Direct memory access,直接存儲器訪問),訪問主內存和其他外部數據存儲。而為了充分利用EIB,並使計算和數據傳輸相結合,處理元件(PPE和SPE)中的每一個都配備了一個DMA引擎。由於SPE的加載/存儲指令只能訪問自己的本地scratchpad存儲器,因此每個SPE完全依靠DMA來傳輸數據到主存儲器和其他SPE的本地存儲器。該架構的主要設計是使用DMA作為芯片內數據傳輸的核心手段,以期在芯片內的數據處理中實現最大的異步性和並發性。
此外,能夠運行傳統操作系統的PPE對SPE有控制權,可以啟動、停止、中斷和安排SPE上運行的進程。為此,PPE擁有與SPE的控制有關的額外指令。與SPE不同,PPE可以通過標準的加載/存儲指令讀寫SPE的主存儲器和本地存儲器。
儘管有完整架構,但SPE並不是完全自主的,需要PPE對其進行啟動,然後才能進行工作。由於整個系統的大部分計算力來自協處理器,一方面要使用DMA作為數據傳輸的方法,另一方面每個SPE又受限於較小的本地緩存,這對那些從未接觸過Cell軟件開發人員是一個非常大的挑戰,需要對運行的軟件進行非常細緻的調整,才能最大程度地開發出這顆處理器的潛能。
事實上,IBM交出的這份答卷看似優秀實則復雜,光是要弄懂這顆處理器和其他普通處理器的區別就要花費不少功夫,而原型芯片過於龐大的規模也導致了最終量產一拖再拖,最終索尼迫於現實壓力,無奈地向Cell揮起砍刀。
這一刀砍下去,就砍掉了不少性能,最終發布的首款Cell處理器只搭載了一個主頻為3.2GHz的PPE主核心與8個SPE協處理器,為了保證生產良率,還屏蔽了1個SPE,還有一個SPE被分配給操作系統和音頻,遊戲只能調用6個SPE,其集成了2億3400萬個晶體管,採用IBM的90納米SOI、Low -K工藝製造,核心面積為221平方毫米,芯片規模與Intel的雙核Pentium D相當。
不過也不用太悲觀, Cell芯片實際上並不是單純的CPU,而是包含了一部分GPU的功能,SPE協處理器理論上可以對物理、音頻、光源進行幾何運算,甚至模擬GPU不支持的後處理特效,如曲面細分,computer shader等等,已經有了今天英偉達GPU中CUDA核心的雛形。
而在Cell開始研發時,索尼所希望的,就是用一顆Cell負責CPU的功能,另一顆Cell肩負起GPU的職能,看似異想天開,實際上並不是完全沒有可能,日後還有Leadtek等廠商發布了基於Cell的PCI-E卡,用來加速視頻解碼。
另外,由於IBM開發之初就考慮到了服務器的需求,還用上服務器級別的256MB XDR高性能內存,因而Cell不僅浮點運算能力強勁,還對並行運算和分佈式運算支持良好,只要有足夠數量的搭載了Cell的PS3主機,就能組成超級計算機,這一點可以說是讓其他桌面端處理器望塵莫及。
照理說,PS3在Cell芯片的指引下,已經是立於不敗之地了,在索尼原本的設想中,稱霸主機市場不用多說,搶占桌面市場更是指日可待,“索尼大法好”這句調侃彷彿已經變成了現實。
然而,索尼所有的美夢都在PS3發售的那一刻開始破滅。
03.Cell處理器的折戟和湮滅
為什麼會破滅,原因還是出在PS3這台主機上。
前面我們有提到,Cell可以承擔一部分GPU的職能,但這並不意味著能直接把Cell當成GPU來用,圖形計算最終還是交給GPU來負責,IBM自然是不生產GPU的,索尼只能求助於當時的兩大顯卡廠商NVIDIA和ATI,加班加點地在PS3裡塞入了一張定制的RSX,其基於Geforce7800系列改造而成,性能介於G70和G72之間。
但此時已經臨近發售日期,Cell芯片的256M XDR內存,只能由CELL自己使用,RSX這顆GPU核心沒辦法共享這部分內存,為了趕快上市發售,索尼又額外塞入了256M GDDR3顯存,一來一去,這成本已經高上了不少。
不止如此,為了兼容上一代PS1和PS2主機,索尼還額外塞進了一塊EE+GS的芯片,用硬件兼容來保證上一代遊戲能完美運行在PS3上,又是一次出血。
另外,索尼和松下電器等企業在2004年成立了“藍光光盤聯盟”,意在推動下一代光盤格式的普及,與HD-DVD推廣協會分庭抗禮,PS3此時又承擔著推廣藍光光盤,幫助索尼打贏光盤格式的重任,同時上一代PS2因為支持DVD而大獲全勝,加上藍光光驅也在情理之中。
這樣一套加法算下來,PS3的成本已經到了相當恐怖的程度,根據拆解報告,每顆Cell芯片的成本約為89美元,RSX顯卡的成本約為129美元,藍光光驅的成本約為125美元,EE+GS的成本約為27美元,光是芯片和光驅的成本就已經來到了370美元,總成本甚至來到了805-840美元。要知道PS3的起售價也不過499美元,這還沒算上前期研發和後期營銷成本呢,賣一台淨虧300多美元,索尼家底再厚也經不起這樣的折騰。
而由於各種芯片的不斷加入,PS3的功耗也來到了一個恐怖的程度,在玩藍光遊戲時,PS3的總功耗輕鬆突破了200W,即使在菜單的待機頁面,功耗也會保持在170W左右。
售價的高昂還在其次,Cell這顆被索尼寄予眾望的芯片,真的發揮出之前宣傳中的實力了嗎?
實際上,圍繞Cell芯片的最關鍵的六個SPE協處理器,一共有三種開發模式,其中能最大程度開發協處理器潛力的模式,也是最難開發和優化的一個模式,需要開發者自己繞過操作系統,API和運行,直接對SPE進行操作開發,效率低得可怕,其中六個SPE中只有四個支持這種模式,從PS3誕生到停產,就沒有多少游戲是在這種模式下開發的,在雙核處理器大行其道的2006年,Cell芯片這種本質仍為單核的處理器成為了開發人員的噩夢地獄。
更讓人感到諷刺的是,索尼最大對頭——微軟,在Xbox 360上也用了IBM的處理器,不過微軟沒有像索尼一樣煞費苦心地研發,而是直接像IBM定制了一顆集成了三個3.2GHz的PowerPC核心的xenon處理器,而這些核心不是別的,恰恰是Cell的PPE主核心,另外配備了ATI的R500顯卡,整體架構非常接近PC,開發難度大幅下降,大量PC遊戲只需要簡單移植就能登陸Xbox 360,對比PS3簡直是天壤之別。
不過PS3整體並非沒有可取之處,依靠著對並行運算和分佈式運算的良好支持,在其他地方倒是能發光發熱。
2010年美國空軍研究實驗室(The Air Force Research Laboratory,AFRL)組建了一套物美價廉的超算,其由1760台PS3、 168個獨立圖形處理單元及84個協調服務器組成,其代號為“禿鷹群”(Condor Cluster),用於處理衛星圖像、雷達以及研究AI,AFRL還向一些大學以及研究機構開放了禿鷹群的部分算力,據透露,這個超算總耗資約200萬美元,運算性能為500TFlops,成本和耗電量均只有同等運算力常規超算的十分之一。
另外,索尼還在2007年宣布PS3正式加入Folding@home ,這是一個研究蛋白質折疊,誤折,聚合及由此引起的相關疾病的分佈式計算工程,用戶可以讓自己的PS3在閒置時執行Folding@home分發的運算任務,截至2008年9月,參與的PS3遊戲機提供了1.2PFlops的運算能力,佔當時運算總數的近35%。
但Cell的步伐也僅限於此了,從發佈到停止支持,除了PS3、IBM服務器和超算、東芝電視外,就再也沒有電子產品用過這顆奇葩設計的處理器,走入桌面端更是完全沒實現過,這款研發了四五年的處理器在半導體市場中以一個非常不體面的姿態入了土。
當然Cell的部分構想我們今天也能在各種處理器上找到,英偉達的CUDA核心, AMD的APU,蘋果最新的M系列芯片,或許它們的部分靈感就出自IBM和索尼研發的這顆失敗芯片呢?
曾為PS3開發獨占畫質代表作《殺戮地帶》的Guerilla Games技術總監還曾在2021年緬懷了一下Cell,認為這顆處理器仍然要比Intel任何一顆CPU都要強大,它領先於時代,但就是在可用性與平衡性上難以把握。
所謂超前一步是天才,而超前兩步乃至三步的,往往就變成了先烈,這句話用來詮釋Cell的歷程再合適不過了,或許日本廠商在半導體上的野望,那股赶超美國的決心,隨著Cell的遠去,也逐漸沒了踪影吧。