下一個蘋果還是蘋果
蘋果冷靜地觀察了生成式AI亢奮的一年,一直在為自己的生態基礎添磚加瓦,還在一步一腳印地邁向明年發布AiPhone。十月份,蘋果機器學習研究團隊曾推出「雪貂「模型(Ferret),這個多模態大模型比GPT-4v對空間的理解更準確。最近這個模型開源了。簡單地說,在一幅圖中的任何地方,你指出任何一個物體,就算它再微小,「雪貂」都能解釋清楚。
這種對空間的敏感,對於蘋果即將發布的Vision Pro具有重要作用,它讓自然/虛擬的視覺感知與語言大模型結合。這篇不張揚的論文作者全部是華人,最近越來越引起業界的重視,它在空間運算上達到了SOTA水準。
「雪貂」模型架構(來源:FERRET: REFER AND GROUND ANYTHING ANYWHERE AT ANY GRANULARITY )
蘋果最近推出了能在其M3晶片上訓練部署大模型的開源框架MLX。這意味著Mac筆記型電腦的開發者,可以開發出大型模型支援的應用。
蘋果也推出了「閃電大模型」 (LLM in a Flash),用快閃記憶體解決了手機上部署大模型記憶體(DRAM)不足的問題。
這是個人很喜歡的一篇論文。是的,偷偷工作的蘋果,也開始默默地發論文了。
這篇論文談的是一個小而關鍵的問題,如何在手機這樣一個內存非常有限的空間裡,部署一個大模型,而且推理的速度要快,還不費電池。
它的最大優點,不是就演算法談演算法,而是從對硬體的深刻理解,結合演算法提出了自己的方法。它的出發點完全是消費者思維,大模型在遙遠的雲端,大得嚇人,貴得驚人,只有揣在用戶的口袋裡,才能讓消費者對生成式AI產生感覺。
DRAM太小,放不下一個幾十億的模型。儘管可以放到快閃記憶體裡,但快閃記憶體的頻寬不夠。為了最小化從快閃記憶體到DRAM頻寬的負載,蘋果創新了兩個技術,視窗化(windowing)和行列捆綁(row-column bundling)(詳見論文)。
在OPT 6.7B和FALCON 7B兩個模型上測試,結果相當“炸裂”,能夠運行的模型尺寸達到可用DRAM能容納的兩倍,與CPU和GPU中的簡單加載方法相比,推理速度分別提高了4~5倍和20~25倍。
對齊晶片、作業系統和系統設計,找到方法建立起一個推理成本模型,這事只有蘋果做得出來。
最近一系列的幾十億參數級小模型表現當驚世界,如Mistral, Phi-2能挑戰百億參數級大模型;Google推出了18億參數的Nano級Gemini模型,直接裝到Pixel手機上。高通的驍龍晶片能跑得動百億參數級的模型。三星可能將於2024年初推出生成式AI遊戲功能的Galaxy S24手機。
還有上海交大團隊推出的推理引擎PowerInfer,都為大模型在設備終端,尤其是手機和筆記型電腦的部署,掃清一個又一個障礙,也預示著2024年,消費類電子產品,將會迎來一波大模型載入的高潮。
這些「小」模型的推出,有一個共同的特徵,就是採用了高品質的數據,「教科書級」的數據。無疑,主流新聞媒體的檔案,所能提供的是好的語言訓練資料。
蘋果正在與美國各大媒體機構談判,約以5000萬美元的價格,獲得這些媒體的檔案語料庫,用來訓練自己的大模型,可能會用Siri的對話服務。
想想這些用來訓練語料的品質吧,康迪納斯特的Vogue、New Yorker、NBC News,以及IAC的People、The Daily Beast、Better Homes、 Gardens等。它包括大量的以時尚與生活方式為內容的精美文字和圖片。也包括部分新聞文章、圖片和影片。
但是其他的主流媒體對此並沒有表示出太多興趣。以往紙媒與社群媒體的合作,並沒有為他們帶來太多利益。另外,媒體將檔案中的新聞交給蘋果去訓練大模型,在使用的過程中,可能產生的法律糾紛,也引起這些媒體的擔憂。
蘋果的做法,被認為更道地。其他的AI公司或科技巨頭,是先用了人家的語料,被揪住了再去談授權,已經引發了一些官司。
蘋果出於對隱私的強調,它不願意直接從網路上扒數據。蘋果也不允許收集其客戶的數據。
那麼,2024年蘋果會做什麼呢?
大家首先想到的是,它會在明年推出生成式AI加持的語言助理Siri。它將是2024年秋季iPhone16和iOS18的最大亮點。有些果粉開玩笑說會推出SiriGPT。但這些都只是冰山一角。
巨頭的做法,通常是尋找新的技術來加強其固有的核心能力,在原有的產品上產生差異化。是從表面上看,吃老本的蘋果,在生成式AI上行動遲緩,採取了保守的跟隨策略?還是蘋果能真正運用在晶片、作業系統、大模型方面一體化整合的能力和產品設計能力,做出最好的AI產品體驗?答案可能是後者。
蘋果在過去的幾年,已經收購了幾十家AI新創企業,用於其產品、服務及生態。只是這裡面沒有那些明星級的新創公司。
蘋果只做不說,早有分析師注意到,蘋果在AI上的投資,一點都不比微軟少:已經花了上百億美元,建造生成式AI應用開發的基礎設施。稍早人們傳聞蘋果在內部偷訓自己的大模型Ajax,或叫Apple GPT,據說當時可以趕上GPT-3.5。
但最近蘋果在機器學習方面一系列的研究成果表明,蘋果正在走自己的路。微軟、Google、亞馬遜、英偉達,以及OpenAI為代表的閉源大模型公司,圍繞模型、雲端和算力去收割了第一茬。
而蘋果看重的是其20億設備及其用戶所形成的巨大的生態。生成式AI所帶來的iPhone的新的體驗,以及用大模型去加持所有的應用,這些給蘋果帶來的消費市場機會,是其他巨頭難以奪走的。蘋果以隱私保護的名義,控制了第三方應用之間互相竄訪,也讓Apple Store成為自己未來AI應用的金礦。
蘋果動作慢了嗎?生成式AI的幻覺問題,還有監管、隱私保護、版權糾紛等,這些問題都會令蘋果想得更深一些,考慮得更周全。蘋果有這樣的底氣,因為它在晶片、作業系統、應用、產品、製造等各個層面一體化的設計,最終所帶來的產品體驗創新性的深度,仍將可能是其競爭對手難以比擬的。
OpenAI引發的“iPhone時刻”,已經尖叫好幾回了,但下一個蘋果,還是蘋果。
參考論文:
作者/週健工