AI iPhone前奏?蘋果發表論文解決“在手機內存上運行大模型”
根據媒體報道,近日,蘋果發布了一篇論文,介紹了一種可以再超出可用DRAM容量的設備上運行LLM(大語言模型)的方法。這項新研究支援有限容量的裝置運行記憶體2倍大小的LLM,GPU的推理速度可以提升數十倍。媒體稱,蘋果將生成式AI整合到iOS 18的計畫或將加快推進。
透過大幅提高記憶體使用效率,這項新研究支援有限容量的裝置運行記憶體2倍大小的LLM,GPU的推理速度可以提升數十倍。
論文稱,LLM密集的運算量和記憶體需求對於DRAM容量來說是一大挑戰,該論文建構了一個以快閃記憶體為基礎的推理成本模型,將在兩個關鍵領域進行最佳化:減少從快閃記憶體傳輸的資料量、更多更流暢地讀取資料塊。
這意味著,這項突破性研究擴大了LLM適用性和可及性,蘋果將生成式AI整合到iOS 18的計畫或將加快推進。
LLM能在手機上運作了?
一般來說,DRAM就是我們常說的“內存”,而flash(閃存)指的是硬碟。
運算資料時,CPU通常會以DRAM為“中間橋樑”,把硬碟中的資料複製到記憶體中來,再在記憶體中做資料處理,這樣速度可以提升至數百萬倍。
但在容量上,DRAM相較於硬碟小一個數量級。而LLM運作時,需要同時處理的資料量龐大,對容量有限的裝置來說構成了極大的挑戰。
但這篇論文提出的新框架似乎發現了突破點。該框架旨在將模型參數儲存在快閃記憶體中,在需要的時候再將資料調入DRAM,解決了LLM運行時資料處理量超過DRAM可用容量的的難題。
具體而言,蘋果主要運用了兩種技術:
(1)「視窗化」技術:重複使用先前啟動的神經元,以此減少資料傳輸;(2)「行列捆綁」技術:針對快閃記憶體的資料特徵,客製化存取資料區塊的順序,從而增加從快閃記憶體讀取的資料區塊大小。
論文提及,一個70億參數的模型就需要超過14GB的記憶體來載入半精度浮點格式的參數,超過了大多數網路端點的承受能力。但透過此框架,能夠實現最小化資料傳輸並最大化快閃記憶體吞吐量,從而減少資料負載、提高記憶體使用效率。
研究結果顯示,與傳統的載入方法相比,此框架支持DRAM兩倍大小的模型,在CPU和GPU中推理速度可分別提升4-5倍、20-25倍。研究團隊在文末總結:
“這項突破性技術對於在資源有限的環境中部署先進的LLM尤為重要,從而擴大LLM適用性和可及性。”
手機巨頭們瞄準了AI
在AI潮下,各大手機製造紛紛開始佈置「人工智慧+手機」。
根據先前市場消息,蘋果將在其iOS 18中引入AI,主要用於Siri和通訊應用程式的智慧問答、生成語句等功能,此外,蘋果還在探索AI在Apple Music、Page、Keynote和Xcode等應用中的潛能。
三星於11月初推出其生成式AI模型Samsung Gauss,報導該模型將納入即將於2024年初發布的Galaxy S24系列手機中,三星旗下筆記型電腦、平板電腦也有可能整合該模型。
Google的雙子星大模型(Gemini)也將整合到Google旗下產品,11月,Google官宣Gemini1.0將在Google產品中逐步推出;Gemini Pro將整合到Bard中以進行高級推理和規劃;Gemini Nano將為Pixel 8 Pro智慧型手機的功能提供支援。