蘋果與NVIDIA的合作將AI模式的生產速度提升數倍
蘋果公司最新的機器學習研究可以讓Apple Intelligence的模型創建速度更快,因為它提出了一種技術,在使用NVIDIA GPU 時,詞元的生成速度幾乎提高了三倍。
在為提供人工智慧功能的工具和應用程式(如Apple Intelligence)創建大型語言模型(LLM)的過程中,存在的問題之一是首先創建LLM 的效率低下。 為機器學習訓練模型是一個資源密集的緩慢過程,通常需要購買更多的硬體並增加能源成本。
2024 年早些時候,蘋果公司發布並開源了Recurrent Drafter,即ReDrafter,這是一種在訓練中提高效能的推測解碼方法。 它使用RNN(遞歸神經網路)草稿模型,將波束搜尋與動態樹關注相結合,用於預測和驗證來自多條路徑的草稿標記。
與典型的自動回歸標記生成技術相比,這將LLM 標記生成速度提高了3.5 倍。
在蘋果公司機器學習研究網站的貼文中,蘋果解釋說,除了使用Apple Silicon的現有工作外,該團隊並未止步於此。 本週三發布的新報告詳細介紹了該團隊如何將研究成果應用於ReDrafter 的創建,使其能夠與NVIDIA GPU 配合使用。
用於產生LLM 的伺服器通常採用NVIDIA GPU,但高效能硬體往往需要高昂的成本。 光是硬體一項,多GPU 伺服器的成本就超過25,0000 美元,更不用說所需的基礎設施或其他相關成本了。
蘋果與NVIDIA 合作,將ReDrafter 整合到NVIDIA TensorRT-LLM 推理加速框架中。 由於ReDrafter 使用了其他推測解碼方法沒有使用的運算符,因此NVIDIA 必須添加額外的元素才能使其正常運作。
透過整合,在工作中使用NVIDIA GPU 的ML 開發人員現在可以在使用TensorRT-LLM 進行生產時使用ReDrafter 的加速令牌生成功能,而不僅僅是那些使用Apple Silicon 的開發人員。
在NVIDIA GPU 上對數以百億計的參數生產模型進行基準測試後發現,貪婪編碼的每秒生成代幣的速度提高了2.7 倍。
結果是,該過程可用於最大限度地減少對使用者的延遲,並減少所需的硬體數量。 簡而言之,用戶可以期待從基於雲端的查詢中獲得更快的結果,而公司則可以在花費更少的情況下提供更多服務。
在NVIDIA 的技術部落格上,這家顯示卡生產商表示,此次合作使TensorRT-LLM”功能更強大、更靈活,使LLM 社群能夠創新出更複雜的模型並輕鬆部署它們」。
該報告是在蘋果公司公開證實正在調查是否可能使用亞馬遜的Trainium2 晶片來訓練用於Apple Intelligence功能的模型之後發布的。 當時,該公司預計使用該晶片進行預訓練的效率將比現有硬體提高50%。