Mozilla 的Llamafile 0.8.2 透過新的AVX2 效能優化獲得巨大成功
Mozilla Ocho 是瀏覽器公司的創新和實驗小組,其有趣的創新之一是Llamafile,這是一種從單一檔案分發和運行人工智慧大型語言模型(LLM)的簡單方法。今天晚上發布的Llamafile 0.8.2 是最新版本,更新了Llama.cpp,最令人興奮的是對AVX2 性能進行了優化。
Llamafile 的目標是讓使用者和開發人員更容易獲得人工智慧LLM,它支援從單一檔案精簡部署大型語言模型,這些模型既能在CPU 和GPU 上執行,也能跨平台運行。 Llamafile 已經支援利用AVX/AVX2 實現更快的效能,並支援AVX-512 以實現更快的速度。在今天發布的Llamafile 0.8.2 中,又增加了AVX2 優化功能。
Llamafile 0.8.2 發布說明中提到
“此版本為K-quants 和IQ4_XS 引入了更快的AVX2 提示處理。這是由@ikawrakow 貢獻給llamafile 的,他在去年發明了K-quants:gerganov/llama.cpp@99009e7。在之前的版本中,我們推薦使用傳統的Q4_0 quant,因為它最簡單、最直觀,可以與最近的matmul 優化一起使用。以最快的速度運轉”。
在過去幾年中,英特爾和AMD 處理器廣泛支援高階向量擴充2(Advanced Vector Extensions 2):大多數英特爾CPU 從Haswell 開始支援高階向量擴充2,而AMD 方面則從Excavator CPU 開始支援高階向量擴充2 。
拉取請求指出,在更快的AVX2 提示處理方面取得了一些令人振奮的成果。據報告,各種計算器具的速度都提高了1.4 至2.3 倍。
大量參與Llamafile 開發工作的Justine Tunney 最初回應了拉取請求:
“這是一個了不起的變化@ikawrakow。我很高興看到最好的量化格式現在能以最快的速度運行。在x86-64 機器上,我一直看到提示處理的速度提高了1.2-2.0 倍。
對於Llamafile 0.8.2 而言,這些針對提示處理的AVX2 最佳化已經夠令人興奮了。不過,0.8.2 版還帶來了記憶體錯誤修復、文字產生的輕微效能優化、本週的Llama.cpp 程式碼更新以及各種新標誌。
有關Llamafile 0.8.2 版的下載和更多詳情,請造訪GitHub。針對新版本的新Llamafile 基準測試即將發布。