奔騰2 CPU+128MB記憶體成功運行Llama大模型速度還挺快

2024-12-30 Comments 0 Comment

EXO Labs最近發布了一段視頻，展示了在一台26年曆史的Windows 98奔騰2 PC上運行大模型（LLM）。這台主頻350MHz電腦成功啟動進入Windows 98系統，隨後EXO啟動了基於Andrej Karpathy的Llama2.c定制的純C推理引擎，並要求LLM產生關於「Sleepy Joe」的故事，令人驚訝的是生成速度相當可觀。

EXO Labs的這項壯舉並非偶然，該組織自稱為「民主化AI」而生，由牛津大學的研究人員和工程師組成，他們認為，少數大型企業控制AI對文化、真理和社會的其他基本面向是不利的。

因此，EXO希望建立開放的基礎設施，訓練前沿模型，並使任何人在任何地方都能運行它們，這項在Windows 98上的AI演示，展示了即使在資源極其有限的情況下也能完成的事情。

EXO Labs在文章中詳細描述了在Windows 98上執行Llama的過程，他們購買一台舊的Windows 98 PC作為專案基礎，但面臨了許多挑戰。

將資料傳輸到舊設備上是一個不小的挑戰，他們不得不使用「老式的FTP」透過古老機器的乙太網路連接埠進行檔案傳輸。

編譯現代程式碼以適應Windows 98可能是一個更大的挑戰，EXO找到了Andrej Karpathy的llama2.c，可以總結為“700行純C程式碼，可以運行Llama 2架構模型的推理”， Karpathy曾經是特斯拉的AI主管，也是OpenAI的創始團隊成員。

利用這個資源和舊的Borland C++ 5.02 IDE和編譯器（以及一些輕微的調整），程式碼可以被製作成Windows 98相容的可執行檔並運行，GitHub上有完成程式碼的連結。

使用260K LLM和Llama架構在Windows 98上實現了「35.9 tok/s」的速度，根據EXO的博客，升級到15M LLM後，生成速度略高於1 tok/s，Llama 3.2 1B的速度則慢得多，為0.0093 tok/s。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

WONGCW 網誌

記錄生活經驗與點滴

奔騰2 CPU+128MB記憶體成功運行Llama大模型速度還挺快

2024-12-30 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆