AMD發布首個AI小語言模式:6,900億token、推測解碼提速3.88倍
AMD發布了自己的首個小語言模式(SLM),名為「AMD-135M」。相較於越來越龐大的大語言模型(LLM),它體積小巧,更加靈活,更有針對性,非常適合私密性、專業性很強的企業部署。
AMD-135小模型隸屬於Llama家族,有兩個版本:
一是基礎型“ AMD-Llama-135M ”,擁有多達6700億個token,在八塊Instinct MIM250 64GB加速器上訓練了六天。
二是延伸型“ AMD-Llama-135M-code ”,額外增加了專門針對程式設計的200億個token,同樣硬體訓練了四天。
建立與部署流程
它使用了一種名為「推測解碼」(speculative decoding)的方法,透過較小的草稿模型,在單次前向傳播中產生多個候選token,然後發送給更大的、更精確的目標模型,進行驗證或修正。
這種方法可以同時產生多個token,不會影響效能,還可以降低記憶體佔用,但因為資料交易更多,功耗也會增加。
AMD也使用AMD-Llama-135M-code作為CodeLlama-7b的草案模型,測試了推測解碼使用與否的效能。
例如在MI250加速器上,效能可提升最多約2.8倍,銳龍AI CPU上可提升最多約3.88倍,銳龍AI NPU上可提升最多約2.98倍。
推測解碼
AMD-135M小模式的訓練程式碼、資料集等資源都已經開源,遵循Apache 2.0。
根據AMD的說法,它的表現基本上與其他開源小模型相當或略有領先,例如Hellaswag、SciQ、ARC-Easy等任務超過Llama-68M、LLama-160M,Hellaswag、WinoGrande、SciQ、MMLU、ARC-Easy等任務則基本類似GTP2-124MN、OPT-125M。