微軟開發出一種可在CPU上運行的超高效AI模型
微軟研究人員聲稱,他們已經開發出迄今為止規模最大的1位元人工智慧模型,也稱為「Bitnets」。該模型名為BitNet b1.58 2B4T,在MIT許可下公開可用,可在包括蘋果M2在內的CPU上運作。

Bitnets本質上是設計用於在輕量級硬體上運行的壓縮模型。在標準模型中,權重(定義模型內部結構的值)通常會被量化,以便模型在各種機器上都能表現良好。量化權重可以減少表示這些權重所需的位數(電腦能夠處理的最小單位),從而使模型能夠在記憶體更少的晶片上更快地運行。
Bitnets 將權重量化為三個值:-1、0 和1。理論上,這使得它們比當今大多數模型具有更高的記憶體和計算效率。
微軟研究人員表示,BitNet b1.58 2B4T 是第一個擁有20 億個參數的位元網絡,「參數」在很大程度上與「權重」同義。研究人員聲稱,BitNet b1.58 2B4T 經過4 兆個標記(據估計相當於約3,300 萬本書)的資料集訓練,其效能優於類似規模的傳統模型。
需要明確的是,BitNet b1.58 2B4T 並沒有完全擊敗競爭對手的20 億參數模型,但它似乎也擁有自己的優勢。根據研究人員的測試,該模型在包括GSM8K(一組小學數學題)和PIQA(測試物理常識推理能力)在內的基準測試中,超越了Meta 的Llama 3.2 1B、Google的Gemma 3 1B 和阿里巴巴的Qwen 2.5 1.5B。
或許更令人印象深刻的是,BitNet b1.58 2B4T 比其他同等大小的模型速度更快——在某些情況下速度是其兩倍——同時只使用一小部分記憶體。
然而,這其中有一個問題。要實現這種效能,需要使用微軟的自訂框架bitnet.cpp,但目前該框架僅適用於特定硬體。 GPU 尚未被列入支援的晶片列表,而GPU 正是AI 基礎設施領域的主導者。
綜上所述,Bitnets或許前景光明,尤其對於資源受限的裝置而言,但相容性仍然是一個關鍵問題,而且很可能仍將如此。