英特爾新款遊戲顯示卡賣爆24G大顯存版也在路上這下AI玩家也要搶?
著實有點Amazing啊。這兩天GPU圈發生了個事兒,被網友們討論地津津樂道──有一款顯示卡賣爆了。火到什麼程度呢?就是一進貨就被搶光。 GPU供不應求其實已經司空見慣了,但之所以這次能被熱議起來,是因為這款產品背後的廠商。不是你以為的英偉達、AMD,而是……英特爾。
為什麼會如此?
從玩家們的討論中不難得出答案-性價比夠高,2000元價位就能在2K畫質下暢玩3A遊戲。
The Verge也非常「直給」地給了一句評價:
英特爾終於在GPU上拿下了一次勝利。
而這款顯示卡,正是英特爾不久前發表的第二代Arc B580,售價僅249美元。
要知道,英偉達299美元的RTX 4060和AMD269美元的RX 7600,僅配備了8GB的VRAM。
但英特爾的Arc B580不僅價格比它們低,還配備了12GB的VRAM和192bit的顯存位寬。
即使是價格更低的Arc B570(219美元,下個月上市)也配備了10GB的VRAM。
除此之外,還有一個更有意思的事。
雖然Arc是遊戲顯示卡,但畢竟是GPU啊,於是……也有一部分人買來開始搞AI了。而這,可能會讓它未來的銷售再增加三分熱度。
不,有人在Reddit上就分享了怎麼在Arc B580上搞AI畫圖Comfy UI了:
不只是個人用戶的嚐鮮,我們還打聽到有些企業已經著手把英特爾的顯示卡塞進包括工作站和伺服器在內的商用運算設備中了,具體搭配的「食譜」就是:英特爾至強系列CPU+Arc顯示卡。
不過暫時用的還是英特爾上一代的A770,作為上一代的旗艦型號,A770有著16G大顯存,用在AI推理上,也算游刃有餘。
根據可靠的消息,如此組合最搶眼的優勢,同樣是「性價比」三字。
而由此引發的,更值得討論的一個話題應當是:
消費級顯示卡搞AI,到底行不行?
首先可以看出來,無論個人或企業,買英特爾消費級顯示卡來搞AI,基本上都是來做AI推理的。
實際上,推理算力需求正快速成長,大有超過訓練算力需求之勢。
一方面,隨著業界熱議的「預訓練Scaling Law撞牆」了,像OpenAI o1/o3系列模型也開始依靠增加推理算力提高模型能力。
另一方面, AI應用落地的爆發也使得推理需求大幅增長,這些需求往往不強求算力的溢出甚至極致,即所謂硬需求不高,而是更加註重實現夠用的性能(包括並發度和時延),以及與之同步的易取得、易部署、易使用和成本上是否夠實惠。
那麼做AI推理為什麼選擇英特爾遊戲顯示卡?如前面分析,性價比肯定是一大考慮因素。
從硬體方面講,即使是頂級的算力卡,單卡做AI推理在面對高並發等場景時,顯存也會成為瓶頸,但升級到四卡、八卡成本又會飆升。此時,英特爾A770這種2000元價位就有16G大顯存的型號,就成了兼顧性能與成本之選。
從應用方面講,很多場景其實對每秒token生成速度要求並不高,特別是有串流等優化手段,只要first token latency到位了,後面生成速度滿足一定要求,體驗就很好。
這是我們拿到的4張英特爾Arc A770顯示卡跑Qwen2.5 32B模型的示範Demo,來感受一下這個速度,是不是足夠了?
看到這裡可能有人要問了,用英特爾顯卡跑AI,CUDA的問題怎麼解決?
拿最受歡迎的大模型推理框架之一vLLM來說,得益於開源軟體的發展,其早已實現了高層次的抽象和封裝,其實換用哪種硬件,用起來都沒差太多。
再加上英特爾自己提供的開源oneAPI,就能做到很低的遷移成本。
可能還有人要問了,那為什麼不選專用AI推理加速器,像是風頭正盛的Groq、Sambanova這些?
這就要說到,多模態互動是現在AI應用的一大趨勢,無論是與AI視訊對話、數位人,或是直播、短視訊場景的一些應用,都同時會用到視訊解碼或圖形渲染能力,這就非得是通用GPU不可。
專用加速器雖然在特定任務上有優勢,但在處理多樣化需求時,通用GPU更具靈活性。
所以總結來看,用英特爾顯示卡搞AI推理,算力夠用,大顯存還有,可行性就有了,性價比也有了,對於現有業務來說,遷移成本更是理想。
後面能拿下多大市場,會不會成為一個趨勢,就拭目以待了。
英特爾的曲線突圍
英特爾消費級顯示卡被企業拿去搞AI推理了,英特爾自己是什麼態度?
那肯定是樂見其成的,而且相當重視。
其實,英特爾在兩年前剛推出Arc系列時就採取與友商不同的策略,許可證方面明確不限制資料中心使用。
為了方便大家用好AI,英特爾的軟體團隊一直沒閒著,除了更新oneAPI,還在持續推出和更新一系列開源工具,吸粉不斷。
例如加速函式庫IPEX-LLM,可用於大模型的推理和微調,在GitHub上已經有6.8k star。
以及低比特量化工具neural-compressor,也獲得2.3k star。
從IPEX-LLM也可以看出英特爾對中國市場的重視,針對中國主流的開源大模型ChatGLM、Qwen、MiniCPM等都提供了適配,中文文件和教程也做的比較完善。
為了方便大家選擇模型,英特爾還在HuggingFace上維護了一個低位元量化模型的排行榜,設定好條件,就可以一鍵比較並篩選出自己需要的模型。
其中效能排名靠前的,不乏英特爾自己動手量化的開源社群優秀模型。
這麼看下來,英特爾為AI開源社群所做的眾多貢獻,為企業和開發者提供了便利,也是現在大家願意嘗試英特爾顯示卡的原因之一。
最後,我們還打聽到一個內線消息:
英特爾看到AI推理這個市場需求逐漸擴大後,在後續產品策略上也有所調整。
2025年,英特爾準備推出Battlemage系列顯示卡的更大記憶體版本,其容量將增加至24G。
以後就是現有版本繼續服務於遊戲等消費級市場,24G的更大顯存版本瞄準「生產力市場」。
「生產力市場」的目標使用者涵蓋了資料中心、邊緣機房、教育科學研究和個人開發者等。
擁有更大顯存的英特爾顯示卡,不僅可在AI推理需求上,也能在渲染和視訊編解碼應用上做到比專業圖形卡、工作站顯示卡性價比更高。
還真別說,“從遊戲人間轉向打工賺錢”+“算力夠用、顯存保大”,很有可能會成為英特爾GPU突圍的一招妙棋。
參考連結:
[1]https://www.reddit.com/r/pcgaming/comments/1hh2dvn/intel_finally_notches_a_gpu_win_confirms_arc_b580/
[2]https://www.techspot.com/news/105810-intel-launches-new-arc-battlemage-b580-b570-gaming.html
[3]videocardz.com/newz/intel-will-not-prohibit-gaming-arc-gpu-use-in-data-centers
[4] https://github.com/intel-analytics/ipex-llm
[5] https://github.com/intel/neural-compressor
[6] https://huggingface.co/spaces/Intel/low_bit_open_llm_leaderboard