MiniMax 01首次開源海外開發者被中國模型震驚
2025開年,MiniMax 又上新了。繼公佈全模態模型家族後,時隔5個月,MiniMax再亮相兩大模型,且模型權重完全開源。而且與GPT-4o和Claude-3.5-Sonnet性能平起平坐,尤其在上下文視窗方面表現出色,處理能力甚至達到其他頂尖模型的20 – 32倍。
更重要的是,這兩款全新模型擴展了新型Lightning Attention架構,突破了傳統Transformer架構,同時也是線性注意力機制的首次大規模實現。
什麼概念?
線性注意力機制是對傳統注意力機制的最佳化升級,即將傳統注意力機制的二次運算複雜度轉變為線性複雜度,可降低運算的複雜度,提升模型訓練速度。早在2019年就有人提出了這個理論,但從來沒有人在大規模的模型上實現過。
如今,MiniMax率先找出了問題答案,無疑為處理長文本、大規模資料等複雜任務提供了有力支持,實力證明了線性注意力機制在大規模商用模型中的可行性。
消息一出,網友炸鍋了。
有網友表示: 來自中國的AI變革! MiniMax 01成本比GPT-4o 低10 倍,將引發新一輪AI革命。
也有網友直接上手測評表示:模型不僅好用且成本低廉,簡直給2025開源模型之爭提高了一個level!
MiniMax連發兩款大模型
CSDN了解到,此次MiniMax更新的兩大模型基礎語言大模型MiniMax-Text-01和視覺多模態大模型MiniMax-VL-01進一步拓展了文字和視覺多模態領域的能力。
那麼,這兩款大模型的實力究竟如何呢?
MiniMax-文字-01
首先來看基礎語言大模型MiniMax-Text-01。
評測結果顯示,MiniMax-Text-01在大多數任務上成功追平海外最先進的GPT – 40 – 1120 及Claude – 3.5 – sonnet – 1022 等頂級閉源模型以及Qwen2.5、DeepSeek v3、Llama 3.1 等頂級閉源模型以及Qwen2.5、DeepSeek v3、Llama 3.1 等SOTA 開源模型,甚至在某些特定場景下,其反應速度和準確率更勝一籌,展現出驚人的潛力。
例如,在MMLU基準測試中,MiniMax-Text-01得分與DeepSeek-V3得分相同,皆為88.5分;明顯高於GPT-4o的85.7分。
在HumanEval上,MiniMax-Text-01 與Instruct Qwen2.5-72B 相比表現出色。此外,MiniMax-Text-01 在像GPQA Diamond 這樣具有挑戰性問答的資料集上取得了54.4 的成績,超過了大多數開源指令微調的LLM 以及最新版本的GPT-4o。
在模型處理能力方面,MiniMax-Text-01表現同樣出色,不僅能夠高效處理超過百萬字符的長文本,且與海外模型相比,延遲更低,穩定性更強,確保了大規模數據處理的高效性和可靠性。
這些成績顯示MiniMax-Text-01不僅在技術層面達到國際領先水平,更在實際應用中展現出高效穩定的性能。
在長上下文理解能力方面,與Google的Gemini 模型相比,MiniMax-Text-01在長上下文檢索、理解和學習任務中表現出色,在64K輸入級別的表現與頂尖模型GPT-4o、Claude-3.5- Sonnet等實力相當,但從128K開始顯現出明顯的優勢,並超越了所有基準模型。
而隨著輸入長度的增加,MiniMax-Text-01的效能衰減最慢,這意味著它在處理長文件、長篇對話等場景時,能夠更好地保持對資訊的理解和處理能力,提供更準確、連貫的輸出。
同時,MiniMax-Text-01也建立了一個利用真實資料的助理場景使用的測試集,結果顯示,MiniMax-Text-01在多個內部基準任務上與其他模型相比具有競爭力,尤其在創意寫作、長上下文和安全等方面表現出色。這項突破性進展,不僅提升了長文任務的效率,也為學術研究、內容創作等領域提供了強大工具,驗證了線性注意力機制在處理大規模資料中的實際應用價值。
MiniMax-VL-01
接著我們來聊聊視覺多模態大模型MiniMax-VL-01。
MiniMax-VL-01是一款將影像編碼器和影像適配器整合到MiniMax-Text-01模型基礎上開發的多模態模型,採用多模態大語言模型常用的ViT-MLP-LLM框架,具有動態解析度功能,可以根據預設網格調整輸入影像的大小,調整後的影像被分割成大小相同的不重疊區塊,這些區塊和縮圖分別編碼後組合,形成完整的影像表示。它不僅繼承了文字處理的高效性,還具備強大的視覺理解能力,在多種視覺語言任務基準測試中展現出與頂尖模型相媲美的表現。
此外,MiniMax-VL-01進行了四個階段的訓練,處理資料集總量達到5,120億token。
結合評測結果可以看到,經過四個階段訓練,MiniMax-VL-01模型在多個基準測試中都取得了優異成績。尤其在VQA(視覺問答)任務中表現出色,表現與GPT-4o相當,在長文本理解與檢索能力的評估中,MiniMax-VL-01同樣表現亮眼,優於多數同類模型。
一直以來,MiniMax給外界的印像是強調技術研發創新和突破,憑藉從文字到視覺、從文字到語音、從文字到文字的三大模態基礎模型架構,MiniMax在創業公司中已經殺出了一條生路。
在底層技術上,MiniMax的目標是更快更強。
其創辦人曾公開表示:大語言模型領域,兩個模型表現相似,一定是速度更快的那個模型更容易帶來產品數據成長。就好像Scaling Law一樣,在演算法相同情況下,訓練資料量較大的模型往往會達到更好的效果。
因此,MiniMax創新地將MOE架構和Linear Attention結合,理論上可以處理的token接近無限長,而且模型效率也獲得了大幅提升——在處理10萬token的時候,速度是其他模型的2- 3倍,且隨著長度越長,效率提升越明顯。
這次發表的兩款大模型更是其理念的集中體現,同時也是業界首次線性注意力機制大規模實現的實例。在架構方面,創新地採用了混合架構,結合了Lightning Attention、Softmax Attention以及Mixture-of-Experts(MoE),同時透過LASP+、varlen ring attention、ETP等優化的平行策略和高效的運算通訊重疊方法,最終模型參數達4560億,每次啟動459億。
首次開源,模型應用低成本且完全開放
目前,MiniMax 01模型已在海螺AI(國內APP、hailuoai.com)以及海外平台(hailuo.ai)上線,用戶可以透過這些平台便捷地體驗MiniMax 01 的強大功能。無論是文字創作、智慧問答,或是多模態互動等場景,使用者都能感受到MiniMax 01 帶來的智慧體驗。
此外,MiniMax也在開放平台上提供了完整的API,基於Linear Attention架構創新、算力優化,以業界最低價格提供文字和多模態理解API服務。
更重要的是這兩款模型的完整權重完全開源,而MiniMax也承諾後續更新也會及時上傳。
下面是開源地址,有興趣的現在就可以嚐嚐鮮了。
談到為何開源,MiniMax也向CSDN表示其有兩方面的考量:
其一,開源作為技術交流的重要橋樑,能夠讓更多的開發者,包括初學者和小型團隊,接觸和使用先進的模型技術,能夠幫助MiniMax更高品質的完成後續的模型研發。同時,這也與MiniMax的初衷不謀而合——Intelligence with Everyone。
其二,MiniMax01提供了一個可參考和借鑒的範例,同時可以啟發行業思考,其他企業和開發者可以在其基礎上進行二次開發和創新,根據自身業務需求和場景,定制化開發出更符合特定領域的應用和解決方案,進而更快的促進Agent時代的到來。
MiniMax 01模型完全開源的消息也吸引了一大批KOL進行了實測:
CSDN知名KOL部落客紅目香薰表示:
對於大學的電腦教學工作而言,MiniMax 01的情境處理能力在實際教學過程中大有益處,並且開源後可用於輔助備課、解答疑問,提升教學效率。簡直是福利!
CSDN知名部落客申屠鵬會則表示:
MiniMax開源模型帶來的好處在我看來主要有以下兩點:一是降低了企業入局大模型的門檻,在顯示卡成本居高不下的現況下,MiniMax 01開源就能為企業節省更多成本,二是參數量增大也意味著能拓展的AI應用範圍擴大,更多圈層人群的參與,也有更大的想像空間。
劍指Agent 時代
進入2025年,Agent的時代趨勢也愈加明顯。
而MiniMax對於Agent時代到來的嗅覺則更為靈敏。 2024年,創辦人就曾在訪談中表示:2025 年是AI Agent 時代。通用人工智慧是科技變革的標誌,AI 已成為日常生活的一部分。中外在AI 領域的差距正在縮小,國內在特定領域如多模態理解和生成已進入全球第一梯隊甚至部分領先。
這進一步決定了MiniMax的前進腳步。
截至目前,MiniMax自主研發了文字大模型、語音&音樂大模型、影像大模型以及影片大模型。基於不同模態的一般大模型,MiniMax推出生產力工具海螺AI、AI內容社群星野等原生應用,開放平台為40,000+企業及開發者提供API服務。
可以看到,以「全模態模型+APP產品+開放平台」是MiniMax選擇的成長飛輪,同時也是MiniMax在AI時代大模型如何實現商業化找到的一條通往AGI的道路。而底層模型的技術創新,為這一切提供了基礎。