Ai2 稱其新型人工智慧模型擊敗了DeepSeek
本週四,Ai2 – 一家位於西雅圖的非營利人工智慧研究機構發布了一個模型,聲稱其性能優於DeepSeek V3 – 這是中國人工智慧公司DeepSeek 的領先系統之一。
Ai2 的模型名為Tulu 3 405B,根據Ai2 的內部測試,它也在某些人工智慧基準測試中擊敗了OpenAI 的GPT-4o 。此外,與GPT-4o(甚至DeepSeek V3)不同,Tulu 3 405B 是開源的,這意味著從頭開始複製它所需的所有元件都是免費提供的,並且已獲得許可。
Ai2 的發言人表示,該實驗室認為Tulu 3 405B”凸顯了美國引領全球開發一流生成式人工智慧模型的潛力”。
“這一里程碑是開放人工智慧未來的關鍵時刻,鞏固了美國作為競爭性開源模型領導者的地位,”發言人說。 “透過這次發布, Ai2 推出了一個強大的、由美國開發的、可替代DeepSeek 模型的產品–這不僅標誌著人工智慧發展的關鍵時刻,也展示了美國可以獨立於科技巨頭之外,以具競爭力的開源人工智慧引領未來。
Tulu 3 405B 是一個相當大的模型。根據Ai2 的數據,它包含4050 億個參數,需要256 個GPU 並行運行才能完成訓練。參數大致相當於模型解決問題的能力,參數越多的模型通常比參數越少的模型表現越好。

Ai2 對Tulu3 405B 完成了流行基準測試。圖片來源: Ai2
根據Ai2 公司的說法,Tulu 3 405B 獲得競爭性表現的關鍵之一是一種名為”可驗證獎勵強化學習”的技術。可驗證獎勵強化學習(RLVR)是在具有”可驗證”結果的任務上對模型進行訓練,如數學解題和遵從指令。
Ai2 聲稱,在基準測試PopQA(一組來自維基百科的14000 道專業知識題)中,Tulu 3 405B 不僅擊敗了DeepSeek V3 和GPT-4o,還擊敗了Meta 的Llama 3.1 405B 模型。 Tulu 3 405B 在GSM8K 測驗中的表現也是同類機型中最高的,該測驗包含小學程度的數學單字問題。
Tulu 3 405B 可透過Ai2 的聊天機器人網路應用程式進行測試,訓練模式的程式碼可在GitHub 和AI 開發平台Hugging Face上找到。請趁熱打鐵,在下一個堪稱標竿的旗艦人工智慧模型出現之前獲得它。