Scale AI發布首個大語言模型排行榜對特定領域的AI模型效能進行排名
為OpenAI 和Nvidia Corp. 等公司提供服務的人工智慧訓練資料提供商Scale AI Inc. 今天發布了其首個SEAL 排行榜的結果。這是一個新的前沿大型語言模型排名系統,它基於私有的、經過策劃的和未開發的資料集,目的是對這些模型在生成式人工智慧編碼、指令追蹤、數學和多語言性等常見使用案例中的能力進行評級。
SEAL 排行榜顯示,OpenAI 的GPT 系列LLM 在其用於人工智慧模型排名的四個初始領域中的三個領域排名第一,Anthropic PBC 廣受歡迎的Claude 3 Opus 在第四個領域排名第一。 Google LLC 的Gemini 模型也表現出色,在其中幾個領域與GPT 模型並列第一。
Scale AI表示,它之所以創建SEAL排行榜,是因為現在有數以百計的LLM可供公司使用,而人工智慧的表現卻缺乏透明度。這些排行榜由Scale AI 的安全、評估和對齊實驗室(Safety, Evaluations, and Alignment Lab)開發,並聲稱透過拒絕透露其用於評估LLM 的提示的性質來保持中立性和完整性。
該公司指出,雖然也有其他對LLM進行排名的努力,例如MLCommons的基準和史丹佛HAI的透明度指數,但其在人工智慧訓練資料方面的專業知識意味著它在克服人工智慧研究人員所面臨的一些挑戰方面具有獨特的優勢。例如,Scale AI指出,MLCommon的基準是公開的,因此公司可以對其模型進行專門訓練,以準確回應他們使用的提示。
SEAL 開發了私有的評估資料集,以保持其排名的完整性,據說其測試是由經過驗證的領域專家創建的。此外,所使用的提示和給出的排名都經過仔細評估,以確保其可信度,同時透過公佈所使用評估方法的明確解釋來確保透明度。
Scale AI 表示,在Scale Coding 領域,每個模型都要在隨機選擇的提示上與評估中的其他模型進行至少50 次比較,以確保結果的準確性。程式設計評估試圖評估每個模型產生電腦程式碼的能力,排行榜顯示,OpenAI 的GPT-4 Turbo Preview 和GPT-4o 模型與Google的Gemini 1.5 Pro(I/O 後)並列第一。
之所以將它們並列第一,是因為Scale AI 只聲稱其評估分數的置信度為95%,而且前三名之間的差距很小。儘管如此,GPT-4 Turbo Preview 似乎略勝一籌,獲得了1155 分,GPT-4o 以1144 分位居第二,Gemini 1.5 Pro(Post I/O)獲得了1112 分。
在多語言領域,GPT-4o 和Gemini 1.5 Pro(Post I/O)並列第一,得分分別為1139 分和1129 分,GPT-4 Turbo 和Gemini Pro 1.5(Pre I/O)緊隨其後,並列第三。
GPT-4o 在”指令追蹤”領域也名列前茅,獲得88.57 分,GPT-4 Turbo Preview 以87.64 分名列第二。結果表明,Google在這一領域仍需努力,因為OpenAI 最接近的競爭對手是Meta Platforms 公司的開源Llama 3 70b Instruct(得分85.55)和Mistral 公司的Mistral Large Latest LLM(得分85.34)。
最後,Scale AI 測試了LLM 的數學能力。事實證明,Anthropic 的Claude 3 Opus 以95.19 的高分拔得頭籌,無可爭議地獲得了第一名,超過了95.10 的GPT-4 Turbo Preview 和94.85 的GPT-4o。
這些比較很有意思,但似乎還不能說明全部問題,因為有很多備受矚目的龍8國際娛樂城似乎沒有被納入評估範圍。例如,AI21實驗室公司的Jurassic和Jamba以及Cohere公司的Aya和Command LLM在所有四項評估中都明顯缺席,由埃隆-馬斯克(Elon Musk)的生成式人工智慧新創公司xAI Corp.建立的Grok模型也是如此。
好消息是,Scale AI 可能解決LLM排行榜不完整的問題。該公司表示,它打算每年多次更新排行榜,以確保與時俱進。它將在”可用時”添加新的前沿模型。此外,它還計劃在排行榜上添加新的領域,力爭成為最值得信賴的大模型第三方評估機構。