蘋果推出更強大的DataComp-LM開源模型目前處於社群研究專案階段
蘋果公司的” Apple Intelligence “研究團隊發布了兩個用於訓練人工智慧生成器的小型但性能卓越的新語言模型。機器學習團隊與業界其他團隊一起參與了語言模型開源DataComp 項目,最近開發的兩個模型可與Llama 3 和Gemma 等其他領先的訓練模型相媲美,甚至更勝一籌。
這些語言模型透過提供標準框架,用於訓練人工智慧引擎,如ChatGPT。這包括架構、參數和資料集過濾,以便為人工智慧引擎提供更高品質的資料。
蘋果提交給該專案的文件包括兩個模型:一個較大的模型有70 億個參數,另一個較小的模型有14 億個參數。蘋果的團隊表示,在基準測試中,較大的模型比之前的頂級模型MAP-Neo 性能高出6.6%。
DataComp-LM 模型完成這些基準測試所需的運算能力降低了40%。在使用開放資料集的模型中,此模型表現最佳,與使用私有資料集的模型相比也很有競爭力。
更值得注意的是,蘋果公司完全開放了其模型–資料集、權重模型和訓練程式碼都可供其他研究人員使用。在大規模多任務語言理解基準測試(MMLU)中,較大和較小的模型都取得了很好的成績,足以與商業模型相抗衡。
蘋果較大資料集的基準測試結果證明,與其他機型相比,它具有很強的競爭力。在今年6 月舉行的WWDC 大會上,蘋果首次發布了Apple Intelligence 和Private Cloud Compute,這讓那些聲稱蘋果在其設備中應用人工智慧方面落後於業界的批評者啞口無言。機器學習團隊在大會前後發表的研究論文證明,蘋果實際上是人工智慧產業的領導者。
蘋果團隊發布的這些模型並不打算用於任何未來的蘋果產品。它們是社區研究項目,旨在展示用於訓練人工智慧模型的小型或大型資料集的改進效果。
蘋果公司的機器學習團隊先前曾與更廣泛的人工智慧社群分享研究成果。這些資料集、研究筆記和其他資產都可以在HuggingFace.co 上找到,這是一個致力於擴大人工智慧社群的平台。