蘋果”Ferret” – 新的開源機器學習模型
為蘋果公司工作的研究人員和來自哥倫比亞大學的研究人員在10月份悄然推出了開源多模態LLM,這是一個名為”Ferret”的研究版本,可以使用圖像區域進行查詢。Ferret 於10 月在Github 上發布,在很大程度上沒有引起人們的注意,也沒有發布任何公開發布或宣傳操作。Ferret 的程式碼於10 月30 日與Ferret-Bench 一起發布,並於12 月14 日推出了檢查點版本。
根據VentureBeat 報導,雖然一開始沒有受到太多關注,但周六的發布對人工智慧研究人員來說卻成了一件大事。一家人工智慧醫學非營利組織的運營商巴特-德-維特(Bart De Witte)在X 上發布了關於這個”錯過的”版本的帖子,稱其為”蘋果致力於有影響力的人工智能研究的證明”。
Ferret 的開源發布是在非商業許可下進行的,因此它目前的狀態無法商業化。不過,它總有可能以某種方式用於未來的蘋果產品或服務中。
蘋果公司AI/ML 研究科學家甘哲在10 月發布的一條推文中解釋了Ferret 的用途,即它是一個可以在圖像中”以任何粒度對任何地方的任何東西進行參照和定位”的系統。它還可以透過使用影像中任何形狀的區域來做到這一點。
簡單地說,該模型可以分析圖像上繪製的區域,確定其中對使用者查詢有用的元素,並將其識別出來,在檢測到的元素周圍繪製一個邊界框。然後,它就可以將識別出的元素用作查詢的一部分,並以典型的方式回應。
例如,高亮顯示影像中的動物圖片並詢問LLM 這是什麼動物,LLM 可以確定該動物的種類,並確定使用者所指的是動物群中的某隻動物。然後,它還可以利用影像中偵測到的其他項目的上下文,提供進一步的回應。
這次發布對研究人員來說非常重要,因為它表明蘋果希望在人工智慧工作上更加開放,而不是像以往那樣採取神秘的姿態。
對於蘋果來說,基礎設施也是一個問題,因為雖然它正在努力增加其擁有的人工智慧伺服器的數量,但目前可能還沒有足夠的規模來與ChatGPT 等公司競爭。雖然蘋果可以與其他公司合作來擴展自己的能力,但另一條路就是像它剛剛所做的那樣,即發布一個開源模型。
從Github 發布的信息中可以發現一個有趣的現象,Reddit 的r/Apple 發現Ferret 是”在8 個A100 GPU 和80GB 內存上進行訓練的”。鑑於蘋果對NVIDIA GPU 支援的歷史,這被認為是對GPU 生產商的罕見認可。