蘋果發佈人工智慧模型MGIE 可根據自然語言輸入編輯圖片
蘋果公司的研究人員發布了一個新的開源人工智慧模型,它能夠根據用戶的自然語言指令編輯圖像。 MGIE 是MLLM-Guided Image Editing 的縮寫,它使用多模態大型語言模型(MLLM) 來解釋使用者請求並執行像素級操作。
該模型能夠編輯圖像的各個方面。全域照片增強可包括亮度、對比或銳利度,或套用素描等藝術效果。局部編輯可以修改影像中特定區域或物件的形狀、大小、顏色或紋理,而Photoshop 風格的修改則包括裁剪、調整大小、旋轉和添加濾鏡,甚至是更改背景和混合影像。
使用者對一張披薩照片的輸入可能是”讓它看起來更健康”。利用常識推理,模型可以添加蔬菜配料,如番茄和香草。全域最佳化輸入請求的形式可以是”增加對比度,模擬更多光線”,而Photoshop 風格的修改可以是要求模型將人物從照片背景中移除,將影像的焦點轉移到拍攝對象的臉部表情。
蘋果與加州大學的研究人員合作創建了MGIE,並在2024 年國際學習表徵會議(ICLR)上發表了一篇論文。此模型可在GitHub 上取得,包括程式碼、資料和預訓練模型。
這是蘋果公司幾個月來在人工智慧研究領域的第二次突破。 12 月底,蘋果透露,透過發明一種創新的快閃記憶體利用技術,它在iPhone 和其他記憶體有限的蘋果設備上部署大型語言模型(LLM) 方面取得了長足進步。
在過去的幾個月裡,蘋果一直在測試一種可以與ChatGPT 競爭的”Apple GPT”。據彭博社的馬克-古爾曼(Mark Gurman)稱,人工智慧工作是蘋果公司的一個優先事項,該公司正在為大型語言模型設計一個”Ajax”框架。
The Information和分析師傑夫普(Jeff Pu)都聲稱,蘋果將在2024 年底左右在iPhone 和iPad 上推出某種生成式人工智慧功能,也就是iOS 18 上市的時候。據古爾曼稱,iOS 18 據說將包括一個增強版Siri,具有類似ChatGPT 的生成式人工智慧功能,並有可能成為iPhone 歷史上”最大的”軟體更新。