蘋果發佈人工智慧模型MGIE 可根據自然語言輸入編輯圖片

2024-02-08 Comments 0 Comment

蘋果公司的研究人員發布了一個新的開源人工智慧模型，它能夠根據用戶的自然語言指令編輯圖像。 MGIE 是MLLM-Guided Image Editing 的縮寫，它使用多模態大型語言模型(MLLM) 來解釋使用者請求並執行像素級操作。

該模型能夠編輯圖像的各個方面。全域照片增強可包括亮度、對比或銳利度，或套用素描等藝術效果。局部編輯可以修改影像中特定區域或物件的形狀、大小、顏色或紋理，而Photoshop 風格的修改則包括裁剪、調整大小、旋轉和添加濾鏡，甚至是更改背景和混合影像。

使用者對一張披薩照片的輸入可能是”讓它看起來更健康”。利用常識推理，模型可以添加蔬菜配料，如番茄和香草。全域最佳化輸入請求的形式可以是”增加對比度，模擬更多光線”，而Photoshop 風格的修改可以是要求模型將人物從照片背景中移除，將影像的焦點轉移到拍攝對象的臉部表情。

蘋果與加州大學的研究人員合作創建了MGIE，並在2024 年國際學習表徵會議（ICLR）上發表了一篇論文。此模型可在GitHub 上取得，包括程式碼、資料和預訓練模型。

這是蘋果公司幾個月來在人工智慧研究領域的第二次突破。 12 月底，蘋果透露，透過發明一種創新的快閃記憶體利用技術，它在iPhone 和其他記憶體有限的蘋果設備上部署大型語言模型(LLM) 方面取得了長足進步。

在過去的幾個月裡，蘋果一直在測試一種可以與ChatGPT 競爭的”Apple GPT”。據彭博社的馬克-古爾曼（Mark Gurman）稱，人工智慧工作是蘋果公司的一個優先事項，該公司正在為大型語言模型設計一個”Ajax”框架。

The Information和分析師傑夫普（Jeff Pu）都聲稱，蘋果將在2024 年底左右在iPhone 和iPad 上推出某種生成式人工智慧功能，也就是iOS 18 上市的時候。據古爾曼稱，iOS 18 據說將包括一個增強版Siri，具有類似ChatGPT 的生成式人工智慧功能，並有可能成為iPhone 歷史上”最大的”軟體更新。

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29

WONGCW 網誌

記錄生活經驗與點滴

蘋果發佈人工智慧模型MGIE 可根據自然語言輸入編輯圖片

2024-02-08 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆