Midjourney亮文生圖殺器設計師、攝影師飯碗難保?下一步將是文生視頻
預告3個月後,熱門文生圖模型Midjourney終於上線了最新版本,當地時間12月21日,Midjourney在Discord上宣布其最新版本V6的測試版發布,目前處於alpha測試階段。從使用者大量的範例來看,V6對於寫實圖片、抽象畫作手到拈來,效果不輸設計師、攝影師。
Midjourney將V6定位為重大革新成果,其執行長DaVid Holz稱,V6實際是在AI超級集群上從零開始訓練而成的第三套模型,整個開發週期長達九個月,「這套模型生成的圖像在真實度方面遠超我們以往發布的任何版本。」根據官方介紹,V6的主要變化在於畫面質量更好、語義理解更強、能嵌入文本、容納更多提示詞且連貫性更高,模型知識也更為豐富。
根據用戶測試,V6現在支援的提示詞長度超過350個字符,甚至能夠理解標點和語法的細微差別。就目前網友展示的影像來看,在理解力以及光影、構圖、材質、色彩等細節方面,V6的確比上一代產品更上一層樓。
用同樣的Prompt測試V6和V5.2,比較非常明顯(上圖為V6生成;下圖為V5.2生成):
主要提示詞:1980年代的懸疑電影,仰拍,身穿黑色西裝的法國管家在維多利亞式豪宅的走廊中手握蠟燭
主要提示詞:1960年代的街頭風格照片,需要畫出一位年輕女子穿著綠色絲綢洋裝、戴著珍珠項鍊坐在帆船上
主要提示詞:1940年代復古科幻電影中身穿高領銀色操作衣的女操作員
主要提示詞:街角酒吧的霓虹燈上寫著“營業至深夜”
主要提示詞:雨坑中日落的倒影
主要提示詞:一鍋燉菜,配一個木勺
在文字生成上,V6可以在圖像中更明確地嵌入文本,甚至可以規定其風格。
註:可口可樂原文:CocaCola


還原毛衣質感、動物毛髮、窗戶上的雨滴
長文本的處理也更好
產品logo圖
不同工具的文字產品設計圖對比
此性能提升可望為設計、行銷產業帶來更大增益。據了解,一些跨國電商從業人員早已使用文生圖大模型來製作商品介紹頁、模特兒展示圖,Midjourney是最常用的工具。
另外,V6會「畫手」了。先前AI繪畫一直被詬病不真實,尤其是人物手部細節,常會出現畸形。但隨著V5推出,它完美解決了這個技術難題,甚至還能呈現手部的指紋、皮膚紋路,實現了AI繪畫的一次跨越性突破。下圖是一些手部畫作:



目前,V6還缺少V5.2模型中的一些功能,包括左右平衡和縮小,但Holz表示這些功能將在V6的後續更新中實現。
V6不會是Midjourney的終點,該產品一直處於迭代中,2022年3月份上線第一版,而後迅速進化到如今的第六版,平均每3個月更新一次。在Midjourney的公告中,他們表示:V6的速度、影像品質、連貫性、提示遵循和文字準確性在未來幾週內應該會提高。而V6 beta在發布半小時後宣布了第一次更新,生成速度提升了2.7倍。
此前該公司也表示,未來的技術更新方向包括產生3D及視訊。Holz預測,未來可能實現以每秒30幀的高解析度即時生成內容,並且到2030年,可能會實現整個視訊遊戲的生成。
值得一提的是,創始人David Holz據稱多次拒絕了風險投資人遞來的橄欖枝,在過去的一年裡,Midjourney在Discord平台上的用戶數量從200萬增長到了1767萬,每天有超100萬人上線(截至發稿),且該產品早已開啟付費模式,用戶可以根據不同套餐選擇,每月收費10至120美元,憑藉40名員工組成的團隊,Midjourney在9月份成功實現年盈利2億美元。