Midjourney亮文生圖殺器設計師、攝影師飯碗難保？下一步將是文生視頻

2023-12-24 Comments 0 Comment

預告3個月後，熱門文生圖模型Midjourney終於上線了最新版本，當地時間12月21日，Midjourney在Discord上宣布其最新版本V6的測試版發布，目前處於alpha測試階段。從使用者大量的範例來看，V6對於寫實圖片、抽象畫作手到拈來，效果不輸設計師、攝影師。

Midjourney將V6定位為重大革新成果，其執行長DaVid Holz稱，V6實際是在AI超級集群上從零開始訓練而成的第三套模型，整個開發週期長達九個月，「這套模型生成的圖像在真實度方面遠超我們以往發布的任何版本。」根據官方介紹，V6的主要變化在於畫面質量更好、語義理解更強、能嵌入文本、容納更多提示詞且連貫性更高，模型知識也更為豐富。

根據用戶測試，V6現在支援的提示詞長度超過350個字符，甚至能夠理解標點和語法的細微差別。就目前網友展示的影像來看，在理解力以及光影、構圖、材質、色彩等細節方面，V6的確比上一代產品更上一層樓。

用同樣的Prompt測試V6和V5.2，比較非常明顯（上圖為V6生成；下圖為V5.2生成）：

主要提示詞：1980年代的懸疑電影，仰拍，身穿黑色西裝的法國管家在維多利亞式豪宅的走廊中手握蠟燭

主要提示詞：1960年代的街頭風格照片，需要畫出一位年輕女子穿著綠色絲綢洋裝、戴著珍珠項鍊坐在帆船上

主要提示詞：1940年代復古科幻電影中身穿高領銀色操作衣的女操作員

主要提示詞：街角酒吧的霓虹燈上寫著“營業至深夜”

主要提示詞：雨坑中日落的倒影

主要提示詞：一鍋燉菜，配一個木勺

在文字生成上，V6可以在圖像中更明確地嵌入文本，甚至可以規定其風格。

註：可口可樂原文：CocaCola

還原毛衣質感、動物毛髮、窗戶上的雨滴

長文本的處理也更好

產品logo圖

不同工具的文字產品設計圖對比

此性能提升可望為設計、行銷產業帶來更大增益。據了解，一些跨國電商從業人員早已使用文生圖大模型來製作商品介紹頁、模特兒展示圖，Midjourney是最常用的工具。

另外，V6會「畫手」了。先前AI繪畫一直被詬病不真實，尤其是人物手部細節，常會出現畸形。但隨著V5推出，它完美解決了這個技術難題，甚至還能呈現手部的指紋、皮膚紋路，實現了AI繪畫的一次跨越性突破。下圖是一些手部畫作：

目前，V6還缺少V5.2模型中的一些功能，包括左右平衡和縮小，但Holz表示這些功能將在V6的後續更新中實現。

V6不會是Midjourney的終點，該產品一直處於迭代中，2022年3月份上線第一版，而後迅速進化到如今的第六版，平均每3個月更新一次。在Midjourney的公告中，他們表示：V6的速度、影像品質、連貫性、提示遵循和文字準確性在未來幾週內應該會提高。而V6 beta在發布半小時後宣布了第一次更新，生成速度提升了2.7倍。

此前該公司也表示，未來的技術更新方向包括產生3D及視訊。Holz預測，未來可能實現以每秒30幀的高解析度即時生成內容，並且到2030年，可能會實現整個視訊遊戲的生成。

值得一提的是，創始人David Holz據稱多次拒絕了風險投資人遞來的橄欖枝，在過去的一年裡，Midjourney在Discord平台上的用戶數量從200萬增長到了1767萬，每天有超100萬人上線（截至發稿），且該產品早已開啟付費模式，用戶可以根據不同套餐選擇，每月收費10至120美元，憑藉40名員工組成的團隊，Midjourney在9月份成功實現年盈利2億美元。

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

WONGCW 網誌

記錄生活經驗與點滴

Midjourney亮文生圖殺器設計師、攝影師飯碗難保？下一步將是文生視頻

2023-12-24 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆