AI繪畫,為何聽不懂人話?
2023年的AI繪畫領域是由兩家公司的動態引爆的。3月17日百度發布文心一言,網友們瘋狂發散想像力,令人捧腹的圖片接連被生成。關於文心一言文字生成圖片的討論熱情空前高漲。緊接著,3月18日,美國Midjourney公司宣布第五版AI圖像生成服務,即MidjourneyV5。本來就處在行業領先水平的Midjourney,這一次版本更新真正讓AI繪畫圈沸騰了。因為MidjourneyV5生成的圖片堪稱驚艷。
兩個系統幾乎同時發布,免不了被對比。深燃體驗後發現,文心一言的圖片生成功能,能夠識別簡單元素、文本沒有歧義的人或事物,但涉及到成語、專有名詞,以及字面意思和實際意義不同的表述,它就會跑偏。Midjourney在這方面幾乎沒什麼問題。另外,Midjourney接收到的提示詞(prompt)越詳細精準,生成的圖片越符合要求,但文心一言需求越多,系統越容易出錯。
調侃背後,AI生成圖片其實不是一件簡單的事情,需要在數據、算法、算力等方面綜合發力,既對技術和硬件有高要求,還對數據採集和標註等苦活累活高度依賴。文心一言的AI繪圖功能與Midjourney在以上三方面都有不小的差距。
百度方面公開表示,“大家也會從接下來文生圖能力的快速調優迭代,看到百度的自研實力。文心一言正在大家的使用過程中不斷學習和成長,請大家給自研技術和產品一點信心和時間。”從業者預估,文心一言全力追趕,用一年左右的時間有希望達到國外80%以上的水平。
AI繪圖這個戰場,槍聲已經打響,追逐賽、排位賽都將一輪輪上演。
搞不定成語和專有名詞,
提示詞越多AI越廢
文心一言最近接受的最大考驗,莫過於畫一幅中餐菜名圖。在網友們的熱情創作下,驢肉火燒、紅燒獅子頭等菜品出來的畫做一個比一個離譜,車水馬龍的街道、虎頭虎腦的大胖小子,同樣驚掉了大家的下巴。
網友體驗文心一言時截圖,目前已更新
網民熱心找bug,百度程序員應該也在背後發力,深燃測試發現,以上內容均已更新為可以正確顯示對應圖片。不過,像娃娃菜、臉盆、虎皮雞蛋、三杯雞,還有胸有成竹的男人、虎背熊腰的男人,文心一言仍然給出的是字面直譯後的圖片,畫風一言難盡。
深燃截圖
即便輸入提示詞時強調“畫一個衛浴器材水龍頭”,文心一言畫出的仍然是水中龍的頭像;當深燃輸入“畫一個風姿綽約的人”時,系統畫出的是一位男士,顯然AI沒能理解風姿綽約形容的是女人。
深燃截圖
程序員改bug的速度比不上網友找漏洞的速度。很快又有人發現,文心一言畫圖時有把提示詞中譯英之後根據英文意思生成圖片的可能性,據此有人推測百度可能用國外的作圖產品接口,套了一個自己的殼。
深燃也驗證了一下某用戶的測試。比如輸入“水瓜”,畫出的是西瓜,這也對應西瓜的英文單詞Watermelon;要求畫樹葉、封面、蘋果,畫出的圖是樹葉覆蓋蘋果,顯然系統是把封面翻譯成了Cover,這個單詞也有覆蓋的意思;畫“土耳其張開翅膀”,出現的畫面是張開翅膀的火雞,我們都知道,Turkey是土耳其,也是火雞。
深燃截圖
對此,百度對外回應稱,文心一言完全是百度自研的大語言模型,文生圖能力來自文心跨模態大模型ERNIE-ViLG。“在大模型訓練中,我們使用的是全球互聯網公開數據,符合行業慣例。”
亞洲視覺科技研發總監陳經也在接受媒體採訪時表示,“百度的畫圖AI採用了英文標註的開源圖片素材進行訓練,因此需要中翻英來當prompt(提示詞)。目前,全球AI研發有開源的傳統,特別是訓練數據庫,不然收集圖片效率太低了。”
深燃體驗後還發現,文心一言在單個需求描述時表現尚可,比如畫一幅憤怒的小孩、開心的農民、一隻很餓的流量貓,但一幅圖一旦提出多個作圖需求,AI就有點懵。
比如請文心一言“生成一幅畫,在一個下雨天,小紅在植樹,小王在看書”,系統生成的圖片裡只有背靠樹看書的一個人;還有,“畫一幅畫,裡面有大笑的年輕人、哭泣的小孩、愁容滿面的老人”,系統把哭泣和愁容滿面等表情集合在了一張臉上,畫出了一個小孩和老人的結合體。如下圖所示,還有一些類似的情況,系統同樣沒能準確完成給出的指令。
深燃截圖
深燃又把上述提示詞輸入到MidjourneyV4測試了一下,如下圖所示,即使是V4版本,表現也遠高出文心一言。MidjourneyV4基本能理解句子中的意思,做出的圖幾乎可以包含所有的要素。
深燃體驗MidjourneyV4後截圖
深燃還測試了AI繪畫領域一直以來難以攻克的畫手指難的問題。在這方面,文心一言也沒能經受住考驗。比如“畫一位30歲的女士,雙手豎起大拇指”,文心一言生成的圖片大拇指是豎起來了,但是其中一隻手有7根手指;輸入“畫一個人,兩隻手做點贊姿勢”時,系統也無法實現這一手部姿勢。
深燃截圖
Midjourney此前的版本同樣存在手指誤差的問題,最新發布的V5版本,已經能夠正確畫出五根手指,雖然有人依舊指出其繪出的大拇指有點長,但相比以往已經有不小的進步。有從業者評價:“Midjourney的此前版本就像是近視患者沒有戴上眼鏡,而MidjourneyV5就是戴上眼鏡後的清晰效果,4K細節拉滿”。
比如MidjourneyV5畫出的《三體》角色圖,效果被網友評價為幾乎要“成精了”。而文心一言畫《三體》角色時,系統全然不顧描述裡提到的留著黑色短髮、戴著眼鏡的要求,畫出了一個扎著髮髻,不戴眼鏡,古風穿著的男士。
上圖為MidjourneyV5生成的三體角色圖圖片來源/ Ai總編推書
下圖為文心一言作圖/ 深燃截圖
最近MidjourneyV5畫的一對情侶的圖片掀起了業內一陣驚呼。作圖的提示詞是:“一對年輕的情侶穿著牛仔褲和夾克坐在樓頂上”,背景分別是2000年和2023年的北京。最後出圖的效果大大超出很多人的想像。深燃把類似表述輸入文心一言時,系統直接給出了毫不相關的圖片。
左圖為MidjourneyV5作圖 圖片來源/ 量子位
右為深燃對比體驗文心一言截圖
對比來看,Midjourney作圖已經在細節上幾近完美了,文心一言還處在難以準確分辨字面意思和實際意思的初級階段。Midjourney提示詞描述越詳細,生成的圖片越精準,文心一言能理解的文字長度有限,過多描述會讓它直接報錯或者胡亂生成圖片。
AI文生圖到底有多難?
按出現時間來算,AI繪畫算是AI領域的新事物。
公開報導顯示,2021年1月,OpenAI發布了兩個連接文本與圖像的神經網絡:DALL・E和CLIP。DALL・E可以基於文本直接生成圖像,CLIP能夠完成圖像與文本類別的匹配。DALL・E是基於GPT-3的120億參數版本實現的。
隨後在2022年,DALL·E 2、Stable Diffusion等文生圖底層大模型發布,帶動了應用層的發展,出現了一大批爆款產品,包括Midjourney。2022年也被認為是“AI繪畫元年”。
StabilityAI的Stable Diffusion是一個開源模型,很多開發者基於這個模型開發訓練出了更多不同的生成模型。國內很多科技公司的AI繪畫項目也是由Stable Diffusion提供技術支撐。Midjourney是付費訂閱的,公開信息顯示,Midjourney每年的收入可能達到1億美元左右。另外,有AI繪圖業務的還有Google、Meta等公司。百度的文心一言和此前就發布的文心一格算是國內最早的具備AI繪畫功能的大模型。
文心一言的發布和升級了的MidjourneyV5更是將AI繪畫行業推向高潮。這一次迭代是Midjourney自去年推出以來最大的更新,Midjourney也成了目前市面上最先進的AI圖像生成器之一。
熱度還在繼續。最近,行業內又有一系列企業跟進推出AI繪畫功能。3月21日,微軟宣布,必應搜索引擎接入了OpenAI的DALL·E模型,將AI圖像生成功能引入新版必應和Edge瀏覽器,免費開放。就在同一天,Adobe發布AI模型Firefly,支持用文字生成圖像、藝術字體。
可以說,2023年,AI繪畫行業迎來了真正的大爆發。
調侃文心一言之餘,客觀來說,AI生成圖片本身就不是一件容易實現的事情。系統的語義理解能力、充分的數據標註、細節處理、用戶的提示詞選擇,都在AI作圖中起著重要作用。
AI領域資深從業者郭威告訴深燃,之前AI生成圖片只需要確認風格、物品等,用GAN(生成式對抗網絡)生成圖片。文心一言和Midjourney這一代模型的做法是先理解自然語義,再生成圖片。把自然語言輸入到系統裡,AI對語義的理解和人類的理解不可避免會有偏差。
“更大的難點,還是標註數據。語義比詞組的空間更大,需要大量數據,而且標註難度和成本更高。”郭威說。
很多人以為,系統生成圖片有誤時,後台改一個標註就能矯正系統了。比如生成“驢肉火燒”出了錯,只是告訴系統這是一道菜,而不是一頭驢就行了,但這種方式只是一對一修改而沒有一層層訓練,修正了單個錯誤,並不會增強系統的理解能力,治標不治本。
也就是說,即便是有大量開源的全球數據庫圖片可以用,國內的系統在中文提示詞與英文素材對應方面還需要做大量工作。
另外,AI生成的圖片極難完善眼睛、手、腳等部位細節。一直以來,行業內就有“AI不會畫手”的說法,很多人判斷是不是AI作圖,就看圖片中的手畫得怎麼樣。“因為深度學習神經網絡沒有足夠的數據學習手指與手指之間的架構邏輯,加上手指關節間特徵屬於細小顆粒度,生成的手容易出錯。”資深AloT算法從業者連路詩說。目前除了MidjourneyV5,其他AI作圖產品細節方面的問題還沒有完全解決。
到了最終生成圖片環節,用戶選擇用什麼提示詞(prompt)和風格(style)來生成想要的圖片也很重要,新用戶往往不得方法,很難找到精準的提示詞或足夠契合的風格。
此外,目前的AI繪圖產品還存在一些共同的挑戰。
連路詩提到,一方面是時效性不夠,目前AI繪畫知識庫的更新、數據的引入不完全是實時的,如果加入實時性數據,需要巨大的成本;另一方面,目前各系統對數據過濾的嚴謹程度不一樣,有的設置了相對嚴格的禁用詞,有的沒有,法律或道德邊界不清。
還有一個是AI繪圖帶來的版權問題。目前行業內大部分企業不對外宣布自己用來訓練AI的圖片來源,這樣的AI生成圖片商用時,可能存在未知的法律風險。且目前AI作的圖也不受版權保護。
多久才能追上?
行業共性問題之外,根據多位從業者的說法,在數據、算法、算力三方面,文心一言都跟Midjourney差距不小。
數據方面,文心一言數據的數量和質量都需要提升。
連路詩解釋,NLP(即natural language process,自然語言處理)分成幾個過程,第一步是自然語言理解,比如,實體識別,系統會根據專屬名詞生成自己的理解;接下來是自然語言生成,包括生成文字和圖片。大多數問題出在對自然語言的理解不准確,這時候就需要人工對句子進行數據處理、參數調整等。
“中文本身難在字與字之間沒有間距,人工分詞一方面要隔開字詞的間距,同時要界定動詞、名詞等詞性,還要標註主語、謂語、賓語,以及是否為常用詞等”,連路詩補充,“分詞需要龐大的人力投入,一般一個小組至少需要5000人。AI公司通常把這一需求外包給人力成本較低的省份的公司,另外,AI生成圖片的結果也需要人類的反饋增強學習。”
基礎標註工作做好之後,系統會將這些詞轉成向量進行計算,向量越不准確,生成的結果越模糊。“目前百度可能做了一部分工作,但還沒達到能準確理解大部分語義的程度,可以判定為不及格。”連路詩說。
陳經也提到,大模型需要的數據庫裡的“圖片是要標註的,這更加大了收集整理圖片的難度。當前也有中文標準的訓練數據,但是少很多。由於發佈時間倉促,百度對於畫圖AI的中文輸入詞還沒完全搞定,後續應該會根據用戶反饋,把中文的提示詞與英文的訓練素材更好的對應上。”
第二大差距是算法。
算法方面,各公司在底層大模型的使用層數上有差別。連路詩認為,以文心一言目前在算法方面的表現來看,有可能與Midjourney等模型的深度神經網絡的層數有十倍左右的差距。
“AI生成圖片不准確還有一種可能性,該系統的底層架構不是深度神經網絡,也沒有根據底層Vector(向量)一點點像素級生成圖片,而是系統先用搜索引擎匹配知識圖譜,再生成圖像,也可以理解為拼湊貼圖。神經網絡在對圖片進行計算的時候,本來就有圖片的旋轉、切割、拼湊,這樣的系統生成的圖片有可能是顆粒度很粗的片狀圖片拼湊出來的。”連路詩做了這樣的推測。不過,文心一言屬於哪種技術還不清楚。
第三,算力上的差距。OpenAI號稱自己的模型是千億規模參數,也就是每次計算的時候擁有1000張以上顯卡分佈式計算的算力。百度與國外幾家主要科技企業的算力差距同樣不小。
當然,百度和Midjourney目前的發展程度不一,與其發展階段也有關係。
Midjourney於2022年3月首次面世,目前已經迭代到了第五代。百度文心一言所具備的AI作圖功能,即文心一格,雖然在2022年8月就推出了,但目前沒有看到相關的升級迭代信息。而在AI領域,變化幾乎是以天為單位的。
國內AI繪圖多久能趕上國際水平?郭威對此比較樂觀。在他看來,“數據方面雖然有差異,但最多也只有半年左右的差距,中文類的數據國內比國外更多,拼命補一下能趕上。”
至於算法差異,他表示,OpenAI等幾家機構比Google、Facebook、百度等高出半年到一年的水平,之前因為不確定性大,各企業沒有重點佈局,現在驗證這條路是有前途的,針對性追趕,很快也能趕上。雖然OpenAI沒開源,但從OpenAI出來的一些人很快也會把技術思路共享到小圈子裡,頭部公司很容易跟進。
“算力的差距就很難彌補了,短期內難追上去,但是用一年多時間把國內系統做到國外80分或90分以上的程度是可能的。”郭威說。
無論如何,接下來,AI繪畫將會走到舞台中央大放異彩是確定的事實,對各公司來說,拼的是速度。行業規則是公開的,所有選手都在往前跑,這時候,競爭是最大的動力,拿結果說話才是硬道理。
*題圖及文中配圖來源於pexels。應受訪者要求,文中郭威為化名。