OpenAI發布新文生圖模型免費、逼真到難以分辨
今天凌晨2點,OpenAI進行了技術直播,對GPT-4o和Sora進行了重大更新,提供了全新文生圖模型。除了文生圖之外,此模型還支援自訂操作、連續發問、風格轉換、影像PPT等超實用功能,例如,變更圖片的寬高比、影像物件中的角度,以十六進位代碼指定精確顏色等。
尤其是生成影像的逼真度,肉眼幾乎看不出任何破綻,在精細度、細節和文字遵循方面非常出色,可以媲美甚至在某些功能超過該領域的頭部平台Midjourney。

新圖像模型功能展示
話不多說,「AIGC開放社群」就用免費版為大家展示一下實際的生成案例。
我們先測試模型的文字還原和細節表現,來個複雜點的提示詞
提示詞:一個由甜點組成的奇幻世界,地面是柔軟的奶油草坪,樹木是用巧克力棒和糖果製作的,樹葉是五彩繽紛的果凍。天空中漂浮著巨大的棉花糖雲,遠處有一個冰淇淋火山正在噴湧彩色的糖漿。
場景中還有一座用蛋糕堆砌的小屋,屋頂是草莓醬,窗戶是糖玻璃,細節包括散落的糖粒、路上的巧克力碎片,以及跳躍的小糖果精靈。

構圖、文字還原能力非常棒!一次就完成,生成時間大約在15秒左右。

再試一下它的新功能,其實OpenAI官方說這是一個「世界知識」功能,但是使用之後感覺更像是一個圖像PPT功能,對於教育、金融、醫療等領域幫助非常大。
例如,幫我用圖像介紹牛頓第一定律。就能直接生成詳細介紹牛頓定律的影像,感覺跟PPT差不多吧。


提示詞:用一張圖片介紹人體各個結構。
這個人體介紹圖就豐滿很多,放在醫療介紹或PPT裡應該不錯吧。以後做各種宣傳資料不愁找不到量身訂做的圖片了。


如果不滿意,可以基於該圖片繼續發問,例如,我們想看上面人體介紹的骨骼。提示詞:可以詳細展示骨骼介紹嗎?


我們放大手部骨骼,繼續提問:來一張手部骨骼的特寫。


要注意的是,圖像的文字介紹可能比較模糊或混亂,這是因為中文提示的原因,如果使用英文會好很多。
那我們就用英文提示詞來試一下,In a study filled with a retro atmosphere, on the corkboard beside the wooden desk, magnetic word – spelling cards fixed with colorful pushpins form a unique poem:
第 1 行:“旋律”
第 2 行:“可以喚醒”
第三行:“沉睡的記憶,”
第四行:「然而,偶爾」(此處有很大空白)
第五行:“在一個寂靜的夜晚”
第六行:“將會深化”
第七行:“那種渴望。”
文字的嵌入和排列順序還是相當不錯的。

這個提示詞的大意是,在一間充滿復古氛圍的書房裡,木質書桌旁的軟木板上,掛著用彩色圖釘固定的磁性拼詞卡片,組成一首獨特的詩:第一行:“一段旋律” 第二行:“能喚醒” 第三行:“沉睡的記憶,” 第四行:“然而偶爾” (此處有較大間隔)第五行:“沉睡的記憶,” 第四行:“然而偶爾” (此處有較大間隔)第五行:“沉睡的記憶,” 第四行:“然而偶爾” (此處有較大間隔)第五行:“沉睡的記憶,”第

上面只是一些非常簡單、基本的玩法,有興趣朋友可以體驗一下非常棒。
對於新的文生圖模型,OpenAI聯合創辦人兼執行長Sam Altman也給了非常高的評價。
這是一項令人難以置信的產品。我還記得看到這個模型最初生成的一些圖像時,很難相信它們真的是由人工智慧創作的。我們認為大家會喜歡它,並且很期待看到由此激發的創造力。
這代表著我們在給予創作自由方面達到了一個新的高度。人們將會創作出一些非常了不起的作品,也會有一些可能冒犯他人的內容;我們的目標是,除非用戶有此需求,否則該工具不會生成冒犯性內容,即便有此需求,生成的內容也需在合理範圍內。
正如我們在模型規格說明中所提到的,我們認為將這種知識創作自由和控制權交到使用者手中是正確的做法,但我們也會觀察其發展並傾聽社會的聲音。
我們認為,尊重社會最終為人工智慧設定的廣泛界線是正確的做法,而且隨著我們離通用人工智慧越來越近,這一點也變得越來越重要。過程中,感謝大家的體諒。

新圖像模型簡單介紹
根據直播介紹,非自回歸生成是OpenAI新影像模型的核心之一,也是提升圖片品質、生成效率的關鍵技術。
傳統的影像生成方法,尤其是基於自回歸模型的技術,通常是透過逐步生成影像的每個像素或部分來建立最終的影像。這種方法雖然在某些情況下能夠產生高品質的影像,但其生成過程往往較為緩慢,並且容易在生成過程中出現累積錯誤,導致最終影像的品質下降。
此外,自回歸生成方法在處理複雜的圖像結構時也存在一定局限性,因為它們需要在每一步生成過程中都依賴先前生成的內容,這使得模型難以全局性地理解和優化圖像的整體結構。
相較之下,非自回歸生成模組採用了全新的思維。不再依賴逐像素的生成過程,而是直接產生整個影像。這個過程的關鍵在於模型能夠一次地理解和處理影像的整體結構和細節。非自回歸生成模組透過特殊的編碼器-解碼器架構來實現這一目標。
編碼器負責將輸入的文字描述或其他模態資訊轉換為一種中間表示,包含了生成圖像所需的所有關鍵資訊。然後,解碼器利用這種中間表示直接產生完整的圖像,而無需逐像素地建立圖像。
這種直接生成完整圖像的方式帶來了許多優勢。首先,非自回歸生成模組的生成速度遠遠超過了傳統的自回歸方法。由於無需逐像素生成,模型能夠在短時間內生成高品質的影像,這對於即時應用和大規模影像生成任務具有重要意義。例如,在需要快速產生大量影像的設計場景或教育場景中,非自回歸生成模組能夠顯著提高工作效率。
此外,非自回歸生成模組在生成影像的品質上也表現出色。由於模型能夠一次性地理解和處理影像的整體結構,因此產生的影像在細節和一致性方面都得到了顯著提升。
例如,在產生複雜場景的影像時,非自回歸生成模組能夠更好地處理影像中的多個物件及其相互關係,生成的影像更加自然和逼真。此外,非自回歸生成模組還能夠更好地處理文字指令中的複雜語義訊息,產生與文字描述高度一致的圖像。
非自回歸生成模組的另一個重要特點是其在多模態融合中的應用。在ChatGPT 4.0模型中,非自回歸生成模組不僅能夠根據文字描述產生圖像,還能夠結合其他模態的信息,如音訊或已有的圖像,產生更豐富和多樣化的圖像內容。
這種多模態融合的能力使得模型能夠更好地理解和滿足使用者的需求。例如,使用者可以提供一段音訊描述和一個參考影像,非自回歸生成模組能夠結合這些資訊來產生一張符合音訊描述且風格與參考影像一致的新影像。
從今天開始,新的文生圖模型在ChatGPT和Sora中開始向所有Plus、Pro、Team和免費用戶推出。企業版、教育版和API即將到來。