Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
    • WordPress 插件及主題下載
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

DALL·E 3必開測:馬騎太空人難題攻破,一張畫指定50個物體

DALL·E 3必開測:馬騎太空人難題攻破,一張畫指定50個物體

2023-09-25 Comments 0 Comment

DALL·E 3限量測試,已由微軟Bing搶先開啟,看看你是歐皇之一嗎?沒收到資格也沒關係,加上第三方研究預覽、OpenAI員工的內部試玩,各種測試案例紛紛湧現,包看過癮。最誇張的一個,要數「指定畫面中出現50個不同物體」,結果足足畫出了幾百個。

△來自Windows Latest

除了簡單平鋪排列,更可以把這些物體組合得更有創意一些。

馬騎太空人這種反事實概念,過去OpenAI和Google的各種模型都只能畫出太空人騎馬。

在論文一般當成失敗案例,當時還被AI悲觀主義者馬庫斯好一頓嘲諷。

現在,DALL·E 3在ChatGPT加持下輕鬆搞定。

DALL·E 3這次這麼大進步,不只是OpenAI自己的努力,而是與微軟通力合作的結果。

雖然沒有明確說明,但貢獻名單中研究部分就有至少3位微軟工程師與研究員參與,推理優化部分更是大部分成員來自微軟DeepSpeed團隊。

回看GPT-4時還是主要由OpenAI內部研發,再給微軟和其他研究機構開放權限一同測試。

這次合作模式的變化,也代表兩家公司關係進一步加深。

一張畫指定50個物體

由微軟Bing執行長Mikhail Parakhin確認,最幸運的幾分用戶已經獲得測試資格了。

由於名額著實有限,等不及的網友紛紛在線上提出腦洞,請有號的人幫忙測試。

提出畫50個不同物體的網友,就是想測試DALL·E 3一張畫中能容納多少物體,類似大語言模型的「上下文視窗」。

收到研究預覽版的第三方設計師Nathan Shipley接下了這個挑戰。

首先他先讓ChatGPT隨機列出50個日常物體,然後直接要求把這些物體都畫在一幅畫裡就可以了。完整的提示詞是ChatGPT自己補全,再由DALL·E 3畫出來。

接下來Nathan問:“你能創造一個衝浪者在努力衝浪時將這些物體堆成一堆的圖像嗎?”

ChatGPT在提示詞中補充了一些細節:

一名中年玻里尼西亞男性衝浪者有被陽光吻過的皮膚,他舉著50種物品,奮力衝浪,其中包括茶杯、自行車、雨傘……海浪在他周圍拍打,他的表情充滿決心和輕微的恐慌,試著平衡這些物體和他的衝浪板。

結果一次嘗試就得到了基本上符合要求的圖像,只是人物表情看起來更像是非常恐慌,而不是輕微恐慌。

後來Nathan又提出換一個更低的視角的要求,這回ChatGPT把提示詞中的人物描述換成了「一名西班牙老年女性」。

圍觀網友都覺得非常驚人,但也指出為什麼鉛筆的大小與其他物體不成比例。

有人猜測模型只是知道某樣物體長什麼樣子,但不知道其相對大小,尤其鋼筆宣傳圖片通常會採用近景。

此外Nathan也從ChatGPT嘴裡拷問了使用者都能控制畫面的哪些參數。

ChatGPT回覆如下:

描述:您可以提供所需圖像的詳細描述。您越具體和詳細,生成的圖像就越接近您的願望。

風格與媒介:您可以指定圖像的風格或媒介,例如「油畫」、「照片」、「插畫」、「卡通」、「水彩」、「3D渲染」等。

解析度:預設情況下,影像以1729×1024解析度產生。但如果您的描述建議使用全身肖像或更適合高縱橫比的內容,則將以1024×1792生成圖像。如果需要,您也可以要求正方形解析度(1024×1024)。

圖片數量:如果您沒有指定,我通常會根據您的描述建立四個不同的圖片。但是,您可以請求特定數量(最多四個)。

修改:如果您對初始結果不滿意,可以提供回饋並要求修改。雖然我無法直接修改現有圖像,但我可以使用您的回饋來產生更符合您的願景的新圖像。

隨機種子:如果您想修改先前的圖像,我可以使用該圖像元資料中的種子來產生新版本。這確保了原始影像和修改後的影像之間的一定一致性。

請注意,存在某些限制。例如公眾人物的形象,以及最近100年內的藝術家的風格,都無法直接創造。

重點在後面:

然而,我可以提供替代方案或使用形容詞來捕捉特定風格的本質,而無需直接引用它。

馬騎太空人難題破解

OpenAI內部員工中,Will DePue是最積極公開DALL·E 3試玩結果的了。

在馬騎太空人測試中,他表示其實也不是100%成功。

兩至三次嘗試之內就能搞定,因為GPT-4在與你一起完善提示詞,直到寫對為止。

只要付出一些努力,你就能得到幾乎所有你想要的。

有網友嘗試用MidJourney得到相同的結果,只能說也不是完全不行,就是要費老大勁了。

幾乎不可能,需要大量的提示工程,而且很難重現。

如果你是MidJourney資深用戶,不妨試試能不能成。

在網友提出的「8個長頸鹿喝水」挑戰中,DALL·E 3再一次展現出很難把數字數準確的弱點。

△數數圖中一共有幾隻長頸鹿

更多錯誤嘗試中還出現了一個雙頭長頸鹿。

讓AI正確計數這次沒有解決,但至少解決了理解空間關係的問題。

網友提出的「四匹斑馬在草原上奔跑,一頭獅子在後面追趕,上面有一隻鷹,圖片中沒有其他動物」挑戰中,空間關係基本上正確,但是多了一隻斑馬。

相較之下,DALL·E 2和Stable Diffusion對空間關係的理解都要更差。

OpenAI負責ChatGPT企業版的Adam Goldberg也曬出不少高品質結果,不過沒有分享提示詞。

負責AI寫程式碼和呼叫工具的Jerry Tworek則搞出不少抽象概念畫,如「機械細胞的分裂」。

以及「橫跨銀河系的電腦程式樹」。

微軟OpenAI通力合作

DALL·E 3這次巨大提升,除了整合ChatGPT,影像生成部分具體是怎麼做到的呢?

很可惜,鑑於OpenAI越來越Close的趨勢,很可能不會像前兩代那樣公佈論文了,只能從貢獻名單中略作猜測。

DALL·E 2論文共有5位作者。

而DALL·E 3暫且不看產品、安全、公共溝通和法律等團隊,光研究部分就有18人參與。

其中提出一致性模式(Consistency Models)的清華校友宋颮(Yang Song)在列。

一致性模型比目前最受歡迎的擴散模型速度更快,3.5秒就能產生64張256*256的影像。

但宋颮此次屬於次要研究貢獻,不確定是否DALL·E 3使用了一致性模型,更可能是在改良擴散模型中藉鏡了他的方法。

此外,除了DALL·E 2作者和ChatGPT團隊的歐陽龍等,至少有3位研究者來自微軟。

Jianfeng Wang博士畢業於中科大,在微軟任主任研究員。

Lijuan Wang博士畢業於清華大學,在微軟擔任主任研究經理。

兩人曾參與無限畫布圖片生成NUWA-Ininity的研究。

李琳婕(Lindsey Li)是北理工校友,分別從普渡大學和UC聖地牙哥獲得兩個碩士學位,在微軟任資深研究員,在多模態領域有多篇頂會論文。

除了研究方面,DALL·E 3的推理優化有微軟DeepSpeed團隊深度參與。

Deepspeed是開源的深度學習最佳化函式庫,減少運算功耗和記憶體使用,在現有硬體上透過更好的平行來訓練和推理大規模分散式模型。

其中不少人都表示很高興能參與這項工作,並對DALL·E 3的發布感到興奮。

最後,在特別貢獻中,微軟的Bing執行長Mikhail Parakhin、Azure雲端首席副總裁Misha Bilenko都在其中。

微軟先前的發布活動中也確認了Bing會直接整合DALL·E 3。

按照現在規則,Bing上的DALL·E 2是免費的。會發放99個加速代幣,沒代幣只需要更長時間排隊。

雖然10月DALL·E 3在ChatGPT Plus要收費每月20美元。

但既然GPT-4在Bing上是免費提供的,將來DALL·E 3免費玩也可以期待一波了~

分享此文:

  • 分享到 Twitter(在新視窗中開啟)
  • 按一下以分享至 Facebook(在新視窗中開啟)
  • 分享到 WhatsApp(在新視窗中開啟)
  • 按一下以分享到 Telegram(在新視窗中開啟)
  • 分享到 Pinterest(在新視窗中開啟)
  • 分享到 Reddit(在新視窗中開啟)
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟)
  • 點這裡列印(在新視窗中開啟)

相關


網絡資訊

Post navigation

PREVIOUS
全球首個數位人點火、現場萬人AR互動…揭秘杭州亞運開幕式背後的科技
NEXT
《我的世界》「龍與地下城」DLC將於下周正式發布

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
限時免費
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
WordPress資訊
WeChat資訊
PHP資訊
教學資源
開源程序
網頁工具
SEO工具
醫療健康
其他資訊
Content from
Content to
2023 年 9 月
一 二 三 四 五 六 日
 123
45678910
11121314151617
18192021222324
252627282930  
« 8 月   10 月 »

分類

  • 網站公告
  • 限時免費
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 其他資訊

彙整

近期文章

  • 出貨量大漲60% 中國智慧型手機市場正在復甦 2023-12-06
  • 2024年央視春晚吉祥物正式亮相:五爪金龍造型命名“龍辰辰” 2023-12-06
  • 全球動力電池裝車量公佈寧德時代獨佔1/3 2023-12-06
  • 《絕地求生》史上最大地圖今日上線:史無前例兩架飛機風景美輪美奐 2023-12-06
  • 美國心臟協會稱黴黴新歌可救命:節奏和心肺復甦術相同 2023-12-06
  • OpenAI CEO Altman:董事會正在重新思考公司架構 2023-12-06
  • 特斯拉已在歐洲多個國家興建V4超級充電樁充電站包括德國西班牙 2023-12-06
  • 龍芯中科遭中科百孚累計減持超5% 2023-12-06
  • 串流平台Netflix將於年底前下架大量影視作品 2023-12-06
  • 紐西蘭航空訂購亞馬遜支援的電動飛機擬於2026年投入使用 2023-12-06

熱門文章與頁面︰

  • 打車叫到特斯拉不會開門很尷尬?官方介紹開關門方法
  • Corel VideoStudio Ultimate v2018 21.4.0.165 – 會聲會影中文旗艦版
  • 靠養貓養狗年入百萬:寵物博主是門怎樣的生意?
  • 全球首型、全球最大24000TEU級核動力貨櫃船公佈:採用第四代堆型熔鹽反應器
  • Microsoft Office 2016 4in1 2020.05 專業增強版綠色精簡版
  • 英國大學生設計出適用於盲人的手持式設備可被當成機器導盲犬
  • 鳥寶寶有多內捲?為了讓父母投餵自己長出恐怖的嘴巴
  • Chrome測試新界面:讓用戶快速更改頭像和主題顏色
  • Google Chrome瀏覽器意外出現Status_Access_Violation錯誤而崩潰
  • Autodesk AutoCAD 2020.1 正式版-簡體中文/繁體中文/英文

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2023   All Rights Reserved.