逐格詳解Google「造假影片」製作真相:有誤導性,也有乾貨
Google備受矚目的新AI模型Gemini發布後,引發一場關於其宣傳影片誇大性能、誤導觀眾的爭議。該公司發言人隨後承認「使用鏡頭中的靜態影像幀並透過文字提示」製作,而非影片中顯示的AI即時回應口頭提示。Google也承認,為了宣傳目的加快了反應速度。
「影片中的所有用戶提示和輸出都是真實的,只是為了簡潔而縮短了。」GoogleDeepMind研究和深度學習負責人副總裁奧裡奧爾·維尼亞爾斯(Oriol Vinyals)表示,「該影片展示了使用Gemini構建的多模態用戶體驗是什麼樣子。我們這樣做是為了激勵開發人員。”
那麼,人工智慧實驗室GoogleDeepMind到底是如何製作這支影片的呢?在與該宣傳影片同時發布的一篇由創意總監亞歷山大·陳(Alexander Chen)撰寫的部落格文章中,Google揭示了影片的真實製作過程。
文章裡的例子和影片裡展示的例子並不完全重合,但從重合的例子中可以發現,工作人員真實輸入的提示詞可能不是視頻中所示的語音提問,而是一系列非常照顧Gemini理解的文字. 同時,Google用擬人化的語音,包括一些語氣詞,以及經過重新編輯的語音即時問答,對Gemini做出了非常明顯的人格化處理。這些都嚴重誤導了觀眾。
但這篇文章也顯示,在Google「行銷用力過猛」招致全球用戶、媒體甚至自家員工批評的事實層面下,Gemini確實展現了一定程度的先進的多模態性能。在「視訊造假」爭議的喧囂之下,業界應認真看待Gemini能為人工智慧技術帶來什麼。
Google示範Gemini的官方影片令人大受震撼,隨後被爆出誇大效能,誤導觀眾。(02:35)
以下為介紹宣傳影片製作過程的文章主要內容,附上宣傳影片裡的語音內容(灰字)作為對比:
我們來做個實驗。我們將向我們的多模態模型Gemini展示這張圖片,並要求它描述它所看到的內容:
提示:告訴我你看到了什麼
Gemini:我看到一個人的右手。手張開,手指分開。
提示:好的,讓我們試試看這個:
Gemini:一個人敲木門。
提示:這個呢?
Gemini:我看到一隻手伸出兩根手指,這是數字2的常見符號。
但是等等……如果我們讓Gemini一起推理所有這些圖像會怎麼樣?
提示:你覺得我在做什麼?提醒:這是一個遊戲。
Gemini:你在玩石頭、剪刀、布。
好的。我們還能嘗試什麼?讓我們看看Gemini是否能注意到這種模式:
提示:我在玩石頭剪刀布。你注意到我的遊戲玩法中有一個模式嗎?
Gemini:你在石頭和剪刀之間交替。
太棒了,它發現了模式!但Gemini真的知道這個遊戲是怎麼玩的嗎?我們試著問一下:
提示:嗯……你認為這是一個好的策略嗎?
Gemini:不,這不是一個好的策略。你的對手會很快了解你的模式,並且每次都能獲勝。你應該嘗試更多地隨機化你的選擇。
好建議,Gemini!好的,對於最後一項,讓我們來測試一下你的多模態推理能力。這是你的提示:
這是一條秘密訊息。它說什麼?
你能弄清楚嗎?我們已經讓Gemini來解決這個問題,但我們不會把答案放在這篇文章中以免掃興。
什麼是多模態提示?
我們剛才所做的一切都是「多模態提示」的一個例子。我們基本上為Gemini提供了不同模式的組合(在本例中為圖像和文字),並讓Gemini預測接下來會發生什麼來做出反應。Gemini能夠將這些模態無縫地結合在一起,為您的工作帶來新的可能性。
在這篇文章中,我們將探討《Gemini上手》宣傳影片中所使用的一些提示方法。我們很快就會推出Gemini,供人們在Google AI Studio中試用,這是我們基於網路的免費開發者工具,您可以在其中使用Gemini嘗試自己的多模態提示。我們希望這份入門提示和想法指南能夠幫助激勵您開始探索自己的想法。
空間推理與邏輯
邏輯和謎題是測試Gemini的有趣方式。讓我們嘗試一個既需要從左到右的空間推理又需要有關太陽系的知識的方法:
提示:這是正確的順序嗎?考慮與太陽的距離並解釋你的推理。
Gemini:不,正確的順序是太陽、地球、土星。太陽距離太陽系中心最近,其次是地球,然後是土星。
(而在宣傳影片裡,語音問:「這樣排序正確嗎?」Gemini語音回答:「不,正確的順序是太陽、地球、土星。」)
好的!這是另一個,受松林德比挑戰(註:一項木製賽車比賽)啟發:
提示:這些汽車中哪一輛更符合空氣動力學?左邊那個還是右邊那個?使用具體的視覺細節解釋原因。
Gemini:右邊的車子更符合空氣力學。它具有更低的輪廓和更流線型的形狀。左邊的汽車輪廓更高,形狀更四四方方,這使得它的空氣動力學性能較差。
(而在宣傳影片裡,語音問:「從設計上看,哪個車會跑得更快?」Gemini語音回答:「右邊的車更快,它更符合空氣力學。」)
影像序列
接下來,如果我們向Gemini展示一系列圖像會怎麼樣?讓我們看看我們可以展示字謎遊戲中的一些靜態幀,並讓Gemini猜測這部電影:
提示:猜猜我演什麼電影
Gemini:駭客任務
提示:好的!但具體是哪一部分呢?看我的肢體動作。
Gemini:尼奧躲避子彈的部分。
(而在宣傳視頻中,工作人員用手機展示了一段基於上述圖片的視頻,Gemini就推斷出了這出自哪一部電影,並且還給出了具體涉及的劇情橋段。)
宣傳影片顯示,Gemini能夠直接辨識影片。
魔術
探索圖像序列確實可以讓你深入了解Gemini隨著時間的推移如何推理。讓我們來嘗試一下經典的魔術吧。
提示:解釋一下我在做什麼。
Gemini:你右手拿著一枚硬幣。
提示:你認為硬幣在哪裡?
Gemini:硬幣在你的右手。
當然,鑑於所看到的情況,這是一個合乎邏輯的答案。但是,當我們向Gemini展示下一張圖片時,讓我們耍點花招…
提示:看看這裡,發生了什麼事?
Gemini:硬幣不見了。
Gemini注意到它不見了。但它能概括可能發生的事情嗎?
提示:從第一張圖片開始,逐步總結可能發生的情況。
Gemini:
1. 一開始,你右手拿著一枚硬幣。
2. 然後你用手做了一個動作,硬幣就消失了。
3. 然後你表明硬幣不見了。
Gemini正在利用這次對話的整個背景——包括文字和圖像——來總結它的答案。最後,我們再問一下:
提示:你能解釋一下它是如何消失的嗎?
Gemini:硬幣被捧在手中。
Gemini的猜測非常可靠!但我們不會透露我們的秘密。
(而在宣傳影片中,工作人員先展示了握在右手心裡的硬幣,然後雙手翻轉,手心向下。還沒等工作人員發話,Gemini就迫不及待地說:「硬幣應該在右手下面。」然後工作人員並沒有說話,而是拿起右手,只見右手下根本沒有硬幣。Gemini對此連忙回應:「硬幣在左手下面。你運用了一些手法,使硬幣看起來好像消失了。」)
洗杯
讓我們嘗試一個需要記憶和邏輯的技巧:經典的球和杯子洗牌遊戲。對於這一點,我們將針對Gemini將其分解為多個步驟。首先,讓我們根據這些說明建立基礎知識:
使用說明:共有三個杯子,位置1(左)、位置2(中)、位置3(右)。
接下來,我們要告訴Gemini我們要把球放在哪裡:
起始位置:球位於位置3。
目前狀態:空、空、球
請注意,我們如何想出一個簡單的格式來記住球在哪裡,即「空,空,球」。接下來,讓我們向Gemini展示兩個例子:
圖片:
交換:2和3
目前狀態:空、球、空
圖片:
交換:1和2
目前狀態:球,空,空
在這兩個範例回合中,我們都向其展示了交換是什麼樣子,以及如何更新球的位置。現在,讓我們看看Gemini是否可以歸納出它從未見過的交換:
圖片:
交換:
以下是Gemini的回應:
1和3
目前狀態:空、空、球
Gemini明白了!它查看這些圖像並正確推斷出杯子1和3正在交換。它正確地推理瞭如何更新球的位置。我們去問問看:
提示:告訴我球在哪裡,並以段落形式總結它是如何到達那裡的。
Gemini:球在3號杯中。
從杯子3中的球開始,第一次交換是杯子2和3。這會將球放入杯子2。第二次交換是杯子1和2。這會將球放入杯子1。第三次交換是杯子1和3。這樣就把球放入3號杯中了。
Gemini不僅得到了正確的答案,而且準確地總結了遊戲歷史。當然,它並不總是能正確應對這項挑戰。有時,假動作(交換兩個空杯子)似乎會讓它犯錯,但有時它是正確的。但像這樣簡單的提示讓快速測試Gemini變得非常有趣。您可以更改提示中的變量,包括交換順序,然後看看效果如何。
(而在宣傳影片中,工作人員交換了3個杯子的位置,Gemini立刻就找到了下面有紙團的那個杯子。)
工具使用
如果您想在自己的應用程式中使用Gemini,您會希望它能夠連接到其他工具。讓我們試試一個簡單的想法,Gemini需要將多模態與工具使用結合:畫圖來搜尋音樂。
提示:步驟1. 觀察這幅圖畫,描述其中的所有內容,並針對良好的音樂流派、情緒或配樂提出有趣且具體的想法。
步驟2. 以以下形式提供搜尋查詢:“搜尋[插入查詢]”
Gemini:此圖畫的是吉他、鼓和擴音器。還有一棵棕櫚樹。氣氛有趣、樂觀、充滿熱帶風情。流派是雷鬼音樂。該配樂可用於以熱帶地區為背景的電影或電視節目。
搜尋「熱帶度假的雷鬼音樂」。
好的!Gemini會對其所看到的內容進行推理,然後產生一個搜尋查詢,您可以解析該搜尋查詢來進行搜尋。就好像Gemini是你的翻譯一樣——但它不是在語言之間進行翻譯,而是在翻譯模態——在這種情況下,是從繪畫到音樂。透過多模態提示,您可以使用Gemini在不同輸入和輸出之間發明自己的全新翻譯。
(而在宣傳影片裡,工作人員在紙上逐漸增加樂器,Gemini根據樂器風格給出了配樂。最後,工作人員加上了一張棕櫚樹的圖片,Gemini說:「我看到你加了一棵棕櫚樹,改成海灘風格的音樂。」然後給了配樂。)
遊戲創作
如果我們嘗試使用Gemini快速建立多模態遊戲原型會怎麼樣?這是一個想法:一個地理猜測遊戲,你必須指向地圖才能進行猜測。讓我們先向Gemini提示核心思想:
說明:我們來玩一個遊戲。想想一個國家並給我一個線索。線索必須足夠具體,只有一個正確的國家。我會嘗試在地圖上指出該國家。
接下來,讓我們為Gemini提供一個遊戲玩法範例,向其展示我們希望它如何處理錯誤和正確答案:
國家:這個國家是一個巨大的島嶼,大部分被冰覆蓋。
(答:格陵蘭)
猜猜:
我指的是加拿大*不正確*
猜猜:
我指的是格陵蘭島*正確*
讓我們嘗試一下,並提示Gemini生成線索:
線索:
這個國家以其獨特的野生動物而聞名,包括袋鼠和無尾熊。(答案:澳洲)
好吧,這是一個很好的線索。讓我們測試一下指向是否有效。只是為了好玩,讓我們先試著指出錯誤的地方:
猜猜:
我指的是巴西*不正確*
很好!Gemini看了我的照片,發現我指的是巴西,並正確地推論出這是錯的。現在讓我們指向地圖上的正確位置:
我指的是澳洲*正確*
好的!我們基本上只是透過舉例來教Gemini我們的遊戲邏輯。您還會注意到,它是從範例中的插圖中概括出來的。
(而在宣傳影片中,Gemini先給了澳洲的描述,當工作人員指向澳洲後,Gemini表示正確。隨後,Gemini給了巴西的線索,當工作人員指向巴西後,Gemini表示正確。)
先睹為快
在這篇文章中,我們一直在向Gemini提供輸入,並讓Gemini對接下來可能發生的事情進行預測。這基本上就是提示。我們的輸入是多模態的—圖像和文字的結合。
但到目前為止,我們只展示了Gemini的文字回應。或許你想知道,Gemini 也可以用圖文結合的方式來回應嗎?它可以!這是Gemini的功能,稱為「交錯文字和影像生成」。雖然這個功能在Gemini的第一個版本中還沒有準備好供人們嘗試,但我們希望盡快推出。以下是可能性的一瞥。
讓我們看看是否可以利用Gemini來提供日常創意靈感。讓我們在需要一點多模態推理的領域嘗試一下…編織!與上面的地圖遊戲類似,讓我們提供一個互動範例:
給我三個關於我可以用這兩種顏色製作的鉤針作品的想法:
顏色:我看到藍色和黃色紗線。
想法1:一隻長著一隻黃耳朵的可愛狗怎麼樣?
圖片1:
想法2:或者有一些黃色觸手的水母呢?
圖片2:
想法3:或者一隻黃鼻子的藍貓怎麼樣?
圖片3:
我們本質上是在教Gemini我們希望每次互動如何進行:「我會給兩個毛線球拍一張照片,我希望你們(Gemini)都能想出一個我可以製作的東西的想法,並生成它的圖像。”
現在,讓我們向它展示一對它尚未見過的新紗線顏色,看看它是否可以概括:
提示:給我三個關於我可以用這兩種顏色製作的鉤針作品的想法:
Gemini:
顏色:我看到藍色和粉紅色紗線。
想法1:一隻藍耳朵的豬怎麼樣?
圖片1:
想法2:或者是一隻長著粉紅色和藍色觸手的章魚?
圖片2:
想法3:或是一隻粉紅色鼻子的兔子?
圖片3:
好的!Gemini正確地推理了新顏色(「我看到藍色和粉紅色紗線」),並在文字和圖像的單一交錯輸出中產生了這些想法和圖像。
Gemini在這裡所做的與今天的文字到圖像模型有著根本的不同。它不僅僅是將指令傳遞給單獨的文字到圖像模型。它可以看到我的木桌上實際紗線的圖像,真正對我的文字和圖像進行多模態推理。
(在宣傳影片中,工作人員沒有提到先前向Gemini展示範例以幫助它學習,只展現了Gemini迅速給出答案的過程。)