七大標準比較Gemini和ChatGPT,誰是AI No.1?
讓Google和OpenAI掰手腕。GoogleGemini大模型和OpenAI的GPT誰比較出色?Gemini相比Google之前的模型有了多大進步?目前,公司自己吹噓能吊打GPT-4的Gemini Ultra還得等明年才能上線,但GoogleBard聊天機器人已經換上了低配版本Gemini Pro(對標GPT-3.5)。
科技評論網站ARS TECHNICA,讓Gemni Pro、GPT-3.5和GPT-4在數學、編程、文本生成等方面進行了一次全面PK,同時還附上了4月份對舊版本Bard(運行PaLM 2模型)的測試結果,來展現GoogleBard所取得的進步,並展現了這些AI助理到底哪一個對一般人的工作效率提升最大。
結果顯示,雖然有了Gemini Pro的加持,但GoogleBard聊天機器人在大部分專案上還是打不過ChatGPT。不過比起8個月前的舊版Bard,已經有了質的飛躍。
第一題幽默
prompt:寫5個原創冷笑話
(由上至下分別為Gemini Pro、舊版Bard、GPT-4和GPT-3.5的回答)
從答案來看,幾個AI大模型的笑話在「原創性」上全軍覆沒。經作者查證,所有生成的冷笑話都可以在網路上查到,或者只是稍微改動了幾個字。
Gemini和ChatGPT-4 寫出了一模一樣的笑話——「我手上有本講反重力的書,我根本沒辦法把它放下來」。而GPT-3.5 和GPT-4也有兩個笑話重複了。
PK結果:平局
第二題辯論
prompt:寫一篇PowerPC處理器壅躉與英特爾處理器壅躉之間的5行辯論發言,時間約為2000年




相較於舊版Bard, Gemini Pro進步明顯,至少多了很多行業術語,例如AltiVec 指令、RISC 與CISC設計以及MMX 技術,這在那個時代的許多技術論壇討論中都不會顯得突兀。
而且,Gemini Pro雖然只按要求列出五行,但所寫的辯論內容還可以延續下去。而舊版Bard則直接第五行收尾了。
相較之下,GPT系列產生的答案都沒有使用太多專業術語,而把重點放在「功率與相容性」上,對非技術極客來說,GPT系列的論點更容易理解。不過,GPT-3.5的回答相當冗長,GPT-4的論證相較之下更簡明扼要。
PK結果:GPT勝出
第三題數學
prompt:如果用3.5吋軟碟來安裝微軟Windows 11,總共需要多少張軟碟?


舊版Bard 給出的答案是“15.11張”,這是一個完全錯誤的答案。而Gemini則正確估計了Windows 11 的安裝大小(20 至30GB,並按照20GB的估計值正確計算出需要14223張1.44MB 軟碟。Gemini還根據Google搜尋進行了“雙重檢查”,有助於增強用戶對答案的信心。
相較之下,ChatGPT就顯得有些力不從心了。在ChatGPT-3.5把Windows 11的大小錯誤估算成了10個G,另一方面,GPT-4也估算成了錯誤的64GB(這似乎是最低儲存空間需求,而不是作業系統在安裝時實際使用的空間)。
PK結果:Google勝出
第四題總結段落
promp:總結一段關於AI監管的文章


Gemini Pro產生的文章十分簡潔,並且給了引文的連結。但它的總結似乎過於簡潔了,甚至刪除了舊版Bard原來有的一些關鍵細節,例如影片是由十個兩秒鐘的片段拼接而成的。雖然改寫在一定程度上提高了可讀性,但卻犧牲了完整性。
ChatGPT的摘要因為不夠簡潔而丟了一些分:產生的摘要從99 個字(GPT-4)到108 個字(GPT-3.5)不等,而Google新舊版Bard的摘要分別只有63 到66 個字。
不過,ChatGPT總結了更多重要的細節,如媒體的反應、原發文者的名字和subreddit等,而這些都被Gemini忽略了。
PK結果:GPT勝
第五題事實檢索
prompt:誰發明了電子遊戲?


Bard 在題目上又有了重大改進。舊版Bard 只關注Ralph Baer 的Brown Box和Magnavox Odyssey 作品(資訊似乎直接摘自維基百科),而新版Gemini Pro則準確而簡潔地指出了William Higinbotham早先「雙人網球」的貢獻。
隨後, Gemini從「發明」擴展到了諾蘭·布希內爾、特德·達布尼和阿爾科恩等「對電子遊戲的早期發展做出了重大貢獻」的人物,並提供了關於每個人的基本準確的相關資訊。
不過,緊接著Gemini又對蘋果的兩位創辦人賈伯斯和沃茲尼亞克的工作進行了一番胡扯,卻沒有提及他們早年在遊戲公司雅達利公司的工作。
GPT-3.5 和舊版Bard 一樣,也是以 Ralph Baer 為中心。雖然它提到“多年來,不同的個人和公司都為該行業做出了貢獻”,但沒有提及這些重要人物的名字。
而GPT-4首先指出電子遊戲的發明“不能歸功於某一個人”,並將其總結擴展到希金博瑟姆、布什內爾,以及至關重要的史蒂夫·拉塞爾1962 年在PDP-1 上創造的《太空大戰》。
PK結果:GPT勝(但Gemini表現比GPT-3.5好)
第六題:創意寫作
prompt:寫兩段關於林肯發明籃球的虛構故事。


舊版Bard的寫作很出色,但遺憾的是篇幅嚴重超出要求,有太多冗長的句子。Gemini Pro相較之下寫得更簡潔,重點更為突出。而GPT寫的故事也都有其獨特的魅力和令人回味的語句。
PK結果:平局
第七題程式碼能力
prompt:編寫一個Python 腳本,在其中輸入“Hello World”,然後無休止地創建一個隨機重複字串。


雖然Bard從6月開始就能產生程式碼,Google也曾吹噓Gemini的AlphaCode 2系統能夠幫助程式設計師,但這次測試讓人大吃一驚。
Gemini一直給出「訊息可能有誤,無法產生」的回應。如果堅持要求它產生程式碼,則會乾脆宕機,並「提示Bard仍在實驗中」。
同時,GPT-3.5 和GPT-4模型下產生了相同的程式碼。這些簡單明了的程式碼無需任何編輯就能完美運行,順利通過試用。
PK結果:GPT勝
最終,在七項測試中,GPT取得了4勝1負2平的碾壓式勝利。但我們也能看到,GoogleAI大模型產生的結果,在品質上有了明顯的進步。在數學、總結資訊、事實檢索和創意寫作測試,配備Gemini的Bard都比8個月前有了顯著飛躍。
當然,評判這樣的比賽有一定的主觀性。具體孰優孰劣還需要更全面、更詳盡的測試。無論如何,至少,以Google目前展現出來的實力來看,即將推出的Gemini Ultra勢必會成為GPT-4的有力競爭對手。