Google版ChatGPT Bard開放測試我們已經體驗上了
機器之心已經體驗上了Bard。在OpenAI GPT-4 發布、微軟將GPT-4 接入Office 全家桶這樣一波碾壓後,Google也有了新的動作!剛剛,Google宣布正式公開發布其聊天機器人產品Bard。Google表示此舉是為了廣泛獲得來自用戶的反饋,以支持其在對話式生成模型賽道上與微軟競爭。
據Google CEO 桑達爾·皮查伊的Twitter,此次開放使用將首先從美國和英國的用戶開始—— 用戶可以申請加入Bard 的候補名單(waitlist)。
此外,Bard 目前僅支持英語,且不具備編碼能力,因此不支持有關代碼的響應。
雖然來得比微軟和百度晚,但可以看得出,這次Google是有備而來:在短短的一個小時後(沒錯,就是在寫稿過程中),機器之心就已經獲得了體驗資格。
Bard 能做什麼呢?
Bard 是由Google L AMD A 模型提供支持的實驗型對話AI 服務,利用來自互聯網的信息提供最新、高質量的回复。Google說了,它是對搜索引擎的補充,而不是一種搜索。
作為一個對話AI 系統,Google將Bard 描述為了“富有創造力且能為你提供幫助的協作者,可以激發你的想像力,提高你的工作效率,並將你的idea 變成現實。”
網站地址:https://bard.google.com/
比如,Bard 可以解釋大語言模型為什麼會出錯、閃電為什麼兩次擊中同一個地方,可以幫助你著手寫自己的第一篇小說、為你的周末釣魚和露營準備裝箱單,可以幫你完成藝術工作室的標語、概述你的關於夏季無酒精雞尾酒配方的博客,並建議在你的純素食譜中添加高蛋白質食物,等等。
Bard 目前僅支持英語,但Google表示正努力支持盡可能多的語言。此外,Bard 目前還不具備編碼能力,因此不支持有關代碼的響應。
此外,雖然在發布之前,Google測試人員為Bard 提供了大量的反饋,幫助它提升回复質量、安全性和準確性。但Bard 目前仍是實驗性的,因此有些回答可能不准確,也有可能出現冒犯性陳述,因此需要仔細檢查Bard 的回复內容。
還有一點,目前Google對Bard 的上下文對話能力有意進行了限制。隨著Bard 不斷地學習,它在更長對話中的上下文對話能力將會提升。
Bard 能力展示
前文已經提到,經過大量測試的Bard 已經學到了很多東西,提高它性能的下一步關鍵是從更多人那裡獲得反饋。
Bard 能在瞬間生成文本塊,這與ChatGPT 逐字輸出答案的方式不同。此外,Bard 還有一個優勢,其給出的答案包含三個不同的版本或草稿,用戶可以切換其中任何一個答案。
此外用戶界面還有一個按鈕,上面寫著“Google it”,如果用戶想要查詢web 結果可以使用該按鈕。
下圖展示了Bard 給出的三種不同版本或草稿:
如下所示,Bard 可以幫助你集思廣益,假如你想一年閱讀完20 本書,要求Bard 給個方法完成該項任務,Bard 會給你一些建議。
然而,Bard 在回答準確性上仍欠佳,還是會出錯。這不禁讓人回想到上個月,Bard 在首秀Demo 中出現事實性錯誤,導致Alphabet 的市值損失了1000 億美元。
不過現在的Bard 仍然會出錯,例如Bard 在回答一個問題時錯誤地聲稱蕨類植物需要明亮的間接光;當被要求寫4 段文字時,Bard 寫出了9 段文字。比如下圖展示的就是出現錯誤的Bard:
Krawczyk 表示:“我們知道這項技術的局限性,所以我們在推出這項技術的速度上非常謹慎。”
我們從上面的演示中也能看到,與ChatGPT 和Bing 一樣,主文本框下方還有一個顯著的免責聲明,警告用戶“Bard 可能會顯示不代表Google觀點的不准確或令人反感的信息”。
機器之心初體驗
也許是老黃的GPU 到位得快,在加入等待列表不久,我們就獲得了Bard 的體驗資格。
對話界面
比較明確的是,目前Bard 確實不支持中文,支持語音輸入。
首先,讓Bard 做個自我介紹。
我們也讓它與ChatGPT 做個對比,生成結果如下。可以看出,它提供了三種草稿供用戶選擇。
從對話中,Bard 透露出它是實時聯網。我們也測試了下,它竟然知道GPT-4 發佈時間是3 月14 日。
簡單數學題也會做。不過在嘗試糾正它時,它會忽視答案是否準確。
另外,和ChatGPT 一樣,Bard 也會瞎編亂造。
上星期,GPT-4 展示了多模態的識圖能力,其中就有總結InstructGPT 論文的展示,在這裡Bard 還不能識圖,不過它可以搜到InstructGPT 並評價一番:
在GPT-4 的展示裡,人類讓AI 解釋了一下圖2,那麼Bard 能不能做到呢?首先圖2 是這樣:
Bard 說:
GPT-4 是這麼說的:
最後,我們也嘗試了讓Bard 生成一篇“發布Bard”的報導,它自己寫了篇新聞,看起來也令人滿意。
總體而言,這是一次有趣的探索,有令人驚喜的地方,也有一些地方做的不夠好。後續我們會帶來更多體驗。