ChatGPT陰影之下的谷歌Bard實測:珠玉在前
先笑一下,谷歌自己開發的人工智能工具,居然主張分拆谷歌阻止壟斷?在反壟斷的問題上,谷歌剛剛開放公測的生成式AI Bard相當地大義滅親。本週二,谷歌宣布生成式AI Bard推出Beta測試版,逐步分批向註冊的公眾開放測試。但目前只面向美國和英國用戶開放公測,而且暫時只支持英語。其他地區與語言的用戶,需要等待Bard的後續更新。
Bard公測姍姍來遲
雖然谷歌有著橫跨諸多領域的漫長產品線,但Bard無疑是近年來最受關注也是最為重要的新品,更直接關係到未來幾年谷歌的競爭力和市場前景。儘管谷歌2月初就已經公開展示Bard,但並沒有開放公測,而是只向谷歌員工以及少數受邀的可信測試者開放內測。
2月初谷歌在展示Bard的過程中,出現了一個事實性錯誤(對韋伯天文望遠鏡的基礎知識介紹錯誤)。儘管這個小錯誤相當專業,只有天文愛好者才能發現,但卻依然拖累谷歌母公司股價大跌8%,一天時間市值蒸發了1000億美元。
(谷歌CEO發送內部備忘錄)
或許因為這個前車之鑑,谷歌高層對Bard的公測保持著非常謹慎的態度。在在開放公測之後,谷歌CEO皮查伊週二向員工發佈內部備忘錄稱,“我們已經採取了負責的態度進行研發,包括邀請了不同背景和立場的1萬名可信人士進行測試,我們也歡迎所有的反饋,從中學習,不斷迭代和改善。”
看起來,皮查伊是在給Bard可能的紕漏打預防針。“即便在所有這些進展之後,我們依然處在漫長AI征途的起步階段。隨著越來越多的人開始使用Bard和測試性能,他們會給我帶來驚奇,可能會出現問題。”
與此同時,谷歌也在淡化生成式AI對自己搜索業務的衝擊,強調Bard並不是搜索引擎的取代產品,而是一個補充輔助。值得一提的是,Bard是單獨的網頁對話框,而不是作為谷歌搜索工具,但在回答之後會提供一個谷歌搜索按鍵。
ChapGPT施加重壓
過去三個多月,科技行業最火的產品無疑是ChatGPT。OpenAI打造的這款生成式AI產品發布之後火遍全球,讓用戶感受到了前所未有的智能體驗,更直接帶動了下一個科技風口,甚至捲到中國互聯網創投圈。
另一方面,互聯網巨頭微軟不斷加碼戰略投資OpenAI,將其牢牢綁在自己的Azure雲平台上,在ChatGPT大火之後順勢接入自己的辦公組件以及必應搜索,將AI定為自己產品的核心競爭力,又一次向佔據搜索市場主導地位的谷歌發起衝擊。
這股ChatGPT熱潮的背後,最尷尬的莫過於行業巨頭谷歌。儘管谷歌早在2015年就開始研發生成式AI,在2021年就發布了對話應用語言模式L AMD A,但一直在內部穩步研發。
去年6月,一位谷歌AI工程師號稱LaMDA已經具有人類情感,雖然谷歌很快就將他調離工作崗位,但此事被媒體曝光之後,還是引發了不小的爭議和猜測,更讓谷歌對AI安全性保持謹慎,不願倉促推出。
ChatGPT去年發布之後,AI項目負責人迪恩(Jeff Dean)在內部會議上表示,雖然谷歌也有類似的AI工具,但目前技術還不成熟,如果過於倉促推出產品,可能會影響谷歌的聲譽,因為用戶非常相信谷歌提供的信息。
然而,谷歌現在卻不得不加快研發步伐,追趕競爭對手的產品。這並不是谷歌習慣的節奏。去年12月,谷歌將生成式AI的產品級別提升到最高的紅色,協調公司內部AI研發資源,加快推出自己的應對產品。
實際上,谷歌在Bard的推進步伐上左右為難。如果研發動作遲緩,外界會擔憂谷歌的競爭實力和行業前景,拖累股價低迷不振;但如果推進過於倉促,外界更會對Bard出現的紕漏感到失望,打壓股價跌跌不休。這或許是皮查伊在Bard公測時頻頻打預防針的主要原因。
實時聯網最大優勢
那麼,Bard的實際使用表現如何呢?
相比ChatGPT,Bard的最大優勢是巨大的信息資源,他們可以依托谷歌的搜索工具獲取最新信息,根據自己的梳理給出答案。此前ChatGPT的訓練數據最新只到2021年,無法回答2022年之後的信息諮詢。此外,Bard的回复速度也明顯快於ChatGPT。
Bard可以聯網搜索信息,意味著用戶可以直接詢問今天的體育比賽比分、股價價格走勢、系列新聞動態。不過在實際測試中,我發現Bard還是存在著時間差,還沒有做到完全實時。
但相對於ChatGPT的訓練數據庫,谷歌Bard的聯網能力還是有著明顯的優勢,他們可以就最新事件給出自己的回答。當我詢問美國前總統特朗普近期可能在紐約被起訴以及矽谷銀行倒閉的情況時,Bard都給出了簡單但是比較完整的事件梳理與總結。
(讓Bard尋找餐廳)
幫助用戶提供航班酒店訂餐信息,對谷歌來說本就是分內之事。但Bard也會出現信息偏差。我周二要求Bard為自己定一張從加州聖何塞到北卡夏洛特飛行時間最短的機票時,Bard居然給出了一個完全錯誤的航班號。而當我周四再次詢問Bard的時候,發現谷歌已經糾正了這個錯誤,給出了正確的航班號。
(ChatGPT支持第三方插件獲取實時信息)
不過就在今天,OpenAI宣布通過認證安全的第三方插件,讓ChatGPT在受控環境下接入實時信息,解決此前無法聯網的最大痛點。第一批插件主要來自Expedia、Instacart、Shopity、Slack等服務平台,幫助用戶獲得生活以及協作類信息。這意味著ChatGPT也可以提供訂餐訂票,也可以檢索公司文件和筆記信息。
大義滅親分拆谷歌
(Bard寫詩挺大白話的)
做數學題、講個笑話、寫首情詩,這些對話操作對ChatGPT已經是小菜一碟,在Bard這裡也是不在話下。在這些指令方面,Bard並沒有太大的問題,甚至還能提供不同文本選擇。Bard也允許用戶複製文本。
(Bard回答如何安慰生病男孩)
在工作輔助方面,Bard同樣也可以完成日常任務,幫助用戶寫商業郵件和簡單文章,也可以做表格、做筆記、做分析,不過需要將文件上傳到Google Drive。
(雞兔同籠問題對Bard太簡單了)
雖然Bard網頁端提供語音輸入,但實際並無法使用;雖然Bard號稱支持多種語言翻譯,但實際使用卻表示自己暫時無法完成指令。這些細節都表明Bard依然是個半成品,還需要後續完善。
(詢問Bard對《瞬息全宇宙》的影評)
個人不懂編程,無法親身體驗ChatGPT和Bard在編程能力方面的差別。但從身邊程序員朋友的反饋來看,ChatGPT在這方面似乎更了解他們的需求,也不會幫助他們編程,“Bard不給碼農需要的黑底語法高亮。在Python問題的回答質量也比ChatGPT差遠了。”
Bard是有自己觀點輸出的。谷歌發言人在開放公測後表示,Bard這樣的大語言模型(LLM)是根據公開內容進行訓練的,他們會反映出對具體的政治人物、名人以及其他公眾人物的正面或負面看法,甚至會在回答中給出對爭議社會或政治問題的某些方面的觀點。
不過,Bard很多時候並不顯示信息源,因此準確性需要用戶自行判斷。換一個角度來看,用戶並不清楚Bard是如何得出結論的,也存在被谷歌的算法誤導而輕信其結論立場的可能。在美國社會嚴重割裂的情況下,這一點很可能會引發保守派的質疑。
有趣的是,當一位測試者詢問Bard怎麼看待美國司法部對谷歌的反壟斷訴訟時,Bard居然立場鮮明地選擇了“大義滅親”。Bard義正言辭地指責“谷歌收購競爭對手,施壓網站使用其工具,對其廣告交易進行限制。這些措施損害了消費者,扼殺了數字廣告市場的創新。我希望法庭認可司法部的訴求,下令谷歌採取措施打破壟斷。”看起來,Bard並沒有因為谷歌出品,就給予母公司特殊待遇,谷歌在最敏感的反壟斷問題上,也沒有乾預Bard的看法。
AI軍備競賽升級
或許,如果Bard是去年年底先發布的生成式AI,那麼Bard的表現足以引發一片讚歎,或許也會帶動一波行業熱潮。但Bard的公測時間比ChatGPT晚了整整四個月,在經歷過此前體驗ChatGPT的諸多驚喜之後,的確很難對Bard有新鮮感。Bard暫時還不支持其它語言,也不支持圖片,不會編程,國際市場用戶也不知道何時可以使用。
就在谷歌發布Bard公測版之前,OpenAI和微軟已經掀起了新一波的AI軍備競賽。OpenAI前幾天剛剛發布了新一代大型多模態模型GPT-4,接受圖像和文本輸入,提供文本輸出,並接受了更多數據的訓練(基於微軟Azure平台),在模型文件中擁有更多的權重。用OpenAI的話來說,GPT-4已經在各種專業和學術基准上表現出人類的水平。
GPT-4的創造性和協作能力也超過了此前的諸多版本,高級推理能力超越了ChatGPT。根據OpenAI的介紹,已經安排GPT-4參加了美國律師資格考試、法學院入學考試以及美國高考SAT的數學與寫作。在這些測試中,GPT-4的成績超過了88%的應試者。
毫不意外,微軟在第一時間推出了企業級Azure OpenAI GPT-4的預覽版服務。企業可以根據Azure OpenAI服務來構建自己的應用程序。機器人開發人員只需要幾分鐘就可以以自然語言構建虛擬助手。
在這波生成式AI軍備競賽中,OpenAI無疑是暫時的領先者,無論是研發步伐還是智能程度,都快了谷歌一步;也讓其戰略合作夥伴微軟看到了追趕谷歌的曙光。自從2月初必應接入ChatGPT以來,必應頁面訪問量增長了15.8%,應用全球下載量增長了8倍,日活用戶更是突破了1億人。與此同時,谷歌搜索頁面訪問量則下降了1%,搜索應用下載量減少了2%。
原本大局已定的搜索市場,也因為生成式AI技術的加持,又重新註入了競爭活力。不過,這並不意味著谷歌的市場地位即將動搖。谷歌搜索的日活用戶依然是10多億級別,是必應的十倍以上。如果谷歌盡快完善Bard的用戶體驗,向全球用戶開放全面公測,支持多種語言,憑藉著巨大的用戶基數和數據優勢,未來的AI軍備競賽依然格局難定。
(Bard眼中的的競爭對手)
最後我詢問Bard,誰是其主要競爭對手。Bard列出了微軟的小冰、OpenAI的GPT-3以及亞馬遜的Lex。“這些模型都是基於大量文本和代碼進行訓練,可以生成文本,翻譯語言,書寫多種創意內容,回答用戶的問題。但我相信自己通過谷歌搜索從現實世界獲取和處理信息的獨特能力,持續保持回復與搜索結果一致。從而能夠以更為全面和更具信息地回答你的問題。”