SearchGPT官方示範大翻車原始碼竟暴露搜尋機制
OpenAI再次上演了GoogleBard出糗的一幕,SearchGPT官方震撼演示卻被外媒曝出低階錯誤。另有神通廣大的開發者甚至扒出內部源碼,揭秘了背後搜尋機制。網友最新一手實測,AI秒級回覆讓全網驚呆。
SearchGPT發表剛兩天,已有人灰階測試到了。
今天,網友Kesku自製的demo全網刷屏,SearchGPT結果輸出如此神速,讓所有人為之震驚。
當詢問Porter Robinson出了新唱片嗎?
只見,SearchGPT眨眼功夫之間,即刻給了答案“Smile”,最後還附上了連結。
再來看行動版的回答速度,回答延遲幾乎為0。
評論區下方,震驚體鋪屏。
但另一方面,OpenAI當天放出的官方演示,被外媒《大西洋月刊》曝出其中的問題。
在回答「8月在北卡羅萊納Boone舉辦的音樂節」的問題時,SearchGPT竟搞錯時間,出現了幻覺。
說好的,要取代Google呢?
全網一手實測來了
Kesku自己測驗的另一個demo,呈現了SearchGPT的小工具。
她發現的一個現像是,SearchGPT傾向於強烈關注搜尋結果。
「有時就需要明確告訴它,自己想要做什麼,而不是想從網路上得到什麼」。
例如詢問它倫敦天氣,SearchGPT先給了未來七天的天氣預報。
在倫敦野餐的最佳時間和地點有什麼,類似小部件的形式給出了幾個備選項。
Kesku也在行動端測試了一些例子。
查詢英偉達股票,會給出英偉達股票整體的視覺化圖,接著給了一些分析。所有股票資訊都被無縫整合在頁面中。
輸入一首歌名“Never Gonna Give You Up”,然後直接給出了YouTube歌曲視頻,不用跳轉到其他網頁,在一個頁面就可以聽歌、看視頻。
除了搜尋功能,網友還樂此不疲地進行「人性化測試」——
“你怎麼樣”?
「作為一個AI語言模型,我沒有感情,但我在這裡並隨時準備幫助你解答問題。今天我能為你提供什麼幫助」?
“給我講一個笑話”
一個英語世界的經典雙關梗就此出現——
“科學家不信任原子。為什麼科學家不信任原子?因為它們構成了一切!”
網友現場出題
眼饞的網友們,紛紛在留言區出題,讓帖主幫忙測試。
第一位網友問道,「它支持地區和新聞嗎,例如來自TestingCatlog的最新新聞」。
Kesku測試後表示,“它可以通過IP地址或精確位置為你提供本地信息(後者默認是關閉的,可以在設置中選擇開啟)——比如‘我附近的電影院’這樣的查詢效果很好” 。
「幫忙試一下其智能體搜尋的解釋能力」。
SearchGPT在給出關於高頻寬記憶體的解釋中,藍色標出的內容,是參考解釋。
你能嘗試搜尋一些付費牆後面的文章嗎?那些最近與OpenAI簽署了合作夥伴關係的文章。
Kesku給了一篇文章的內容, 不過貌似還是不能越過付費內容,僅是給了文章的總結。
更細節的內容,依舊無法看見。
你能嘗試搜尋「Yandex月活躍用戶數」嗎?
我想看看,當它找不到我想要的確切答案時,它是否會承認自己找到了每日活躍用戶數(DAU),而不是月活躍用戶數(MAU),還是會像copilot那樣裝糊塗,只是複製貼上整個搜尋結果而忽略實際查詢。
Kesku搜素後的結果如下所示:
顯然,根據提問者問題,SearchGPT給了答案。
“與Perplexity相比如何”?
Kesku稱暫時還未測試複雜的任務,不過非常喜歡目前測出的結果。
在下面提示中,她直接問「誰是Kesku」這麼小眾的問題。
沒想到,SearchGPT給了正確的解答,Perplexity卻回答了錯誤。
有網友對此評論道,「很酷的演示!也許SearchGPT能在本地搜尋領域帶來一些變革?它能幫助你在現實世界中完成事情。從外觀來看,它有很好的資料來源、簡潔的小部件,而且速度超快。
揭秘SearchGPT搜尋機制
科技媒體TestingCatolog也率先進行了內測,並揭開了SearchGPT搜尋機制的角落。
與目前ChatGPT提供的通用Bing搜尋功能不同,SearchGPT更擅長提供即時資訊。
雖然仍舊依賴Bing的索引,但SearchGPT將會有自己的網路爬蟲(類似Perplexity),用於動態獲取即時數據,從而克服Bing速度較慢的問題。
甚至,TestingCatalog還挖出了SearchGPT的源代碼,並在評論區信誓旦旦地表示“絕對準確,我有內部人士。”
原始碼不僅露出了Bing的接口,而且可以發現,搜尋結果由多模態模型提供支援。
雖然看不出其中具體的處理流程,但所呼叫的模型應該具有自動理解影像的功能。
官方示範大翻車,OpenAI慘遭打臉
就在網友們興致勃勃地試用時,《大西洋月刊》卻站出來潑了一盆冷水——SearchGPT在官方demo中有明顯的搜尋結果錯誤。
用戶給的搜尋問題是「8月在北卡羅來納Boone舉辦的音樂節」。
這個問題其實很難體現SearchGPT相對於傳統搜尋引擎的優勢。同樣的問題如果拋給Google搜索,也能給出相差無幾的結果。
例如SearchGPT放在首行的「阿巴拉契亞夏季節」(An Appalachian Summer Festival),也同樣是Google搜尋的第二位結果。
但尷尬的是,標題下方的AI摘要把一個關鍵訊息弄錯了-經主辦單位確認,音樂節舉辦日期為6月29日~7月27日。
如果你按照SearchGPT給的資訊去買票,將一無所獲-7月29日~8月16日恰好是售票處正式關閉的時段。
OpenAI發言人Kayla Wood已經向《大西洋月刊》承認了這個錯誤,並表示“這只是初始的原型,我們將不斷改進。”
這個錯誤讓人不禁想起Bard曾經造成的慘劇。
2023年2月,Google推出了這個聊天機器人產品以對抗ChatGPT,但首次亮相就出現了事實性錯誤,導致Alphabet股價當天暴跌9%,市值瞬間蒸發1000億美元。
Bard稱James Webb太空望遠鏡拍攝了系外行星的第一張照片,但實際上這個功績屬於歐洲南部天文台的VLT
但好在,OpenAI沒有股價可跌,僅開放內測的做法也相當謹慎。畢竟有Google的前車之鑑,可以預料到,LLM這種錯誤幾乎是無法避免的。
即使OpenAI能夠找到方法大幅減少SearchGPT的幻覺,但面對龐大的訪客數也是「杯水車薪」。
假設幻覺率只有1%(這個比率很難達到),以Google的規模,也會導致每天產生數千萬個錯誤答案。
更何況,我們目前還沒有發現足夠可靠且有效的方法,來消除LLM的廢話和幻覺。
而且,Andrej Karpathy大佬曾經在Twitter上表達過這樣的觀點:“幻覺並不是bug,而是LLM最大的特徵。”
Karpathy將LLM比喻為“夢想機器”:我們用prompt引導模型“做夢”,再加上對訓練文檔的模糊記憶,就得到了生成結果。
雖然大多數時候生成結果是有用的,但既然是「夢境」就有可能失控。當LLM做夢進入有事實錯誤的領域時,我們就會給它貼上「幻覺」的標籤。
這看起來是個bug,但LLM只是做了它一直在做的事情。
這種機制和傳統的搜尋引擎完全不同。後者接收提示後只是逐字返回資料庫中最相似的文檔,因此你可以說它有“創造性問題”,因為搜尋引擎永遠不可能創造新的回應。
根據Karpathy的說法,我們就很難指望由目前LLM驅動的AI搜尋能產生100%真實且準確的結果。
那麼這場搜尋引擎的變革會如何展開? LLM的「夢境創意」和傳統搜尋引擎的真實可靠,究竟是共存下去,還是會「你死我亡」?
來源:新智元