谷歌AI搜尋讓網站陷入絕境:分享數據,還是等死?
Google已在其搜尋頁面頂端展示基於人工智慧生成的便利答案,這可能導致用戶無需點擊原始內容來源網站。然而,許多網站所有者表示,他們無法阻止谷歌的人工智慧對其內容進行摘要,因為谷歌用於生成這些人工智慧答案的網頁抓取工具與常規搜尋引擎的抓取工具相同。如果選擇封鎖谷歌,也會妨礙網站被用戶發現。
谷歌在搜尋領域佔據主導地位,這為其在人工智慧領域的競爭帶來了顯著優勢。搜尋新創公司和出版商均認為,目前的競爭環境對它們不公平。出版商面臨嚴峻的抉擇:要麼提供內容支援人工智慧模型(這可能削弱其網站的重要性),要麼放棄谷歌搜尋這個主要流量來源。
新聞網站Talking Points Memo的出版人喬·拉加佐(Joe Ragazzo)指出:「這對相關企業而言,無異於生死攸關的抉擇。兩種選擇都不利:要麼退出競爭,立即面臨生存危機;要麼與谷歌合作,雖然暫時存活,但最終也難逃被淘汰的命運。
谷歌表示,其搜尋結果頂部展示的AI Overviews摘要,是其持續提升資訊品質和為出版商及其他企業拓展機會的長期策略的一部分。谷歌發言人在聲明中表示:「Google每天向全球網站輸送數十億次點擊,我們致力於維護並深化這一長期的價值交換關係。透過AI Overviews,用戶體驗得到了提升,他們回到搜尋引擎的頻率更高,這為內容的發現創造了新的機會。
自創立以來,Google便透過Googlebot軟體存取並「抓取」數以百萬計的網站內容,建構龐大的全球網路索引。這項成就對於試圖建立競爭性搜尋引擎的公司來說,形成了難以克服的障礙,即便是像微軟這樣資金雄厚的企業也不例外。
隨著生成式人工智慧的興起,一波新的新創公司湧現,旨在透過人工智慧模型為用戶提供精煉答案的搜尋產品。聊天機器人的流行讓Google內部對其搜尋引擎的主導地位產生了前所未有的危機感。然而,這些新創公司在真正撼動Google業務之前,必須先解決如何進行網頁抓取的難題,而這並不容易。
抓取網站成本高昂,包括金錢、運算資源和儲存空間。因此,許多出版商會透過設定文件規定爬蟲來訪問其網站的規則。谷歌和微軟必應通常能獲得較大的訪問權限,因為它們的搜尋引擎能夠為網站帶來顯著的流量。
然而,人工智慧新創公司Tako Inc.的執行長亞歷克斯·羅森伯格(Alex Rosenberg)表示,搜尋引擎新創公司在未能獲得市場關注前,無法承諾為網站帶來相應的流量,這促使它們開始與出版商達成協議,透過支付內容授權費用來獲取內容。羅森伯格說:“如今,許多科技公司為內容付費,以確保獲取競爭所需的資源,而谷歌則由於其特殊地位,無需這麼做。”
在媒體公司與人工智慧新創公司之間頻繁合作的背景下,Google始終態度鮮明地加以抵制。知情人士透露,除了與Reddit達成的6000萬美元交易外,谷歌私下向出版商傳達了無意參與內容授權談判的立場。
在這些談判中,媒體公司處於劣勢地位,尤其是在今年谷歌推出AI Overviews後,該服務利用人工智慧在搜尋結果頂端提供簡潔答案,立即引發了出版商對流量影響的擔憂,但卻沒有明確的應對方案。
值得注意的是,Google在某些人工智慧產品上使用了獨立的爬蟲(如Gemini聊天機器人),但其主要爬蟲Googlebot仍同時服務於AI Overviews和常規搜索,原因在於這兩者之間技術上密切相關。谷歌發言人解釋說,這項安排是為了統一管理,確保搜尋體驗的一致性和高效性。
發言人還指出,谷歌搜尋結果頁面以多種形式顯示訊息,包括圖像和圖表。此外,出版商可以選擇阻止特定頁面或部分內容出現在AI Overviews中。然而,這項選擇可能伴隨風險,即這些內容也將從Google所有搜尋功能中消失,包括傳統的網頁連結清單。
由於大多數出版商的流量至少有一半來自搜尋引擎,他們往往不願意輕易冒險削弱自身的網路影響力。
文創平台Raptive創新主管馬克·麥科勒姆(Marc McCollum)代表出版商和網紅指出,谷歌的立場未能充分考慮內容創作者面臨的重大風險,特別是那些依賴搜尋可見性為生的創作者。他警告說,選擇退出可能會無意中降低創作者的整體搜尋可見性,從而損害他們與受眾的聯繫和收入能力。
iFixit網站(提供消費性電子產品線上維修指南)的執行長 Kyle Wiens表示,與其他人工智慧公司相比,該網站與Google的關係更為「脆弱」。他強調:“我可以阻止Anthropic的ClaudeBot索引我們的網站而不影響業務,但若屏蔽Googlebot,我們將失去流量和客戶。”
谷歌與Reddit的交易不僅為Google的人工智慧模型提供了大量寶貴數據(來自Reddit用戶就小眾話題的深入討論),還透過增加Reddit等論壇在搜尋結果中的展示,顯著推動了Reddit的流量成長。 Reddit發言人也表示,產品品質和加載速度的提升也對流量成長起到了積極作用。
知情人士透露,搜尋新創公司Perplexity正與Reddit洽談內容授權事宜,但Google與Reddit的協議價格高得令新創公司難以匹敵。谷歌表示,與Reddit的合作不僅限於資料訓練,涵蓋了更廣泛的領域。 Reddit方面對商業合作細節保持沉默。
面對此情此景,其他搜尋新創公司則發現取得此類數據幾乎不可能。搜尋新創公司Kagi的創始人弗拉基米爾·普雷洛瓦茨(Vladimir Prelovac)坦言:“Reddit的報價足以耗盡我們20年的收入,因此我從未考慮過。”
不只是小型新創公司面臨這種困境。 OpenAI最近推出的SearchGPT測試版雖然受到了廣泛關注,但許多知名網站(如亞馬遜、Goodreads、優衣庫)已屏蔽其GPT爬蟲,這可能會對OpenAI的搜尋業務構成挑戰。 OpenAI表示,即使網站拒絕內容用於人工智慧訓練,這些內容仍可能出現在其搜尋結果中。
普雷洛瓦茨指出,Kagi一半以上的成本投入都用於網路爬蟲及其他資料來源。建立詳盡的網路索引是搜尋引擎的基礎,它為使用者提供詳細的網路內容視圖。而對於那些旨在透過人工智慧直接回答用戶問題的公司來說,數據具有更重要的戰略意義。
普雷洛瓦茨說:“生成式人工智慧模型本身並不聰明,要提供高品質的輸出,必須依賴廣泛的搜尋索引。”
搜尋新創公司You.com的創辦人理查德索徹(Richard Socher)表示,robots.txt檔案無所不在,為爬蟲設定了存取指南,迫使新創公司做出複雜的決策。儘管這些文件沒有法律約束力,但只要不涉及登入或使用者驗證,理論上可以抓取公開資料。他強調:“我們在進行爬取時,盡量不對網站造成過度負擔。那些只允許谷歌抓取的robots.txt設置,本質上是在支持谷歌的搜索壟斷。”
由前Google員工創立的Neeva搜尋新創公司去年被Snowflake收購後,提出「爬蟲中立」的倡議,以降低新創公司建立搜尋索引的難度。鑑於法院已裁定谷歌壟斷了線上搜尋市場,美國司法部正在考慮採取補救措施,包括強制谷歌與競爭對手共享數據,甚至可能分拆該公司。
其中一項備受關注的提案建議,要求谷歌分享其Googlebot收集的數據,或開放其著名的搜尋索引。歐盟的《數位市場法案》已經要求Google分享部分搜尋查詢資料。
對iFixit的執行長維恩斯來說,Google在搜尋領域的主導地位是其人工智慧工作的核心優勢,也是反壟斷爭議的焦點。他建議將Google搜尋與其人工智慧業務分開,以緩解利益衝突。
搜尋引擎DuckDuckGo表示,隨著科技的變革,Google的搜尋索引在生成式人工智慧時代變得更加重要,這也加劇了反壟斷擔憂。其公共事務高級副總裁卡米爾·巴茲巴茲(Kamyl Bazbaz)直言,搜尋索引在當今技術變革中至關重要。
Talking Points Memo的出版人拉加佐認為,無論谷歌反壟斷案件的結果如何,出版商都應掌握自己的命運,減少對任何單一技術平台的過度依賴,包括谷歌。他補充說:“我們的信念是,你必須與讀者建立起真正的聯繫,這是打造能經得起不同時代考驗的出版物的關鍵。”