谷歌的GPT殺手:“人類最強大模型”雙子座初露崢嶸或於秋季發布
Google的全新大殺器Gemini,即將和全世界見面了!據傳,Gemini不僅能像GPT-4一樣可以進行文本對話,還融合了Midjourney、Stable Diffusion的能力,能夠生成圖像。
為了對抗OpenAI,GoogleCEO劈柴在今年4月邁出了絕非尋常的一步,將擁有完全不同文化和代碼的團隊——Google大腦和DeepMind合併。
現在,集結了數百位工程師的Google復仇者聯盟已經全軍待命,日夜趕工,只為狙擊OpenAI的GPT-4,一舉重奪AI領域的頭把交椅。
Google創始人謝爾蓋·布林也已重回戰壕,親自操刀Gemini的訓練。據稱,今年秋天,Gemini就會面世,而Google的考驗也即將到來。
復仇者聯盟名單已被曝出
押注Gemini,打造GPT-4最強殺手
根據知情人士的爆料,Gemini將LLM的文本能力與文生圖的能力相結合。也就是說,它相當於GPT-4和Midjourney/Stable Diffusion的合體版。
這也是外界首次聽說,Gemini具有如此強大的繪圖能力。另外,它還能夠提供分析圖表、創建帶有文本描述的圖形、使用文本或語音命令控制軟件。
在6月底,GoogleDeepMind CEO Hassabis也曾爆料,Gemini將結合進AlphaGo和大語言模型,而GoogleDeepMind已經準備好砸進數千萬美元,甚至數億。
Gemini會整合使用了強化學習和樹搜索的AlphaGO,以及機器人、神經科學等領域的技術。
可以說,Google把重註押在了Gemini身上,Gemini會為Bard聊天機器人提供動力,推動Google Docs、Slides等企業級應用。另外,Google還希望通過雲服務器租賃服務,向開發者收取訪問Gemini的費用。
目前,Google云通過Vertex AI產品售賣對GoogleAI模型的訪問如果這些新功能實現,Google很有可能會趕上微軟。
畢竟,微軟在AI產品上已經領先不少,Office 365應用中包含AI功能,其應用程序也會對用戶出售對ChatGPT的訪問權限。
彭博社風投分支Bloomberg Beta的AI初創企業投資人James Cham對彭博社表示,’過去9個月裡,每個人都在問這樣一個問題:什麼時候才能有一家公司,看起來有赶超OpenAI的可能?”現在,終於似乎有一個模型,可以和GPT-4旗鼓相當了。’
Google,被迫走出舒適區
隨著OpenAI的崛起,Google也不得不在保證核心搜索業務的情況下,試著推出新的技術了。
據內部人士透露,在推出Gemini之前,Google很可能就會在某些產品中使用它。
過去,Google會使比較簡單的模型來改進搜索,但是像Bard以及Gemini這樣的產品,需要通過分析大量圖像和文本,來生成更像人類的回答。如此海量數據所帶來的潛在巨額服務器成本,也是Google必須要控制的。
更新之後的Bard,更強大了
手握YouTube的優勢
根據The Information報導,Google對Gemini進行了大量YouTube視頻的訓練。
並且,Gemini還可以把音頻和視頻集成到模型自身,形成多模態能力,而後者,已經被許多研究者認為是AI的下一個前沿。
比如,根據YouTube視頻訓練的模型,可以幫助機械師根據視頻診斷汽車的維修問題。或者可以根據用戶想要創建網站或應用程序的草圖,來生成軟件代碼。此前,OpenAI曾展示了GPT-4的這項功能,但目前尚未推出。
OpenAI老闆Greg Brockman曾演示GPT-4讀圖寫網頁代碼的能力,但似乎鴿了使用YouTube內容,還可以幫助Google開發更先進的文本轉視頻軟件,根據用戶想看的內容描述,自動生成詳細的視頻。
這類似於Google支持的初創公司RunwayML正在開發的技術,現在好萊塢的內容創作者們都在密切關注這項技術的發展。
Google DeepMind,發起全面反擊
2011年,Google創立了Google大腦(Google Brain),旨在構建起Google自己的AI,來優化搜索的結果、廣告精準投放,以及在Gmail中的自動填充等功能。
而位於倫敦的DeepMind則更多地致力於學術研究——2016年AlphaGo以4比1的成績戰勝了李世石,這項工作被人們視為通向通用人工智能(AGI)道路上的重要里程碑。Google除了會用DeepMind開發的軟件提高數據中心的運行效率外,DeepMind的工作並沒有對其核心產品產生太大影響。
但在去年年底,一切都改變了。
2022年11月,OpenAI發布了ChatGPT,短短幾週內用戶人數飆升到了數千萬,之後更是達成了用戶破億最短時間的成就。
幾個月內,OpenAI的收入就達到數億美元,並且在這期間微軟新投資了100億美元、數不清的資本熱錢向著OpenA流去,OpenAI的市值、知名度都達到了一個前所未有的高度。
這時,Google才意識到,自己在AI領域的領導地位已經岌岌可危了。
Google大腦+DeepMind=?
今年4月,陷入被動的Google放出終極大招:Google大腦和DeepMind正式合併!
‘王不見王’的兩大部門居然合體了,這一舉動也是讓瓜眾們驚掉了下巴。
合併後的Google DeepMind將由DeepMind首席執行官Demis Hassabis領導,而前GoogleAI負責人Jeff Dean接任首席科學家一職。
現在,至少有26名大佬正在負責Gemini的開發,這些人包括曾在Google大腦和DeepMind工作的研究人員。知情人士稱, DeepMind的兩位高管Oriol Vinyals和Koray Kavukcuoglu,將和前Google大腦負責人Jeff Dean一起負責Gemini的開發。他們將監督數百名參與Gemini開發的員工。
另外,Google的聯合創始人謝爾蓋·布林也老將出馬,久違地回歸了。
謝爾蓋·布林和拉里·佩奇他一直在對Gemini模型進行評估,並幫助員工訓練模型。據爆料,在團隊發現Gemini意外地接受了潛在攻擊性內容的訓練後,布林也參與到了重新訓練模型的技術決策過程中。
‘意外聯姻’的陣痛
隨著Google大腦和DeepMind的合併,新團隊很快就遇到了非常嚴峻的問題——代碼怎麼合併,用誰家的軟件開發?畢竟,這兩個部門的代碼庫在之前是完全獨立的。
雖然雙方在各讓一步之後達成了妥協:
– 在模型的預訓練階段,使用Google大腦用於訓練機器學習模型的軟件Pax
– 在後期階段,使用DeepMind用於開發模型的軟件Core Model Strike但據內部人士爆料,還是有不少員工因為不得不使用自己不熟悉的軟件而憤憤不平。
除此之外,Google和DeepMind都針對ChatGPT開發了自己的模型。DeepMind著手開展了一個代號為Goodall的項目,旨在使用未公開模型Chipmunk的不同變體來開發一個與ChatGPT競爭的系統。而Google大腦則開發立項了Gemini。
最終,DeepMind決定放棄自己原先的努力,選擇基於Google大腦的項目合作開發Gemini。有趣的是,在遠程工作的政策上,據說Google大腦的態度也要比DeepMind寬鬆得多。
內耗、狼狽、反攻
比起OpenAI那邊的形勢一片大好,Google則陷入了一場精疲力盡的內耗中。先是一連多個高級技術人才出走,如Liam Fedus、Barret Zoph和Luke Metz等在內的研究人員,紛紛選擇加入OpenAI。雖然Google找回了一些人才:比如重新招回了Jacob Devlin和Jack Rae。Jacob Devlin批評Bard的開發後,在今年1月份去了OpenAI。而Jack Rae是前DeepMind的研究員,在2022年加入了OpenAI。
此前,Devlin向劈柴、Dean等高管表達了對Bard團隊使用ChatGPT數據訓練的擔憂,隨後辭職接著,Google為了對抗一枝獨秀的ChatGPT,也為了重回人工智能賽道領航者的地位,在今年2月的時候匆忙發布了聊天機器人Bard。然而,發布會卻因一個低級的事實性錯誤慘遭翻車,導致公司的市值在一夜之間蒸發了千億美元。Google的第一次反攻,以狼狽收尾。
到了5月,GoogleI/O大會上發布了全新的PaLM 2模型,大大改進了Bard回答問題和生成代碼的能力。
同時發布的,還有將生成式AI和自己傳統搜索服務結合起來的Search Generative Experience(SGE)。簡單來說,SGE是一個類似Bing Chat的AI搜索服務,但並沒有直接使用新的聊天窗口,而是將AI生成的內容集合在搜索結果中展示給用戶。
也就是說,在搜索的同時,Google會利用AI為搜索的內容提供說明,回答用戶提出的問題,幫用戶做旅行規劃等等。
而用戶不再需要貨比三家般的在多個鏈接之間來回跳轉,也不用花心力去判斷哪個鏈接背後的信息是真的,因為所有可用的內容都被集中到了AI收集到的回復之中。
在最近的更新中,Google添加了讓SGE在AI生成的回复內容中附加圖片和視頻的功能,幫助用戶更加直觀的了解自己搜索的知識和信息。
就像Bing Chat一樣,SGE的AI響應中也會有標註了發佈時間的鏈接,來支持由AI生成的回复內容。如果用戶對於相關的信息感興趣,點擊鏈接就能更加全面地了解具體的內容。
在AI生成的回復中,對於很多知識性的信息和概念,用戶能夠直接通過鼠標的懸停,就能獲取到概念準確的定義。
現在針對科學,歷史,經濟等知識性問題的AI回复,都已經上線這個功能。
而對於需要瀏覽很冗長的網頁信息來學習或者了解信息的用戶,SGE還更新了一個網頁內的AI概括功能——SGE while browsing。
這個功能相當於給用戶提供了一個隨時聽候差遣的’大綱生成器’。
對於任何篇幅比較長的網頁內容,用戶都可以用它來生成大綱,快速掌握要點。在下方的Explore the Page部分,用戶還能看到和頁面內容相關的問題。如果用戶對於問題感興趣,直接點擊,就能看到文章中內容是如何解答這些問題的。
然而,是由於Google保守的市場策略,SEG目前只允許美國本土的用戶採用Waiting List申請測試。
所以可能大部分用戶甚至都不知道,Google已經推出了這樣一個服務。總之,據悉兩部門合體後,至少測試了21項生成式AI工具,甚至還包含為用戶提供生活建議和心理輔導的工具。
在去年緊急解雇了聲稱聊天AI有意識的工程師的Google,現在居然也開始探索這類’敏感’地帶,可見真的是決定放手一搏了。
Gemini項目,目前形勢大好
不過,兩個團隊的合併,對於一些正在負責Gemini項目的工程師來說,確實是個不小的驚喜。
曾在DeepMind工作的James Molloy和Tom Hennigan與Google資深研究員Paul Barham一起負責基礎設施。
Timothy Lillicrap曾在DeepMind從事國際象棋和圍棋方面的系統開發工作,而Google大腦的研究員Emily Pitler則領導一個團隊,專注於使LLM具備處理數學或網絡搜索等專門任務的能力。
但除了合併組織中的人員安排問題,Gemini團隊在開發過程中還面臨著巨大的挑戰,如確定可以用於模型訓練的數據等。
因此,Google的律師們一直在密切評估這項訓練工作。在一個案例中,由於擔心版權持有者的反對意見,律師們要求研究人員刪除了來自教科書的訓練數據。而這些數據本可以幫助訓練模型回答有關天文學或生物學等領域的問題。
不過,Google前高管、VC公司Felicis Ventures的創始人Aydin Senkut評價Gemini的發布讓他看到了’Google決心再次走在最前沿,而不是極度保守’。
Aydin Senkut也十分贊同Google的決定:’這是正確的方向。最終,他們會火的。’