谷歌希望透過釋出Gemini追趕OpenAI
說到目前這輪人工智慧熱潮背後的支援技術,Alphabet旗下的Google其實是發明者,但其產品的受歡迎程度卻明顯落後。谷歌希望透過發布備受期待的Gemini來改變這種局面,這是該公司迄今為止構建的「最大、功能最強的工人智慧模型」。
自從OpenAI去年憑藉其對話式聊天機械人ChatGPT取得巨大成功以來,越來越多的公司一直在嘗試產生式人工智慧,這種技術可以根據用戶的要求自動執行編碼、總結報告或建立行銷活動等任務。在12月6日發布這款產品前的一次演示會上,Google強調,Gemini是其構建的最靈活的模型,因為它有不同規模的版本,包括一個可以直接在智慧型手機上執行的版本。這使它有別於其他競爭對手。
這款人工智慧模型是一個用於支援各種產生式人工智慧應用程式的系統,它有三個不同的版本:Gemini Ultra、Gemini Pro和Gemini Nano。GoogleDeepMind部門產品副總裁柯林斯(Eli Collins)表示,這種多樣性意味著Gemini「能夠在從流動裝置到大型資料中心的所有裝置上執行」。
「長期以來,我們一直希望建立新一代人工智慧模型,其靈感來自於人們理解這個世界並與其互動的方式——這種人工智慧感覺更像是一個助人為樂的合作者,而不是一款智慧軟體,”柯林斯在接受電話採訪時說道,“Gemini讓我們離這個願景又靠近了一步。”
在這款模型發布前,該公司對Gemini進行了一系列標準的行業基準檢驗,並表示,在八項測試中有六項結果顯示,Gemini Pro的表現優於OpenAI的GPT-3.5。谷歌稱,在對通用語言理解、推理、數學和編碼進行的八項基準檢定中,Gemini有七項結果優於OpenAI通用模型的最新版本GPT-4。同時,Google估計,該公司最新的可解釋和產生程式碼的產生式人工智慧產品AlphaCode 2在競爭性程式設計領域超過了85%的競爭對手。該公司將發布一份技術報告,更深入地解釋Gemini的模型架構、訓練過程和評估情況。
從12月6日開始,想要為智慧型手機和平板計算機編寫Gemini支援的應用程式的Android開發人員將能夠註冊使用這款人工智慧模型的「nano」版本,該版本可以直接在此類裝置上執行。谷歌也表示,將立即在其旗艦手機Pixel 8 Pro上啟用Gemini,它將支援新的產生式人工智慧功能,例如從電話錄音中總結要點。下週,Google將透過其Vertex AI和AI Studio平台向雲端客戶提供Gemini Pro。
Gemini Ultra是最大版本的Google人工智慧模型,最初將在開發者和企業公司的搶先體驗計劃中推出,有關該計劃的詳細資訊將於下周公布。這個版本將於明年稍早向公眾廣泛推出。
Gemini也能透過Bard與Google的大量應用程式和服務整合在一起,Bard是該公司的對話式聊天機械人,是ChatGPT的競爭對手。先前,Bard使用的是Google的PaLM 2模型,這是該公司在5月的年度開發者大會上宣布的大型語言模型。
在過去一年中,Google一直面臨壓力,既要重塑其核心搜尋業務,又要應對產生式人工智慧程式興起的浪潮。儘管該公司長期以來一直被視為人工智慧研究領域的先驅,但有些人批評其管理層在人工智慧產品行銷方面反應遲緩,尤其是在ChatGPT和影像產生器Dall-E等產品大獲成功之後。自從OpenAI於3月發布GPT-4以來,Google一直在努力重申其在該領域的領導地位,包括將這項新技術注入其成熟的搜尋業務。
Gemini就是該公司面對這種市場壓力給的答案。谷歌表示,人工智慧模型是“天然多模式”,這意味著它從一開始就經過預先訓練,可以處理用戶給出的基於文字和圖像的提示。例如,在一則影片示範中,Google展示了家長可以透過上傳某道某數學題的影像以及在草稿紙上嘗試解題的步驟照片,來幫助孩子完成家庭作業。
在示範影片中,Google的軟體工程師阿普爾鮑姆表示:「Gemini不僅能解出這些題目,還可以閱讀這些答案並理解哪些是對的,哪些是錯的,並對需要進一步澄清的概念作出解釋。」該公司還表示,其「搜尋產生體驗」——谷歌利用其產生式人工智慧技術構建的實驗版本的搜尋引擎——將在明年融入Gemini的新功能。
儘管如此,該公司的代表警告說,Gemini仍然容易“產生幻覺”,也就是產生式人工智慧產生的虛假或捏造的訊息。柯林斯稱這種現象為「一個未解決的研究問題」。該公司向記者展示的示範影片是預先錄製的。
柯林斯說,Gemini「在Google所有人工智慧模型中擁有最全面的安全評估」。他說,為了評估Gemini的安全性,Google對這款人工智慧模型進行了對抗性測試,也就是模仿一位試圖利用該程式的壞人給出提示。此次測試包括“真實毒性提示”,這是艾倫人工智慧研究所開發的一項測試,其中包含從網上提取的10萬多個提示,旨在幫助人工智慧研究人員檢查大型語言模型中是否存在仇恨言論和政治偏見。
谷歌也強調,這項工具的速度將會很快。該公司表示,Gemini使用了新的底層超級計算器架構和更新的處理晶片,使其比早期較小的車型執行得更快。谷歌正在使用一個新版本的雲端晶片-Cloud Tensor Processing Units (簡稱TPUs),這是一個內部設計的晶片,和前代產品相比,它訓練現有模型的速度要快2.8倍。谷歌機器學習副總裁阿明·瓦赫達特說,這種方法讓谷歌「對未來標準人工智慧基礎設施有了新的認識」。他補充說,該公司仍然會使用第三方人工智慧晶片來執行其Gemini模型。
Gemini將被整合到3月份推出的Google產生式人工智慧聊天機械人Bard當中,使其能夠利用該公司最受歡迎的服務,包括Gmail、地圖、檔案(Docs)和YouTube。此次推出將分為兩個不同的階段進行:從12月6日開始,Bard將由Gemini Pro提供支持,它將實現高階推理、規劃、理解和其他功能。它將能夠在170個國家和地區以英語執行,但值得注意的是,不包括歐洲或英國,該公司表示它正在與當地監管機構協商。
明年初,該公司打算發布Bard Advanced,這款產品將由功能更強大的Gemini Ultra模型提供支援。谷歌表示,它很快就會推出一個值得信賴的測試程序,以便在向公眾廣泛推出之前改進Bard Advanced。谷歌負責Bard產品的副總裁Sissie Hsiao表示,“有了Gemini的加持,Bard正在進行迄今為止最大、最好的升級,它將為人們開啟創作、互動和協作的新方式。”