當Google的Gemini效能超越GPT-4 對創業家意味著什麼?
真正能與GPT-4正面比拼表現的AI基礎模型終於出現了。北京時間12月7日凌晨,Google DeepMind發布了Gemini系列AI基礎模型,它分為Gemini Ultra,Gemini Pro,Gemini Nano三個版本,其中Gemini Ultra在32個測試中的30個超越了之前的SOTA模型,Gemini Pro會成為Bard背後的模型,而Gemini Nano將搭載於Pixel 8 Pro,是定位在端側的模型。
Gemini是原生多模態的模型,直接和GPT-4和GPT-4V對標,而且Google在安全性上經過了加強,它經過最全面安全評估,包括偏見和有害內容方面,還能防護包括網路攻擊、「越獄」在內的潛在風險。
Google為開發者和企業客戶推出了Google AI Studio和Vertex AI,Google AI Studio是一個免費的基於網絡的開發者工具,開發者可以利用API快速構建AI應用,Vertex AI則允許企業用戶定制Gemini,並完全控制數據。
Gemini是原生多模態大模型,大部分效能超越GPT-4
今年3月中旬,OpenAI的GPT-4發布,其性能對其他AI基礎大模型呈現碾壓之勢,這讓Google感到深刻的威脅。4月21日,Google將Google Brain和DeepMind兩個最強大的AI實驗室合併,集中精銳的研究力量,並讓DeepMind的創辦人Demis Hassabis來領導公司。
與OpenAI一樣,Hassabis一直以來的願景也是打造AGI,他在發布會中表示:「我始終相信,如果我們能夠建造更聰明的機器,就能利用它們以難以置信的方式造福人類。長期以來,我們一直希望建立新一代的人工智慧模型,這些模型的靈感來自於人類理解和與世界互動的方式。這樣的人工智慧,感覺上不像是一款智慧軟體,更像是一種有用且直觀的東西——一個專家助手或助理。”
高效能的原生多模態模型系列
Gemini系列AI基礎模型分為Gemini Ultra,Gemini Pro,Gemini Nano三個版本。
其中Gemini Ultra適用於高度複雜的任務;Gemini Pro是效能與尺寸最平衡的版本,適用於多種任務的擴充;Gemini Nano則適用於端側,可直接搭載於行動裝置。
不過Gemini Ultra還需要完成更嚴格的信任和安全檢測,以及紅隊測試和RLHF,才能推向市場,它的上線時間會是2024年初,主要面對開發者和企業客戶。
在性能方面,從自然圖像、音訊和視訊理解到數學推理,GeminiUltra在32個廣泛使用的學術基準測試中的30個上超越了當前的最先進結果。
其中Gemini Ultra以90.0%的成績成為首個在MMLU(大規模多任務語言理解)上超越人類專家的模型,該測試結合了數學、物理、歷史、法律、醫學和倫理等57個科目,用於測試世界知識和解決問題的能力。
此外,值得注意的是,在與推理、數學和編碼等幾個評判大模型真正能力的測試中,Gemini Ultra幾乎是全面領先GPT-4的。
以下是Gemini的技術資料裡更詳細的對比,能夠了解到Gemini Ultra和Gemini Pro與主流模式的效能差異。
在多模態能力的對比中,無論是圖片,視頻還是音頻,Gemini Ultra也在大多數測試中超越了GPT-4V,這些測試凸顯了Gemini的原生多模態特性,並表明了Gemini更複雜推理能力的早期跡象。
另外,在更複雜的MMMU基準測試中Gemini Ultra取得了領先的59.4%的得分,該基準測試包含了跨不同領域、需要深思熟慮的推理的多模態任務。
先前,創建多模態模型的標準方法涉及分別訓練不同模態的組件,然後將它們拼接在一起以大致模仿這些功能。這些模型有時在執行某些任務(如描述圖像)方面表現良好,但在更概念性和複雜的推理上則有所掙扎。
Gemini則是原生的多模態模型,它一開始就在不同的模態上進行預訓練,然後Google再用額外的多模態資料對其進行了微調,以進一步提高其效果。這有助於Gemini從根本上無縫理解和推理各種輸入。
這也讓Gemini能夠很好的理解文字、圖像、音訊等內容,能夠適應更多複雜的應用需求。
對於生成式AI非常重要的程式編碼需求,Google使用一個專有版本的Gemini,創建了一個更高級的程式碼生成系統AlphaCode 2,它擅長解決超出編碼範疇、涉及複雜數學和理論計算機科學的競賽程式設計問題。
AlphaCode 2相比先前的AlphaCode顯示出巨大的進步,據估計它的表現優於85%的人類參賽者,而AlphaCode的數據是超越近50%參賽者。
負責任的大廠,強大的安全性
除了效能提升外,作為一個科技大廠,Google一直在人工智慧的安全性上十分重視。具體到Gemini,Google做了以下措施:
1.對模型進行全面安全評估的,包括偏見和有害內容方面。
2.利用對抗測試技術,協助事先辨識Gemini部署中的關鍵安全問題。
3.與多元化的外部專家和合作夥伴合作,對Gemini在一系列問題上進行壓力測試。
4.為了限制傷害,Google建立了專門的安全分類器來識別、標記和篩選涉及暴力或負面刻板印象的內容。
5.與產業和更廣泛的生態系統合作,例如MLCommons、前沿模型論壇及其AI安全基金。
Gemini Pro加持的Bard,針對開發者和企業用戶的Google AI Studio和Vertex AI
在產品方面,Google會將Gemini模型的能力擴展到各種服務中,例如搜尋、廣告、Chrome和Duet AI(企業級效率應用)。
直接對標ChatGPT的Bard,將會把背後的模型從PaLM2,換成經過精細調整的Gemini Pro版本,以實現更高階的推理、規劃、理解等功能。不過雖然Bard已經在170多個國家和地區提供服務,未來Google會開放更多的模態,並支援新的語言和地區。
明年初,Google將推出Bard Advanced,它背後的型號將是Gemini Ultra,而不是Gemini Pro。
Gemini Nano這個面向端側的小參數模型將搭載在Google的Pixel 8 Pro手機上,提供例如錄音摘要,Gboard的智慧回復等功能,未來還有更多可能性。
此外,從12月13日開始,Google會為開發者和企業客戶提供Gemini API以存取Gemini Pro模型。
Google AI Studio是一個免費的基於網路的開發者工具,開發者可以使用API快速建立產品原型並驗證產品功能。
Vertex AI讓企業用戶可以自訂Gemini,並完全控制數據,它還提供完全託管的服務,並為模型的安全、隱私以及數據治理和合規性負責。
更強大的基礎模型,讓創業者有更多更便宜的選擇
儘管仍需要到實際場景中檢驗,但是Gemini Ultra是第一款真正意義能力與GPT-4持平或超越的AI模型,此前的Claude2和Inflection2只是在部分細分測試上追上了GPT-4的分數。
在技術上,Gemini模型原生多模態的典範代表了大模型的發展方向,在未來2-3年內,新推出的大模型都應該是多模態大模型。而只有大模型具有了多模態能力,它才有可能完整的「理解」世界,才有可能在未來誕生AGI的雛形。
此外,部署在行動端的Gemini Nano模型也代表了另一個趨勢,相比聯網使用雲端的大模型,端側模型雖然通用能力上欠缺,但是更靈活,更安全,經過微調後在特定任務上也具有高可用性。隨著端側AI算力的不斷增強,它應該具有不小的開發潛力。
在生態建設上,Google提供為開發者提供了API和應用建立工具Google AI Studio,讓開發者可以使用先進的AI模型來建立自己的原生AI應用。它也為企業用戶提供模型客製化和模型部署的服務。
這些做法,與Meta,Amazon,百度,阿里等科技巨頭較為類似,它們都想透過生成式AI重塑自己的業務,並建立新的生態,從而打開第二成長曲線。
其中Meta和阿里更激進些,不但有雲平台,而且開源了自己的基礎模型(llama2,通義千問);Amazon的力度也不小,不僅提供自己的閉源模型,還接入了Claude等第三方的先進模型。
當然,在產品和生態打造上,目前最成功的仍然是OpenAI的ChatGPT、助手API和GPTS。而他成功的基礎,又是基於能力強的GPT-4。
所以,當Gemini Ultra的能力趕上GPT-4後,對於創業者意味著什麼?
首先,這讓人都是產品經理越來越成為現實,有產品想法和能力的人可以更快更低成本的驗證自己的想法,而不需要太多的開發經驗。
對於那些具有產品能力和開發能力的個人創業者,現在除了GPT-4外有了另一個足夠強大的模型可用,而且競爭有可能使得API的成本降低,具有更多的試錯空間。
對於基於API或客製化模型打造垂直產業應用的新創公司,與開發者一樣,他們有了更多的選擇,並有望降低成本。但真正的成本降低,可能還是得等夠高效率、低成本得算力晶片成熟。