Google推出新人工智慧模型雙子座(Gemini)1.0版效能甚至超越GPT-4

早前有消息指出Google下一代人工智慧模型雙子座發佈時間被延遲到明年年初，原因是在非英語上的表現不太好，但現在Google還是推出了雙子座1.0 版，而且可能確實非英語水平不太好，因為初期僅支援英語。

根據Google的說法雙子座人工智慧模型在效能上拉滿，在一大堆基準測試中名列前茅，而且最重要的是雙子座同時支援伺服器、PC 和智慧型手機，也就是在智慧型手機上也可以呼叫本地硬體進行計算。

當然受限於行動裝置的算力，雙子座有幾個版本，其中面向手機的是Gemini Nano 版，其性能與Ultra 版還是有差距的。

雙子座1.0 版提供三種：

Gemini Ultra 版：最大、能力最好的模型，適用於高度複雜的任務

Gemini Pro 版：可以進行各類任務擴展的最佳模型

Gemini Nano 版：在裝置端運行的最高效的模型

雙子座的一些亮點介紹：

性能方面：

從自然影像、音訊和視訊理解到數學推理，Gemini Ultra 版在各類學術基準測試中名列前茅，甚至超過了OPENAI GPT-4。

例如在MMLU (大規模多任務語言理解) 基準測試中超越了人類專家的模型，該模型結合了數學、物理、歷史、法律、醫學和倫理學等57 個學科來測試知識和解決問題的能力。

在影像基準測試中在無需借助OCR 光學辨識系統的基礎上，也由於其他典型模型。

有關此方面有興趣的用戶可以閱讀Google發布的學術報告：https://goo.gle/GeminiPaper

下一代性能：

目前多模態模型主要是將不同模態的模型拼接到一起，Google認為這些模型有時候擅長處理某些任務例如描述影像，但難以處理更概念性和複雜的推理。

雙子座模型則是原生多模態，從一開始就針對不同模式進行了訓練，然後再使用額外的多模態資料進行微調，從而有效提高其性能。

這有助於雙子座模型從頭開始無縫理解和推理各種輸入，其性能遠遠優於現有的多模態模型，並且功能幾乎在每個領域都是最先進的。

複雜的推理：

雙子座1.0 版複雜的多模態推理功能可以幫助理解更複雜的書面和數學信息，這使得它在發現大量數據中難以辨別的知識方面具有獨特的能力。

雙子座可以從數十萬份文件中閱讀、過濾、理解和提取訊息，這有助於從科學到金融等許多領域實現以數位速度實現新的突破。

理解文字、圖像和音訊等：

雙子座1.0 版經過訓練可以同時識別和理解文字、圖像和音訊等，因此它可以更好地理解某些微妙的信息，並可以回答與複雜主題相關的問題，這使得雙子座特別擅長解釋數學和物理等複雜學科的推理。

進階編程功能：

雙子座1.0 版還可以理解、解釋和產生流行程式語言例如Python、Java、C++ 和Go 等的高品質程式碼，它的跨語言工作和推理複雜資訊的能力使其成為世界領先的程式設計基礎模型之一。

Gemini Ultra 版在許多程式設計基準測試中表現出色，也可以用作更高階程式系統的引擎。

Google還基於Gemini Ultra 創建了AlphaCode 2，該模型擅長解決超出程式設計範圍、涉及複雜數學和理論計算機科學的競爭性程式設計問題。

首發版本為Gemini Pro 版：

從今天開始Google Bard 將使用Gemini Pro 的微調版本來進行更高級的推理、計劃和理解等，它將在170 多個國家或地區提供英語版本，Google計劃在不久後擴展到不同模型、支持更多語言。

Pixel 8 Pro 引進Gemini Nano 版：

Google也將雙子座引入Pixel 8 Pro，在錄音機等應用中提供總結。後續WhatsApp、Gboard 等也會整合Gemini Nano。

接下來幾個月裡Google也會將雙子座整合到更多產品裡，包括搜尋、廣告、Chrome 和Duet AI 等。

WONGCW 網誌