趕在GoogleGemini發布前OpenAI要搶發「多模態」大模型
據報道,OpenAI正在積極趕在谷歌Gemini發布前推出多模態大型語言模型(MLLM),即代號為Gobi的下一代大型語言模型,以擊敗谷歌並保持領先地位。本以為Google會在「多模態」大模型方面首次佔據領先地位,該公司的集大成之作——Gemini即將發布,預計將於今年秋天首次亮相,據報道正在與選定的企業客戶進行測試。
然而,OpenAI又要來截胡了。
根據媒體最新報道,OpenAI正積極努力將多模態功能(類似Gemini預計提供的功能)納入GPT-4,目標趕在Gemini發布前推出多模態大型語言模型(MLLM),即代號為Gobi的下一代大型語言模型,以擊敗谷歌並保持領先。
隨著ChatGPT在各個領域展現出非凡能力,多模態大型語言模型近來也成為了研究的熱點,它利用強大的大型語言模型(LLM)作為“大腦”,可以執行各種多模態任務。
MLLM展現了傳統方法所不具備的能力,例如能夠根據圖像創作故事、視覺知識問答、無需OCR(光學字符識別)的數學推理等,從自然語言理解到圖像解釋等,提供更廣泛的信息處理能力。
報道稱,OpenAI早在3月發布GPT-4時就預先展示了這些功能,但除了一家名為「Be My Eyes」的公司外,並沒有向其他公司開放。後者主要為有視力障礙或失明的人開發行動應用程式。六個月後,OpenAI正準備在更大範圍內推出被稱為GPT-Vision的功能。
為什麼OpenAI花了這麼長時間才推出這項功能?報導主要是擔心新的視覺功能會被不良行為者利用,例如透過自動解決驗證碼來冒充人類,或透過臉部辨識來追蹤人們。但OpenAI的工程師似乎接近解決圍繞這項新技術的法律擔憂。
谷歌也面臨這個問題,當該公司被問及正在採取哪些措施來防止Gemini濫用時,谷歌發言人指出,該公司在7月份做出了一系列承諾,以確保其所有產品能夠負責任地開發。
然而,考慮到Google擁有與文字、圖像、影片和音訊相關的專有數據(包括來自搜尋和YouTube等平台的數據),該行業向多模態模型的發展可能會有利於發揮谷歌的優勢。一位使用過早期版本的人說,與現有的模型相比,Gemini似乎已經產生了更少的錯誤答案。
OpenAI執行長Sam Altman在最近的各種訪談中暗示,GPT-5還沒有出現,但他們計劃對GPT-4進行各種增強,新的增強模型可能是其中之一。
報導稱,OpenAI似乎還沒有開始訓練Gobi,所以現在就說它最終會成為GPT-5還為時過早。
在上週接受《連線》雜誌採訪時,GoogleCEO皮查伊表達了他對Google目前在AI領域地位的信心,並認可技術進步的持久性,以及他們在平衡創新與責任方面深思熟慮的策略。
無論如何,這場競賽就相當於人工智慧版的iPhone與Android。人們屏息以待Gemini的到來,它將揭示Google和OpenAI之間的差距到底有多大。
風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用戶特殊的投資目標、財務狀況或需要。使用者應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。