趕在GoogleGemini發布前OpenAI要搶發「多模態」大模型

2023-09-19 Comments 0 Comment

據報道，OpenAI正在積極趕在谷歌Gemini發布前推出多模態大型語言模型（MLLM），即代號為Gobi的下一代大型語言模型，以擊敗谷歌並保持領先地位。本以為Google會在「多模態」大模型方面首次佔據領先地位，該公司的集大成之作——Gemini即將發布，預計將於今年秋天首次亮相，據報道正在與選定的企業客戶進行測試。

然而，OpenAI又要來截胡了。

根據媒體最新報道，OpenAI正積極努力將多模態功能（類似Gemini預計提供的功能）納入GPT-4，目標趕在Gemini發布前推出多模態大型語言模型（MLLM），即代號為Gobi的下一代大型語言模型，以擊敗谷歌並保持領先。

隨著ChatGPT在各個領域展現出非凡能力，多模態大型語言模型近來也成為了研究的熱點，它利用強大的大型語言模型（LLM）作為“大腦”，可以執行各種多模態任務。

MLLM展現了傳統方法所不具備的能力，例如能夠根據圖像創作故事、視覺知識問答、無需OCR（光學字符識別）的數學推理等，從自然語言理解到圖像解釋等，提供更廣泛的信息處理能力。

報道稱，OpenAI早在3月發布GPT-4時就預先展示了這些功能，但除了一家名為「Be My Eyes」的公司外，並沒有向其他公司開放。後者主要為有視力障礙或失明的人開發行動應用程式。六個月後，OpenAI正準備在更大範圍內推出被稱為GPT-Vision的功能。

為什麼OpenAI花了這麼長時間才推出這項功能？報導主要是擔心新的視覺功能會被不良行為者利用，例如透過自動解決驗證碼來冒充人類，或透過臉部辨識來追蹤人們。但OpenAI的工程師似乎接近解決圍繞這項新技術的法律擔憂。

谷歌也面臨這個問題，當該公司被問及正在採取哪些措施來防止Gemini濫用時，谷歌發言人指出，該公司在7月份做出了一系列承諾，以確保其所有產品能夠負責任地開發。

然而，考慮到Google擁有與文字、圖像、影片和音訊相關的專有數據（包括來自搜尋和YouTube等平台的數據），該行業向多模態模型的發展可能會有利於發揮谷歌的優勢。一位使用過早期版本的人說，與現有的模型相比，Gemini似乎已經產生了更少的錯誤答案。

OpenAI執行長Sam Altman在最近的各種訪談中暗示，GPT-5還沒有出現，但他們計劃對GPT-4進行各種增強，新的增強模型可能是其中之一。

報導稱，OpenAI似乎還沒有開始訓練Gobi，所以現在就說它最終會成為GPT-5還為時過早。

在上週接受《連線》雜誌採訪時，GoogleCEO皮查伊表達了他對Google目前在AI領域地位的信心，並認可技術進步的持久性，以及他們在平衡創新與責任方面深思熟慮的策略。

無論如何，這場競賽就相當於人工智慧版的iPhone與Android。人們屏息以待Gemini的到來，它將揭示Google和OpenAI之間的差距到底有多大。

風險提示及免責條款

市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用戶特殊的投資目標、財務狀況或需要。使用者應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30

WONGCW 網誌

記錄生活經驗與點滴

趕在GoogleGemini發布前OpenAI要搶發「多模態」大模型

2023-09-19 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆