OpenAI最新的人工智慧模型可以「用圖像思考」 理解圖表和草圖
OpenAI發布了其最新的人工智慧模型,據稱該模型可以理解上傳的圖像,如白板、草圖和圖表,但它們品質很低。該公司稱o3是迄今為止最先進的模型,並發布了一款較小的型號o4-mini。隨著Google 、Anthropic和馬斯克的xAI等競爭對手加快開發步伐,OpenAI正在競相在生成式人工智慧領域保持領先。

OpenAI發布了其最新的人工智慧模型,據稱該模型能夠“用圖像思考”,這意味著它可以理解和分析用戶的草圖和圖表,但它們的品質很低。
OpenAI的主要新推理模型稱為o3,該公司同時發布了一個較小的模型,名為o4-mini。在此之前,OpenAI的第一個推理模型o1於去年9月首次亮相,該模型專注於解決複雜問題,並分多個步驟仔細考慮答案。
使用者使用o3,可以上傳白板、草圖和其他圖像,並讓AI分析和討論它們。這些模型還可以旋轉、縮放和使用其他圖像編輯工具。
自2022年底推出火爆的ChatGPT聊天機器人以來,OpenAI一直在迅速升級其模型,使其遠遠超越文本,進入圖像、語音和視訊領域。該公司正努力在生成式人工智慧領域保持領先地位,在這一領域,它面臨著來自Google、Anthropic和馬斯克的xAI等競爭對手的激烈競爭。
OpenAI寫道:“我們的推理模型第一次可以獨立使用所有ChatGPT工具——網頁瀏覽、Python、圖像理解和圖像生成。”“這有助於他們更有效地解決複雜的、多步驟的問題,並邁出獨立行動的真正步驟。”
該公司在上個月的一輪融資中估值為3000億美元。該公司表示,o3和o4-mini是其首批能夠「用圖像思考」的人工智慧模型。根據OpenAI的說法,這意味著“它們不僅可以看到圖像,還可以將視覺訊息直接整合到推理鏈中。”
上個月,OpenAI發布了一個本地圖像生成功能,該功能可以生成吉卜力工作室風格的動畫圖像,在網路上瘋傳。
OpenAI表示,其o3模型特別針對數學、編碼、科學和圖像理解進行了調整,而o4-mini運行速度更快,成本更低。從週三開始,ChatGPT Plus、Pro和Team客戶都可以使用這兩款機型。
OpenAI的用戶社群長期以來一直開玩笑說,OpenAI的模型名稱奇怪或令人困惑。首席執行官薩姆·奧特曼本周也加入了這個玩笑,他在X上寫道:“我們在今年夏天之前修復我們的模型命名,然後每個人都有幾個月的時間來取笑我們(這是我們應得的),怎麼樣?”
該公司還表示,這兩款模型都“在我們迄今為止最嚴格的安全計劃下進行了壓力測試”,並與本週早些時候更新的“準備框架”相關聯。
OpenAI最近因其安全預防措施和流程的變化而受到抨擊。該公司本週表示,如果“另一家前沿人工智慧開發人員發布了一個沒有類似保障措施的高風險系統”,它保留“改變其安全要求”的權利。
在本週改變政策時,OpenAI寫道,它將不再需要對某些微調模型進行安全測試。該公司還避免為其GPT-4.1型號發布“模型卡”,即一份包含模型發布前所做安全測試資訊的報告。今年2月,OpenAI在發布其係統卡前幾週推出了人工智慧代理工具Deep Research。