處於多事之秋的OpenAI 決定拯救開發者預算
高階主管離職、蘋果退出融資磋商,對OpenAI來說,這無疑是動盪的一週。但OpenAI仍在堅持說服開發者使用他們的AI模型建立應用程式。美國當地時間10月1日,OpenAI在舊金山舉辦了DevDay。與去年的盛大活動不同,今年更為低調,轉為開發者導向的路演。
這次,OpenAI沒有發布重大產品,而是對現有的AI工具和API套件進行了漸進式改進。
他們公佈了四項創新:視覺微調(Vision Fine-Tuning)、即時API (Realtime API)、模型蒸餾(Model Distillation)和提示緩存(Prompt Caching)。
例如即時API的公開測試版能讓開發者製作應用程序,並讓其快速產生AI語音回應。這項新技術不僅反應速度快,而且提供了六種不同的聲音選項,聲音都是由OpenAI自行開發,避免了第三方版權問題。該API沒有「複製」ChatGPT的高階語音模式,但功能基本上相近。
OpenAI的開發者體驗主管羅曼·於特(Romain Huet)也在現場示範如何使用o1在約30秒內透過一個提示建立一個iPhone iOS應用程式。
於特演示建立iPhone iOS應用程式。圖片來源:Romain Huet的X
過去兩年,為了應對Meta和Google等競爭對手的市場壓力,OpenAI已將開發者存取其API的成本降低了99%。而從新工具的脈絡中可以摸索出,OpenAI策略更傾向於增強其開發者生態系統,而不是直接在終端用戶應用領域競爭。
在活動前,OpenAI的首席產品長凱文·韋爾(Kevin Weil)提及,首席技術官米拉·穆拉蒂(Mira Murati)和首席研究官鮑勃·麥格魯(Bob McGrew)的離職不會影響公司的長遠發展。他表示儘管“人事頻頻變動”,但OpenAI仍能“維持發展勢頭”。
隨著Google和蘋果等科技集團競相向消費者推出所謂的人工智慧代理,OpenAI認為AI助理將在明年「成為主流」。 AI助理的能力,包括推理和完成複雜任務等,已成為科技公司爭奪市場的最新戰場,每家都希望藉助這項迅速發展的技術來開闢收入來源。
「希望AI的互動方式能夠涵蓋人類互動的所有方式。」韋爾說道,「代理系統的發展將使這種互動成為可能。」簡而言之,即讓AI能夠模仿或複製人類在交流和互動中的各種方式,無論是語言交流、情感表達或非言語交流等,使得人與AI之間的互動盡可能自然且無縫。
除了OpenAI,其他公司如微軟、Salesforce和Workday也在將代理功能置於其AI計劃的核心,而Google和Meta也表示,將AI模型整合到其產品中是他們的重點領域。
去年,OpenAI發布了“Assistants API”,讓開發者能夠利用其技術建立代理。但他們也透露,由於早期模型的功能有限,計劃受到了一定的阻礙。
韋爾提到,OpenAI最新的模型在思考和推理方面的提升將反映在其產品上,如ChatGPT以及那些利用其API構建應用的新創公司和開發者,但並未透露他們是否會立即開發自己的AI代理。
OpenAI現場示範了與AI系統對話任務:幫助尋找並購買當地可獲得的產品。例如購買草莓,隨後AI將根據用戶的指示打電話給商家下單。
AI根據提示購買草莓的演示,圖片來源:Ken Collins的X
OpenAI強調,任何利用這個技術的人必須明確表明其為AI而非人類,並且只為開發者提供有限的預設選項,而不能創造新的聲音。
韋爾表示:“如果我們做得對,我們將有更多時間投入到重要事務上,而不再需要時刻盯著手機的時間。”
1.提示快取:開發者預算的救星
「提示快取」功能是這次活動最重要的推出之一,它用於降低開發人員的成本和延遲。
許多開發者在建立AI應用時會在多個API呼叫中重複使用相同的上下文,例如在編輯程式碼庫或與聊天機器人進行長時間的多輪對話時。提示快取透過重複使用最近看到的輸入令牌,自動對模型最近處理的輸入標記套用50%的折扣。
與各種GPT模型中的非快取tokens相比,快取輸入tokens可節省高達50% 的成本。圖片來源:OpenAI
提示快取的可用性與定價從今天起,提示快取將自動應用於GPT-4o、GPT-4o mini、o1-preview和o1-mini的最新版本,以及這些模型的微調版本。與未緩存的提示相比,快取的提示提供了折扣。
對受支援模型的API呼叫將自動從提示快取中受益,適用於長度超過1024標記的提示。 API快取之前計算過的提示的最長前綴,從1024標記開始,以128標記為增量。如果使用者多使用具有常見前綴的提示,OpenAI將自動套用提示快取折扣,使用者則無需對API整合進行任何變更。
快取通常在5到10分鐘的不活動後被清除,並且在快取最後使用後的一小時內總是被移除。與所有API服務一樣,提示快取受OpeAI的企業隱私承諾約束。提示快取不在組織之間共用。
成本的顯著降低為各類企業開發以往因成本過高而難以實現的新應用提供了機會。
OpenAI平台產品負責人奧利維爾·哥德門特(Olivier Godement)在OpenAI舊金山總部舉辦的小型新聞發布會上發言:「我們一直非常忙碌。兩年前GPT-3在同類技術中處於領先位置,但現在我們已經實現了將相關成本降低近1000倍。
2.視覺微調:視覺AI的新前沿
另一項重大公告是OpenAI最新大型語言模型GPT-4o引進了視覺微調功能。開發者不僅可以對文字進行微調,還可以對影像進行微調,這或將可能改變自動駕駛汽車、醫學成像和視覺搜尋功能等領域。
自從引入文字微調功能以來,已有數十萬名開發者利用純文字資料集來最佳化模型以提高特定任務的效能。但在很多情況下,僅憑文字微調並不能滿足所有需求。透過視覺微調,開發者可以透過簡單地上傳至少100張圖像來優化GPT-4o模型,以提升其在視覺任務中的表現,特別是在處理大量的文字和圖像資料時。
據OpenAI稱,東南亞領先的食品配送和共乘公司Grab已經利用這項技術來改進其地圖服務。僅使用100個範例,Grab就將車道計數準確率提高了20%,限速標誌定位準確率提高了13%。
視覺微調GPT-4o 模型成功標記的限速標誌範例,圖片來源:OpenAI
Automat公司使用視覺微調訓練GPT-4o識別螢幕上的UI元素,基於螢幕截圖資料集,從而提高其自動化工具的成功率。透過這種方式,Automat的機器人代理的成功率從原來的16.60%提升到61.67%。
桌面機器人透過使用網站截圖的視覺微調成功識別UI元素中心,來源:OpenAI
視覺微調現實世界的應用程式展示了視覺微調的可能性,可以使用小批量的視覺訓練資料顯著增強各行各業的AI服務。
視覺微調功能現已對所有付費用戶開放,支援最新的GPT-4o模型。開發人員可以利用這些功能來擴展現有的影像微調訓練資料集。此外,OpenAI提供了每天100萬個免費訓練令牌,直至2024年10月31日。之後微調訓練和推理的費用將進行調整。
3.即時API:彌合對話式AI之間的差距
即時API目前處於公開測試階段。它能讓開發人員能夠創造低延遲、多模式體驗,尤其是在語音轉語音應用程式中。這意味著開發人員可以開始將ChatGPT的語音控制添加到應用程式中。
為了說明該API的潛力,OpenAI示範了Wanderlust的更新版本,Wanderlust是去年會議上展示的旅行計畫應用程式。
透過即時API,使用者可以直接與應用程式對話,以自然對話的方式規劃行程。這個系統甚至允許在說話過程中打斷,模仿人類對話。
Healthify是一款營養和健身指導應用程序,它使用即時API 實現與AI的自然對話。圖片來源:OpenAI
雖然旅行計劃只是一個例子,但即時API為各行業的語音應用程式開闢了廣泛的可能性。從客戶服務到教育和輔助功能工具,開發人員現在擁有強大的新資源來創造更直覺、更快速回應的人工智慧驅動體驗。
哥特門特解釋:“每當我們設計產品時,我們基本上都會同時考慮新創公司和企業。因此在alpha階段,我們有許多企業使用API,以及新產品的新模型。”
即時API本質上簡化了建構語音助理和其他對話式AI工具的過程,無需將多個模型拼接在一起進行轉錄、推理和文字到語音的轉換。
早期採用者如營養和健身指導應用程式Healthify和語言學習平台Speak已經將即時API整合到他們的產品中。 API在醫療保健到教育等領域創造更自然、更具吸引力的使用者體驗的潛力。
即時API的定價結構雖並不便宜(每分鐘音訊輸入0.06美元、每分鐘音訊輸出0.24美元),但對於希望創建基於語音的應用程式的開發人員來說,仍代表者一個重要的價值主張。
4.模型蒸餾:邁向更易於存取的AI
這也許最具變革性的公告是引入了模型蒸餾。
它整合的工作流程能讓開發人員使用o1-preview和GPT-4o等高階模型的輸出來提升GPT-4o mini等更有效率模型的效能。小公司也能使用先進模型類似的功能,不用擔心承擔不起計算成本。
微調演示,來源:OpenAI
模型蒸餾解決了AI行業長期存在的尖端、資源密集型系統與更易於訪問但功能較弱的系統之間的差距。
假設一家小型醫療技術新創公司正在為農村診所開發一款人工智慧診斷工具,團隊使用模型蒸餾可訓練一個小模型,它能在標準筆記型電腦或平板電腦上運行,也能捕捉大型模型的大部分診斷能力。
這能將複雜的人工智慧能力帶入資源受限的環境,進而改善醫療服務不足地區的醫療保健結果。
從這次更新不難看出,OpenAI在策略上的重要轉折——更注重於生態系統的開發而非單純追求引人注目的產品發布,雖然策略對大眾的吸引力可能不如產品發布那麼直接。
與2023年充滿熱情、推出了GPT商店和自訂GPT工具的開發者日相比,今年的活動顯得低調許多。 AI領域的快速變化,以及競爭對手的顯著進步和對訓練資料可用性的日益關注,促使OpenAI更加專注於完善現有工具和增強開發者能力,以應對這些變化。
透過提高模型的效率和降低成本,OpenAI希望維持在激烈競爭中的優勢,並解決資源密集和環境影響的問題。 OpenAI的成功將在很大程度上依賴其能否有效培育一個充滿活力的開發者生態系統。
參考資料:
《Introducing the Realtime API》,OpenAI
《Introducing vision to the fine-tuning API》,OpenAI
《Prompt Caching in the API》,OpenAI
《Model Distillation in the API》OpenAI
《OpenAI’s DevDay 2024: 4 major updates that will make AI more accessible and affordable》,VentureBeat
《OpenAI’s DevDay brings Realtime API and other treats for AI app developers》,TechCrunch
(封面圖來源:OpenAI)