OpenAI開發者大會派禮包:大幅降低模型成本AI語音加持App
OpenAI舉行了年度開發者大會DevDay,今年的大會並沒有任何重大的產品發布,相比去年大會顯得更低調,但OpenAI也為開發者派發了幾個大“禮包”,對現有的人工智慧(AI)工具和API套件做了改進。
本次OpenAI DevDay推出一系列新工具,主要包括四大創新:提示詞緩存(Prompt Caching)、視覺微調(Vision Fine-Tuning)、即時API(Realtime API)、模型蒸餾(Model Distillation),在降低模型成本、提高模型視覺理解程度、提升語音AI功能和小模型性能方面,為開發者帶來福音。
有評論稱,今年DevDay的重點是提高開發者的能力和展示開發者圈子的故事,這表明隨著AI領域的競爭日益激烈,OpenAI的戰略發生了轉變。上述新工具突顯,OpenAI的策略重點是:增強其開發者的生態系統,而不是直接在終端使用者應用領域競爭。
有媒體提到,在DevDay活動前的記者會上,OpenAI的首席產品長Kevin Weil談及最近OpenAI首席技術官Mira Murati和首席研究官Bob McGrew離職,稱他們離開不會影響公司發展,「我們不會放慢腳步」。
提示詞快取(Prompt Caching)可減少輸入token成本多達50%
提示詞快取被視為本次DevDay發布的最重要更新。此功能旨在降低開發者的成本、減少延遲。
OpenAI引入的提示詞快取系統會自動對模型最近處理的輸入token提供50%的折扣,這可能會讓經常重複使用上下文的應用程式App得到大量節省。如此大幅降低成本為企業和新創公司提供了探索新應用的重大機遇,因為這些應用以前由於費用高昂而無法實現。
OpenAI 平台產品負責人Olivier Godement稱,兩年前GPT-3大獲成功,現在OpenAI已經將相關成本降低了將近1000倍。他舉不出來其他任何一個兩年內能將成本降低同樣幅度的例子。
以下OpenAI的圖表展示了,提示詞快取可以大幅降低應用AI模型的成本,相較於各種GDP模型的非快取token,快取輸入token的成本可以減少多達50%。
視覺微調(Vision Fine-Tuning):視覺AI新前沿
OpenAI DevDay公佈,OpenAI最新的大語言模型(LLM) GPT-4o 引入了視覺微調。此功能讓開發者能用圖像和文字自訂模型的視覺理解功能。
這是被稱為視覺AI新前沿的重大更新。它可能會對自動駕駛汽車、醫學影像和視覺搜尋功能等領域產生深遠影響。
OpenAI 稱,東南亞版「美團+滴滴」 Grab 已經利用這項技術改進其地圖服務。僅使用100 個範例,Grab 就讓車道計數的準確率提高了20%,限速標誌定位率提高13%。
這種現實世界的App展示了視覺微調的可能性,即使用小批量的視覺訓練數據,顯著增強各行各業的AI服務。
即時API(Realtime API)彌補對話式AI 的差距
OpenAI DevDay發布了即時API,目前處於公開測試beta階段。即時API 本質上簡化了建構語音助理和其他對話式AI 工具的過程,無需將多個模型拼接在一起進行轉錄、推理和文字到語音的轉換。
這項新產品讓開發人員能創造低延遲的多模態體驗,尤其是在語音轉語音App。這意味著開發人員可以開始將ChatGPT 的語音控制添加到App。
為了說明該API 的潛力,OpenAI 展示了Wanderlust 的更新版本,它是一款在去年大會上展示的旅行規劃App。
透過即時API,使用者可以直接與新版App對話,進行自然對話來規劃行程。這個系統甚至允許使用者在語句中間打斷,模仿人類之間的對話。
旅行規劃只是一個例子,即時API 為各行業的語音App開闢了廣泛的可能性。無論是專攻客服、教育領域或殘障人士使用的無障礙工具,開發者現在都可以利用新的資源創造更直覺、反應更快的AI驅動體驗。
包括營養和健身指導App Healthify 和語言學習平台Speak在內,一些App已經將先行一步,將即時API整合到自身產品中。
有評論稱,即時API 的定價並不便宜,每分鐘音訊輸入收費0.06 美元,每分鐘音訊輸出收費0.24 美元,但對於希望創建基於語音App的開發人員來說,它仍然可以代表一個重要的價值主張。
模型蒸餾(Model Distillation)讓小模型也可擁有尖端模型功能
模型蒸餾被視為OpenAI此次最具變革性的新工具。這種整合的工作流程讓開發人員能透過使用諸如GPT o1-preview 和GPT-4o這類尖端模型的輸出,對相對較小且經濟實用的高校模型進行微調,從而提高更高效模型、如GPT- 4o mini的性能。
這種方法讓小公司也可能利用與尖端模型類似的功能,並且無需承擔使用這類模型的計算成本。它有助於化解AI 行業長期以來在尖端、資源密集型系統與更易於訪問但功能較弱的系統之間的鴻溝。
例如一家從事醫療技術的小型新創公司要為農村的診所開發一種AI 驅動的診斷工具。使用模型蒸餾,該公司可以訓練一個緊湊的模型,該模型可以捕捉大模型的大部分診斷能力,同時只需要在標準的筆記型電腦或平板電腦上運行。
因此,模型蒸餾可以讓資源受限的環境也能享有複雜的AI 功能,有可能提高醫療服務欠發達地區的醫療保健水準。