GPT-4o加錢能變快新功能「預測輸出」7秒完成原先23秒的任務
OpenAI 出了個新功能,直接讓ChatGPT 輸出的速度原地起飛!這個功能叫做「預測輸出」(Predicted Outputs),在它的加持之下,GPT-4o 可以比原先快至多5 倍。以程式設計為例,來感受一下這個feel:
為啥會這麼快?用一句話來總結就是:
跳過已知內容,不用從頭開始重新生成。
因此,「預測輸出」就特別適合以下這些任務:
在文件中更新部落格文章
迭代先前的回應
重寫現有文件中的程式碼
而且與OpenAI 合作開發這個功能的FactoryAI,也亮出了他們在程式設計任務上的數據:
從實驗結果來看,「預測輸出」加持下的GPT-4o 反應時間比之前快了2-4 倍,同時保持高精度。
且官方也表示:
原先需要70 秒完成的程式設計任務,現在只需要20 秒。
值得注意的是,目前「預測輸出」功能僅支援GPT-4o 和GPT-4o mini 兩個模型,且是以API 的形式。
對開發者而言,這可以說是個好消息了。
網友們在線上實測
消息一出,眾多網友也坐不住了,反手就是實測一波。
例如Firecrawl 創辦人Eric Ciarla 就用「預測輸出」體驗了一把將部落格文章轉為SEO(搜尋引擎優化)的內容,然後他表示:
速度真的超快。
它就像在API 呼叫中添加一個預測參數一樣簡單。
另一位網友則是在已有的程式碼之上,「餵」了一句Prompt:
將詳細資訊變更為隨機文字片段。
將詳細資訊變更為隨機文字片段。
來感受一下這個速度:
也有網友發出了自己實測的數據:
總而言之,快,是真的快。
怎麼做到的?
對於「預測輸出」的技術細節,OpenAI 在官方文件中也有所介紹。
OpenAI 認為,在某些情況下,LLM 的大部分輸出都是事先知道的。
如果你要求模型僅對某些文字或程式碼進行細微修改,就可以透過“預測輸出”,將現有內容作為預測輸入,讓延遲明顯降低。
例如,假設你想要重構一段C# 程式碼,將Username 屬性改為Email :
你可以合理地假設文件的大部分內容將不會被修改(例如類別的文檔字串、一些現有的屬性等)。
透過將現有的類別檔案作為預測文字傳入,你可以更快地重新產生整個檔案。
使用「預測輸出」產生tokens 會大幅降低這些類型請求的延遲。
不過對於「預測輸出」的使用,OpenAI 官方也給了幾點注意事項。
首先就是我們剛才提到的僅支援GPT-4o 和GPT-4o-mini 系列模型。
其次,以下API 參數在使用預測輸出時是不受支援的:
n 值大於 1
對數機率
存在懲罰大於 0
頻率懲罰大於 0
音訊選項
文本以外的形式
最大完成令牌數
工具 – 不支援函數調用
除此之外,在這份文件中,OpenAI 還總結了「預測輸出」之外的幾個延遲優化的方法。
包括「加速處理token」、「產生更少的token」、「使用更少的輸入token」、「減少請求」、「並行化」等等。
文件連結放在文末了,有興趣的朋友可以查閱哦~
還有一件事
雖然輸出的速度變快了,但OpenAI 還有一個注意事項引發了網友們的討論:
在提供預測時,所提供的任何不屬於最終完成的代幣均按完成代幣費率收費。
在提供預測時,所提供的任何非最終完成部分的tokens 都按完成tokens 費率收費。
有網友也曬出了他的檢驗結果:
未採用「預測輸出」:5.2 秒,0.1555 美分
採用了「預測輸出」:3.3 秒,0.2675 美分
嗯,快了,也貴了。
OpenAI 官方文件:
https://platform.openai.com/docs/guides/latency-optimization#use-predicted-outputs
參考連結:
[1]https://x.com/OpenAIDevs/status/1853564730872607229
[2]https://x.com/romainhuet/status/1853586848641433834
[3]https://x.com/GregKamradt/status/1853620167655481411
來源:量子位