OpenAI 的預測輸出功能可將GPT-4o 模型的輸出速度提高5 倍
對於大多數LLM 相關用例而言,延遲都是一個重要問題。 對於程式碼建議和修改長文件等情況,延遲更是影響整體使用者體驗。 想像一下,使用者想要重寫一份2 頁文件的最後一段。 如果改寫後的文件能立即出現是更合理的,因為改動只涉及一個段落。 然而,目前的LLM API 需要重新產生整個文檔,這給用戶帶來了很大的延遲。
OpenAI 目前正試圖透過一項名為預測輸出的新開發人員功能來解決這個問題。 在LLM 的大部分輸出已經提前知曉的情況下,可以使用該功能。 編輯文件或重構程式碼等任務都可以使用此功能進行改進。 預測輸出使用推測解碼來跳過已知內容,使迭代速度大幅加快。
開發人員可以將現有內容作為預測內容傳入,從而大大減少延遲。 透過這種方式,他們可以更快地重新產生整個內容。
OpenAI 與一些外部合作夥伴一起測試了這項功能,結果非常正面。 例如,根據微軟GitHub 團隊的內部基準測試,Copilot Workspace 工作負載中的預測輸出速度提高了5.8 倍。
感謝@openaidevs! 我們在Copilot Workspace 工作負載上對其進行了基準測試,並測得速度提高了5.8 倍!https://t.co/FOCwYJheUc
— 埃迪·阿夫坦迪利安 (Eddie Aftandilian) (@eaftandilian) 2024 年 11 月 4 日
預測輸出非常快。 我們與@openai合作,幫助測試和改進API,從中獲得了很多樂趣。 註冊獲得Exponent 的早期訪問權限並親自試用:https://t.co/eC3XD4F3Iw https://t.co/1jUzMEARCC
– 指數 (@exponent_run) 2024 年 11 月 4 日
要使用”預測輸出”,開發人員會受到一些限制。 首先,它只支援GPT-4o 和GPT-4o-mini 系列機型。 不支援最新的o1 型號。 此外,在使用預測輸出時,不支援以下現有API 參數:
- n 值大於 1
- 對數機率
- 存在懲罰大於 0
- 頻率懲罰大於 0
- 音訊選項
- 文本以外的形式
- 最大完成令牌數
- 工具 – 不支援函數調用
在提供預測時,所提供的詞元如果不是API 最終完成的一部分,則按完成詞元費率收費。 雖然存在一些限制,但這項新的預測輸出功能的潛在優勢是巨大的,它為更靈敏、更有效率的LLM 工具鋪平了道路。