OpenAI狂飆突進:僅12個例子就能打造專屬AI專家核心技術竟來自字節?
OpenAI「12 天」活動的第二天,我們見證了強化微調(Reinforcement Fine-Tuning)技術的正式發布,並看到了ChatGPT Pro 的演示。雖然Sam Altman 並未親自到現場,但他的團隊為我們深入解析了這項技術,預示著AI 模型定製或將迎來重大突破。
12 個例子就可客製化專家模型
今天的發表會帶來了一個看似不起眼但可能對人們生活產生重大影響的公告。
今天的發布對企業用戶來說很驚喜。各組織將能夠使用極少的數據,透過「強化微調」(Reinforced Fine-Tuning)根據自身需求對o1 mini 進行客製化。
有些人可能對去年年初OpenAI 推出的監督微調API 已有所了解。監督微調是一種強大的工具,其主要作用是讓模型模仿輸入文字或圖像中發現的特徵,對於需要調整模型的語氣、風格或反應格式的場景,這種方法非常實用。但監督微調需要特地領域的大量數據。而強化微調的優點在於,它能夠透過極少量的高品質範例,快速調整模型的推理方式。這種高效性在以往的監督微調中是難以實現的。
強化微調的工作原理是:當模型遇到問題時,給予其一定的思考空間以解決問題,然後對模型的最終答案進行評分。透過強化學習的機制,強化那些通往正確答案的思路,同時削弱導致錯誤答案的思路。
而AI overview 給出的相關論文,居然是今年1 月來自字節跳動在ACL 2024 頂會論文,並不是OpenAI 首創。
根據論文,強化微調(ReFT) 從監督微調(SFT) 開始,通常持續一到兩個週期。在此階段,模型獲得了正確解決數學問題的基本能力。在此之後,ReFT 透過使用近端策略優化(PPO) 等方法採用強化學習(RL) 演算法,將模型的訓練提升到一個新的水平。這個高階階段讓模型可以探索和學習各種正確的解決方案和推理方法。在此背景下,ReFT 之所以高效,是因為它使用了現有的訓練數據,這些數據中已經包含了正確的答案。
這些答案構成了PPO 訓練過程中獎勵的基礎,因此無需額外的、單獨訓練的獎勵系統。這與RLHF 等其他方法有著重要區別,後者依賴由人工註釋的數據確定的獎勵。
截圖來源:https://arxiv.org/pdf/2401.08967v1
值得注意的是,OpenAI 表示基於強化微調,只需數十個範例,模型便能掌握在特定領域中以新的、有效方式進行推理的能力。
實際上,「只用12 個例子就能做到這一點,這在常規的微調中是做不到的。」發布會上,OpenAI 的研究員Julie Wong 進一步強調。
強化微調的效果也很驚人,得分不僅比o1 mini 高,而且還反超了昨天剛發布的o1 版。
OpenAI CEO Sam Altman 雖然沒有出現在今天的直播中,但他在X 平台上討論了這項宣布。他聲稱新功能「效果驚人,是我2024 年最大的驚喜之一」。
當然,Altman 對宣傳自己公司的新想法有既得利益,但考慮到2024 年OpenAI 推出了許多令人興奮的東西,他稱之為今年最大的驚喜之一,這無疑是高度讚揚。
根據OpenAI 的演講者介紹,科學家、開發人員和研究人員可以基於自己的數據自訂強大的o1 推理模型,而不再僅依賴公開可用的數據。
各領域的從業人員可以透過強化學習來創建基於o1 的專家模型,從而提升該領域的整體專業水平。這標誌著AI 客製化邁出了關鍵一步,使得AI 模型能夠在專業領域展現出更出色的表現。
現場示範強化微調對大模型的提升
在現場,OpenAI 研究員用柏克萊實驗室計算生物學家Justin Reese 示範了強化微調如何大幅提升o1 mini 的效能。具體來說,就是給定了症狀列表,讓模型來預測是哪個基因可能導致的遺傳疾病。
首先,查看用於訓練模型的資料集和用於評估模型的評分器,Justin 團隊收集了一個包含大約1,100 個範例的資料集,訓練資料集只是JSON-L 文件,文件中的每一行都是你希望模型在其上進行訓練的範例。此外,演示中還上傳了驗證資料。
「驗證資料集和訓練資料集之間在正確基因方面沒有重疊。這意味著模型不能作弊,或者它不能學會僅僅記住症狀列表並將其與基因關聯起來,它必須從訓練資料集泛化到驗證資料集。
然後,在OpenAI 的訓練基礎設施上啟動一個訓練作業。在網頁介面可選擇訓練集和驗證集,並進行對應配置即可。
最後評估產生的微調模型,以便可以看到它比開始使用的基礎模型改進了多少。評分器功能很簡單,就是取得模型的輸出和正確答案,對其進行比較,然後傳回一個介於0 和1 之間的分數。 0 表示模型根本沒有得到正確答案,1 表示模型得到了正確答案。
Allard 表示,強化微調可能需要幾個小時到幾天的時間才能運行完成,因此他展示了先前相同資料集上運行的結果。模型給出的是最有可能的候選基因也是TSC2,正確答案也確實如此,因此,模型能夠在top at 1、top at 5 和top at max 上都通過。
此外微調過程中,還可以觀察模型效能指標的變化趨勢:
測試中,OpenAI 設定了三個不同模型的運行:第一個是針對昨天發布的o1 模型,第二個是針對o1 mini,最後是強化微調後的o1 mini。可以看到,o1 mini 在大約200 個數據集上獲得了17% 的得分,o1 做得更好,獲得了25%,而微調後的o1 mini 獲得了31% 的得分。
結束語
OpenAI 的12 天活動週末暫停。並不是每項公告都會轟動一時,OpenAI 自己也表示,可以期待「大大小小的」新事物。
以下是外媒列出的一些在下週活動中可以看到的內容(其中還會有一些驚喜):Sora – ai 視頻生成、Canvas 更新(可能包括圖像)、GPT-4o 視頻分析、GPT-4o 圖像生成、進階語音與視訊等。
奧特曼在Twitter上與網友的互動,似乎暗示了接下來的10 場直播會報告Sora 的最新動態。