OpenAI王炸第二彈強化微調:12個例子搞定專業學習推理Altman稱為今年最大驚喜
OpenAI研究員演示,強化微調後的o1 mini測試通過率甚至比正式版o1高24%,比未強化微調的o1 mini提高了82%。 OpenAI連續12天「王炸」的第二彈來了。不同於第一日聚焦人工智慧(AI)模型,第二日的王炸專注於服務企業等組織的新功能,雖然看起來不太側重於普通消費者,但據介紹它甚至可以簡易版推理模型o1 mini的效果超過本週四發布的正式版o1、即所謂滿血o1。
美東時間12月6日週五,OpenAI在社群媒體X公佈第二日活動的主題是新功能「強化微調」(Reinforcement Fine-Tuning)。這個主題是指,企業組織將能夠透過「強化微調」微調o1 mini,滿足他們的特定需求。
OpenAI CEO Sam Altman在X發文稱,強化微調的效果非常棒,是他今年最大的驚喜之一,期待看到大家利用這種功能的創造。
OpenAI的研究員本週五介紹,科學家、開發人員和研究人員可以根據自己的數據、而不是僅使用公開可用的數據,量身定制OpenAI的強大推理模型o1。不同行業的人可以使用強化學習來創建基於o1 的專家模型,從而提高該領域的整體專業知識水平。開發者、研究者和機器學習工程師將首次能運用強化學習,打造出在精通他們各自專業領域的專家模型。
OpenAI的研究員稱,強化微調並不是單教模型模型輸出,它的運作方式是,當模型發現一個問題的時候,研究者給模型空間區仔細思考這個問題,然後評估模型給出的最終解答,運用強化學習,研究者可以強化產生正確答案的思路,抑制產生錯誤答案的思路,只需要「幾十個例子」(a few dozen examples)、甚至12個例子,模型就能以有效的新方式學習特定領域的推理。
透過強化學習,使用者可以用大模型在特定資料上訓練其他模型。這對於涉及大量數據的複雜領域或需要專家領域知識的新研究非常有用。研究者舉例稱,最近和湯森路透合作,運用強化微調微調o1 mini,讓充當法務助理,幫助他們的法律專業人士完成大部分分析工作流程。
OpenAI稱,OpenAI的客製化模型平台將支援強化學習,強化學習也是OpenAI內部用於訓練自家前沿模型的技術,如GPT-4o和o1系列模型。在OpenAi的內測中,強化微調已經在生物化學、安全、法律和醫療保健領域取得成功。 OpenAI計劃,2025年初讓強化微調面向公眾發布,目前已對企業、大學和研究院開放申請測試通道。
柏克萊大學罕見遺傳疾病研究員Justin Reese參與了OpenAI本週五對o1 mini模型的現場展示。在演示中,研究者試圖從樣本資料池中取得可能導致疾病的模型ID 基因。
研究員展示了一個評估表,下圖可見,第一行是本週四OpenAI發布的正式版o1測評表現,第二行是o1 mini的測評結果,第三行結果來自經過最終強化微調的o1 mini。研究員進行了三類評估,其中,top @1是測試模型給出的正確答案出現在列表最前列中的機率,top@5是正確答案出現在前五列的機率,top@max是答案出現在所有正確答案列表的機率。
如圖所示,正式版o1的測試通過率為25%,o1 mini為17%,而強化微調後的o1 mini竟然達到31%,超過了正式版o1,比正式版o1的測評結果高24% ,而且相較於未強化微調前,微調後的結果提高了82.3%。
根據OpenAI所說,使用者可以綜合運用o1、微調和資料創建客製化的小型o1模型o1 mini。使用者要做的就是提供數據,然後在強化微調方面,設定一個數據集和一個“評分器”,根據訓練和驗證數據集評估模型的性能,其他工作交給OpenAI。