GPT-4震撼發布:多模態大模型直接升級ChatGPT、必應,開放API
在ChatGPT 引爆科技領域之後,人們一直在討論AI“下一步”的發展會是什麼,很多學者都提到了多模態,我們並沒有等太久。今天凌晨,OpenAI 發布了多模態預訓練大模型GPT-4。
GPT-4 实现了以下几个方面的飞跃式提升:强大的识图能力;文字输入限制提升至 2.5 万字;回答准确性显著提高;能够生成歌词、创意文本,实现风格变化。
“GPT-4 是世界第一款高體驗,強能力的先進AI系統,我們希望很快把它推向所有人,”OpenAI 工程師在介紹視頻裡說道。
似乎是想一口氣終結這場遊戲,OpenAI 既發布了論文(更像是技術報告)、 System Card,把ChatGPT 直接升級成了GPT-4 版的,也開放了GPT-4 的API。
另外,微軟營銷主管在GPT-4 發布後第一時間表示:“如果你在過去六週內的任何時候使用過新的Bing 預覽版,你就已經提前了解了OpenAI 最新模型的強大功能。”是的,微軟的新必應早就已經用上了GPT-4。
接下來,就讓我們細細品味這場震撼發布。
GPT-4:我SAT 考710,也能當律師
GPT-4 是一個大型多模態模型,能接受圖像和文本輸入,再輸出正確的文本回复。實驗表明,GPT-4 在各種專業測試和學術基准上的表現與人類水平相當。例如,它通過了模擬律師考試,且分數在應試者的前10% 左右;相比之下,GPT-3.5 的得分在倒數10% 左右。
OpenAI 花了6 個月的時間使用對抗性測試程序和ChatGPT 的經驗教訓對GPT-4 進行迭代調整,從而在真實性、可控性等方面取得了有史以來最好的結果。
在過去的兩年裡,OpenAI 重建了整個深度學習堆棧,並與Azure 一起為其工作負載從頭開始設計了一台超級計算機。一年前,OpenAI 在訓練GPT-3.5 時第一次嘗試運行了該超算系統,之後他們又陸續發現並修復了一些錯誤,改進了其理論基礎。這些改進的結果是GPT-4 的訓練運行獲得了前所未有的穩定,以至於OpenAI 能夠提前準確預測GPT-4 的訓練性能,它也是第一個實現這一點的大模型。OpenAI 表示他們將繼續專注於可靠的擴展,進一步完善方法,以幫助其實現更強大的提前預測性能和規劃未來的能力,這對安全至關重要。
OpenAI 正在通過ChatGPT 和API(有候補名單)發布GPT-4 的文本輸入功能。圖像輸入功能方面,為了獲得更廣泛的可用性,OpenAI 正在與其他公司展開合作。
OpenAI 今天還開源了OpenAI Evals,這是其用於自動評估AI 模型性能的框架。OpenAI 表示此舉是為了讓所有人都可以指出其模型中的缺點,以幫助OpenAI 進一步改進模型。
有趣的是,GPT-3.5 和GPT-4 之間的區別很微妙。當任務的複雜性達到足夠的閾值時,差異就會出現——GPT-4 比GPT-3.5 更可靠、更有創意,並且能夠處理更細微的指令。為了了解這兩個模型之間的差異,OpenAI 在各種基準和一些為人類設計的模擬考試上進行了實驗。
OpenAI 還在為機器學習模型設計的傳統基准上評估了GPT-4。GPT-4 大大優於現有的大型語言模型,以及大多數SOTA 模型:
許多現有的機器學習基準測試都是用英語編寫的。為了初步了解GPT-4 在其他語言上的能力,研究團隊使用Azure Translate 將MMLU 基準—— 一套涵蓋57 個主題的14000 個多項選擇題—— 翻譯成多種語言。在測試的26 種語言的24 種中,GPT-4 優於GPT-3.5 和其他大語言模型(Chinchilla、PaLM)的英語語言性能:
就像許多使用ChatGPT 的公司一樣,OpenAI 表示他們內部也在使用GPT-4,因此OpenAI 也在關注大型語言模型在內容生成、銷售和編程等方面的應用效果。OpenAI 還使用GPT-4 輔助人們評估AI 輸出,這也是OpenAI 對其策略的第二階段。OpenAI 既是GPT-4 的開發者,也是使用者。
GPT-4:我能玩梗圖
GPT-4 可以接受文本和圖像形式的prompt,新能力與純文本設置並行,允許用戶指定任何視覺或語言任務。
具體來說,它在人類給定由散佈的文本和圖像組成的輸入的情況下生成相應的文本輸出(自然語言、代碼等)。在一系列領域—— 包括帶有文本和照片的文檔、圖表或屏幕截圖上——GPT-4 展示了與純文本輸入類似的功能。此外,它還可以通過為純文本語言模型開發的測試時間技術得到增強,包括少樣本和思維鏈prompt。
比如給GPT-4 一個長相奇怪的充電器的圖片,問為什麼這很可笑?
GPT-4 回答道,VGA 線充iPhone。
格魯吉亞和西亞的人均每日肉類消費,算平均數:
看起來,現在的GPT 已經不會在計算上胡言亂語了:
還是太簡單,那直接讓它做題,還是個物理題:
GPT-4 看懂了法語題目,並完整解答:
GPT-4 可以理解一張照片裡“有什麼不對勁的地方”:
GPT-4 還可以量子速讀看論文,如果你給它InstructGPT 的論文,讓它總結摘要,就會變成這樣:
如果你對論文裡的某一個圖感興趣呢?GPT-4 也可以解釋一下:
接著來,問GPT-4 梗圖是什麼意思:
它給出了詳細的回答:
那麼漫畫呢?
讓GPT-4 解釋為什麼要給神經網絡加層數,似乎有一點加倍的幽默感。
不過OpenAI 在這裡說了,圖像輸入是研究預覽,仍不公開。
研究人員用學術的Benchmark 視角來解讀GPT-4 的看圖能力,然而這已經不夠了,他們還能不斷發現該模型可以令人興奮地處理新任務—— 現在的矛盾是AI 的能力和人類想像力之間的矛盾。
看到這裡,應該有研究人員感嘆:CV 不存在了。
可控性
與具有固定冗長、平靜語氣和風格的經典ChatGPT 個性不同,開發人員(以及ChatGPT 用戶)現在可以通過在“系統”消息中描述這些方向來規定他們的AI 的風格和任務。
系統消息允許API 用戶在一定範圍內定制化實現不同的用戶體驗。OpenAI 知道你們在讓ChatGPT 玩Cosplay,也鼓勵你們這樣做。
局限性
儘管功能已經非常強大,但GPT-4 仍與早期的GPT 模型具有相似的局限性,其中最重要的一點是它仍然不完全可靠。OpenAI 表示,GPT-4 仍然會產生幻覺、生成錯誤答案,並出現推理錯誤。
目前,使用語言模型應謹慎審查輸出內容,必要時使用與特定用例的需求相匹配的確切協議(例如人工審查、附加上下文或完全避免使用) 。
总的来说,GPT-4 相对于以前的模型(经过多次迭代和改进)已经显著减轻了幻觉问题。在 OpenAI 的内部对抗性真实性评估中,GPT-4 的得分比最新的 GPT-3.5 模型高 40%:
GPT-4 在TruthfulQA 等外部基準測試方面也取得了進展,OpenAI 測試了模型將事實與錯誤陳述的對抗性選擇區分開的能力,結果如下圖所示。
實驗結果表明,GPT-4 基本模型在此任務上僅比GPT-3.5 略好;然而,在經過RLHF 後訓練之後,二者的差距就很大了。以下是GPT-4 的測試示例—— 並不是所有時候它都能做出正確的選擇。
該模型在其輸出中可能會有各種偏見,OpenAI 在這些方面已經取得了進展,目標是使建立的人工智能係統具有合理的默認行為,以反映廣泛的用戶價值觀。
GPT-4 通常缺乏對其絕大部分數據截止後(2021 年9 月)發生的事件的了解,也不會從其經驗中學習。它有時會犯一些簡單的推理錯誤,這似乎與這麼多領域的能力不相符,或者過於輕信用戶的明顯虛假陳述。有時它也會像人類一樣在困難的問題上失敗,比如在它生成的代碼中引入安全漏洞。
GPT-4 預測時也可能出錯但很自信,意識到可能出錯時也不會double-check。有趣的是,基礎預訓練模型經過高度校準(其對答案的預測置信度通常與正確概率相匹配)。然而,通過OpenAI 目前的後訓練(post-training)過程,校準減少了。
風險及緩解措施
OpenAI 表示,研究團隊一直在對GPT-4 進行迭代,使其從訓練開始就更加安全和一致,所做的努力包括預訓練數據的選擇和過濾、評估和專家參與、模型安全改進以及監測和執行。
GPT-4 有著與以前的模型類似的風險,如產生有害的建議、錯誤的代碼或不准確的信息。同時,GPT-4 的額外能力導致了新的風險面。為了了解這些風險的程度,團隊聘請了50 多位來自人工智能對齊風險、網絡安全、生物風險、信任和安全以及國際安全等領域的專家,對該模型在高風險領域的行為進行對抗性測試。這些領域需要專業知識來評估,來自這些專家的反饋和數據為緩解措施和模型的改進提供了依據。
預防風險
按照demo 視頻裡OpenAI 工程師們的說法,GPT-4 的訓練在去年8 月完成,剩下的時間都在進行微調提升,以及最重要的去除危險內容生成的工作。
GPT-4 在RLHF 訓練中加入了一個額外的安全獎勵信號,通過訓練模型拒絕對此類內容的請求來減少有害的輸出。獎勵是由GPT-4 的零樣本分類器提供的,它判斷安全邊界和安全相關prompt 的完成方式。為了防止模型拒絕有效的請求,團隊從各種來源(例如,標註的生產數據、人類的紅隊、模型生成的prompt)收集多樣化的數據集,在允許和不允許的類別上應用安全獎勵信號(有正值或負值)。
這些措施大大在許多方面改善了GPT-4 的安全性能。與GPT-3.5 相比,模型對不允許內容的請求的響應傾向降低了82%,而GPT-4 對敏感請求(如醫療建議和自我傷害)的響應符合政策的頻率提高了29%。
訓練過程
與之前的GPT 模型一樣,GPT-4 基礎模型經過訓練可以預測文檔中的下一個單詞。OpenAI 使用公開可用的數據(例如互聯網數據)以及已獲得許可的數據進行訓練。訓練數據是一個網絡規模的數據語料庫,包括數學問題的正確和錯誤解決方案、弱推理和強推理、自相矛盾和一致的陳述,以及各種各樣的意識形態和想法。
因此,當提出問題時,基礎模型的回應可能與用戶的意圖相去甚遠。為了使其與用戶意圖保持一致,OpenAI 依然使用強化學習人類反饋(RLHF) 來微調模型的行為。請注意,該模型的能力似乎主要來自預訓練過程——RLHF 不會提高考試成績(甚至可能會降低它)。但是模型的控制來自後訓練過程—— 基礎模型甚至需要及時的工程設計來回答問題。
GPT-4 的一大重點是建立了一個可預測擴展的深度學習棧。主要原因是,對於像GPT-4 這樣的大型訓練,進行廣泛的特定模型調整是不可行的。團隊開發了基礎設施和優化,在多種規模下都有可預測的行為。為了驗證這種可擴展性,他們提前準確地預測了GPT-4 在內部代碼庫(不屬於訓練集)上的最終損失,方法是通過使用相同的方法訓練的模型進行推斷,但使用的計算量為1/10000。
現在,OpenAI 可以準確地預測在訓練過程中優化的指標(損失)。例如從計算量為1/1000 的模型中推斷並成功地預測了HumanEval 數據集的一個子集的通過率:
有些能力仍然難以預測。例如,Inverse Scaling 競賽旨在找到一個隨著模型計算量的增加而變得更糟的指標,而hindsight neglect 任務是獲勝者之一。GPT-4 扭轉了這一趨勢。
能夠準確預測未來的機器學習能力對於技術安全來說至關重要,但它並沒有得到足夠的重視,OpenAI 表示正在投入更多精力開發相關方法,並呼籲業界共同努力。
OpenAI 表示正在開源OpenAI Evals 軟件框架,它被用於創建和運行基準測試以評估GPT-4 等模型,同時可以逐樣本地檢查模型性能。
ChatGPT 直接升級至GPT-4 版
GPT-4 發布後,OpenAI 直接升級了ChatGPT。ChatGPT Plus 訂閱者可以在chat.openai.com 上獲得具有使用上限的GPT-4 訪問權限。
要訪問GPT-4 API(它使用與gpt-3.5-turbo 相同的ChatCompletions API),用戶可以註冊等待。OpenAI 會邀請部分開發者體驗。
獲得訪問權限後,用戶目前可以向GPT-4 模型發出純文本請求(圖像輸入仍處於有限的alpha 階段)。至於價格方面,定價為每1k 個prompt token 0.03 美元,每1k 個completion token 0.06 美元。默認速率限制為每分鐘40k 個token 和每分鐘200 個請求。
GPT-4 的上下文長度為8,192 個token。OpenAI 還提供了32,768 個token 上下文(約50 頁文本)版本的有限訪問,該版本也將隨著時間自動更新(當前版本gpt-4-32k-0314,也支持到6 月14 日)。定價為每1K prompt token 0.06 美元和每1k completion token 0.12 美元。
以上,就是今天OpenAI 關於GPT-4 的所有內容了。令人不滿的一點是,OpenAI 公開的技術報告中,不包含任何關於模型架構、硬件、算力等方面的更多信息,可以說是很不Open 了。
不管怎樣,迫不及待的用戶大概已經開始測試體驗了吧。