OpenAI把GPT-4原始版給了EPFL研究團隊不微調只靠提示詞能走多遠?
除了OpenAI自己,居然還有別人能用GPT-4-Base版? ?也就是未經微調的預訓練版,還不會對話聊天,只會補全句子的模型。EPFL(瑞士洛桑聯邦理工)團隊申請到了訪問權限,用於研究“上下文學習足以讓大模型跟隨指令嗎?”。
也就是不用監督微調、也不用RHLF或其他強化學習對齊方法,只靠提示詞能走多遠?
預訓練模型,究竟能不能一步登天,直接改造成聊天機器人或AI助理?
如果可行,將大大降低類ChatGPT大模型的開發難度。
免微調對齊可靠嗎?
免微調對齊,讓剛出爐的預訓練模型不止會“文本補全”,只從提示詞中學會和用戶對話、跟隨指令,一直是業界關注的研究方向。
目前的SOTA方法URIAL來自艾倫研究所,使用系統提示詞+少數風格範例就能達到不錯的效果。
但EPFL團隊發現,URIAL仍無法完全彌補與指令微調模型的差距,尤其在多輪對話中的表現更差一些。
實驗中,在Llama系列、Mistral系列和一般人接觸不到的GPT-4-Base都觀察到這種現象。
其中GPT-4-Base的API存取權限從OpenAI Researcher Access Program專案中申請到。
EPFL團隊從這裡出發,嘗試了各種方法來提升情境學習的效果。
首先他們增加範例的數量,但發現幫助不大,沒有隨著例子數目增加效能就提升的趨勢。這一點跟影像分類、機器翻譯等任務還不太一樣。
然後他們使用了貪心搜尋演算法,從一大堆範例中選擇最佳的添加到上下文。
這種方法可以進一步提高效能,但與指令微調模型的差距仍然存在,特別是在AlpacaEval 2.0基準測試中。
此外他們還發現,貪心搜尋為某個特定模型找到的最佳範例,對於其他模型無法可靠地遷移。
也就是說,不同的範例適合不同的模型。
該團隊還進行了一系列消融實驗,以便更多地了解情境學習的工作原理。
他們發現,在MT-Bench這樣的綜合評測中,範例包含正確的「問題-答案對」至關重要。
這與先前大模型在分類任務中,只要有大量範例,部分標籤錯了也無所謂的發現非常不同。
所以最終得出的結論是:
即使採用更複雜的改進方法,完全縮小上下文學習和指令微調之間的差距也有挑戰,即使對於非常長上下文的大模型也是如此。
論文最後分析,大語言模型可能透過上下文學習只學會如何模仿例子裡的回答風格,但還沒有真正理解執行指令的邏輯。
指令跟隨任務相對還是比較複雜開放的,沒那麼容易掌握。
想讓AI助理更“聽話”,暫時還是很難有捷徑可走。