擊敗GPT-4o、僅次於o1 英偉達重磅開源超強模型–Nemotron
全球AI領導者英偉達(Nvidia)開源了超強大模型-Llama-3.1-Nemotron-70B-Instruct。根據測試數據顯示,這個模型已經擊敗GPT-4o、GPT-4turbo、Gemma-2、Gemini-1.5、Claude-3.5 sonnet等140多個開閉源模型,僅次於OpenAI發布的最新模型o1。
Nemotron的基礎模型是基於Llama-3.1-70B開發而成,這沒什麼新奇。但在訓練的過程中使用了一種新的混合訓練方法,將Bradley-Terry和Regression一起用於訓練獎勵模型。
值得一提的是,英偉達把Nemotron的訓練資料集也開源了,這對於開發同類型或超過Nemotron的模型非常重要,因為這個是使用混合訓練方法的關鍵所在。
有網友表示,英偉達熱衷於不斷開源超強模型,一方面有大量資金資助他們的科研人員研發,另外主要目的還是為了賣GPU以及培養開發生態。而Meta依賴他的社會帝國,在商業化和資金上都不愁。
最愁的便是那些大模型新創公司了,錢拼不過這些巨頭,商業落地和名氣更不用提。所以,很多小企業可能會因為巨頭的碾壓,很快就會出現資金斷裂等各種問題。
很高興看到AI領域的競爭,正在以驚人的速度推動產業向前發展。
這可是重磅開源。
為了新模型,買兩個4090爽一下吧。
模型是免費的,但運行的硬體可不免費啊。
我正在測試這個模型,我是一個高級AI用戶說說使用心得:在商業寫作方面,似乎比Claude3和ChatGPT聰明一些。但它依然會犯一些錯誤,相較於普通的3.1 70b Instruct,確實更聰明。
Nvidia可以以1000倍更低的成本來實現這一點。如果Nvidia真的原意這麼做,那麼將無人能與之競爭。
創新混合訓練方法
在訓練大模型的過程中,為了確保模型在實際使用中能夠準確地理解並遵循用戶的提示指令,準確進行翻譯、文本生成、問答等任務,獎勵模型發揮了很重要的作用,主要透過為模型的輸出評分,指導模型產生更高品質的答案來實現。
目前,主流的獎勵模型方法主要有Bradley-Terry和Regression兩種: Bradley-Terry風格的獎勵模型起源於統計中的排名理論,透過最大化被選擇回應和被拒絕回應之間的獎勵差距。這種方法強調在給定的提示下,使用者會選擇哪個回應,從而為模型提供了一種直接的、基於偏好的回饋。
Regression則借鑒了心理學中的評分量表,透過預測特定提示下反應的分數來訓練模型。這種方法允許模型對反應的品質進行更細緻的評估,但可能不如基於偏好的方法直觀。
但這兩種方法都有明顯的缺點,Bradley-Terry需要使用者在兩個回應中選擇一個;而迴歸風格的模型需要評分數據,使用者需要為每個回應打分數才能幫助模型提升效能。所以,英偉達直接把兩個模型的優點放在一起來解決這個難題。
首先是需要發展一個包含評分和偏好註釋的資料集HELPSTEER2-PREFERENCE。研究者是在HELPSTEER2基礎上加入偏好註釋。
這些偏好註釋不僅包括使用者在兩個回應中選擇一個的偏好方向,還包括使用者對這種偏好的強度評分。為了確保資料的品質和可解釋性,也要求註釋者為他們的偏好提供書面說明。
在訓練這種新型混合方法時,研究人員使用AdamW優化器來訓練模型,透過引入權重衰減和梯度裁切來提高訓練的穩定性和效率。
為了進一步提升模型效能,使用了ExPO在訓練過程中對模型的權重進行外推,可以進一步提升模型的表現。可以使模型在訓練時更專注於那些差異較大的反應對,從而提高模型的區分能力。
此外,研究人員還進行了廣泛的超參數搜索,以找到最佳的學習率和KL懲罰項。這些超參數對於模型的訓練至關重要,因為它們直接影響模型的收斂速度和最終表現。
HELPSTEER2-PREFERENCE資料集
為了發展這個多角化滿足新的混合訓練方法資料集,在資料註解的過程中,每一對回應都經過3—5位標註者的評價。這些標註者需要從多個維度對每個回應進行評分,包括有用性、準確性、連貫性、複雜性和冗長程度等。
為了更好地理解背後的原因,標註者還需要提供簡短的文字說明,解釋為何選擇了某個回應作為更好的答案。這種方法不僅增強了數據的透明度,也為後續分析提供了豐富的上下文資訊。
研究人員也使用了嚴格的資料預處理步驟來確保資料品質。例如,他們會辨識出每個任務中相似度最高的三個偏好註釋,然後取這三個註釋的平均值並四捨五入到最接近的整數,以此作為該任務的整體偏好得分。
同時,為了排除那些標註者意見分歧較大的樣本,研究者會過濾掉那些註釋之間差異超過一定範圍的任務。這些措施共同作用,有效提升了數據的可靠性和一致性。
根據測試數據顯示,使用HELPSTEER2-PREFERENCE資料集訓練的模型性能非常強,在RewardBench評測中達到了94.1的高分,超過了同期幾乎所有其他模型的表現。