Hugging Face希望透過填補封閉原始碼的空白使DeepSeek R1完全開放
DeepSeek 發布其推理模型R1 已有一周時間。 很多人都在談論它是開源的事實,以及開發者可以如何複製和建構它。 現在,參與各種人工智慧模型的社群Hugging Face 宣布了Open-R1 項目,以填補DeepSeek 沒有開源的組件所留下的空白。

據Hugging Face稱,雖然DeepSeek使用的權重是已知的,但用於訓練模型的資料集和程式碼卻是未知的。 Hugging Face 希望透過Open-R1 填補這些空白。 這項工作非常重要,因為DeepSeek R1 非常高效,可以作為創新的基礎模式。 它還可以作為研究人員、科學家和企業負擔得起的模型,以促進創新和突破。

以下步驟為”Hugging Face “為填補空白而分享的簡要行動計劃:
- 第一步:從DeepSeek-R1 中提煉出高品質的推理資料集,複製R1-Distill 模型。
- 第二步:複製DeepSeek 用於創建R1-Zero 的純RL(強化學習)管道。 這將涉及為數學、推理和程式碼策劃新的大規模資料集。
- 步驟三:透過多階段訓練,證明我們可以從基礎模型→ SFT → RL。
同樣有趣的是,這項工作可以讓每個人將現有的和新的LLM 微調為推理模型,從而大大提高其輸出結果。 它表示,這項工作將非常有用,因為這個過程可以幫助人工智慧領域的其他參與者避免在非生產性路徑上浪費時間和計算。

Hugging Face表示,它計劃建立的合成資料集將不僅關注數學。 它將探索其他領域,為科學等其他領域帶來益處,這將使它變得無比有用。