北大聯手港科大出品多模態版DeepSeek 可用於機器人控制
最近,北京大學聯合香港科技大學團隊基於自研全模態框架Align-Anything,將純文本模態的Deepseek R1系列模型拓展至了圖文模態,推出多模態版DeepSeek-R1,即Align-DS-V,它在部分視覺理解表現評測集上超越GPT-4o。
聯合研究團隊中的北京大學對齊團隊的指導老師為北京大學人工智慧研究院助理教授楊耀東,同時也是北京具身智慧新創公司靈初智能與北大共同成立的具身靈巧操作聯合實驗室首席科學家。
在Deepseek R1發布後,研究團隊在一週之內將Deepseek R1系列模型擴展至圖文模態,並取得了優越的視覺理解表現。

此外,團隊也發現了模態穿透對於模型文字模態推理能力的提升效果。在DeepSeek R1的全模態化嘗試中,團隊發現,經過多模態訓練之後,模型在文本模態任務上的表現有所提升,在科學任務、複雜推理、數學代碼等方面的表現均有提升。

Align-DS-V的多模態強推理能力是VLA模型(視覺語言動作模型)大腦端核心,且同樣的後訓練技術能應用於小腦端控制器微調,從而實現更高的成功率、泛化性和穩健性。
目前,Align-Anything框架,以及DeepSeek-R1的多模態版本Align-DS-V,都已開源。
一、Align-Anything框架,對齊全模態大模型與人類意圖
Align-Anything框架致力於使全模態大模型與人類意圖和價值觀對齊,全模態包括文生文、文生圖、文圖生文、文生視頻等任意到任意的輸入與輸出模態,框架設計了具有高度的模組化、擴展性以及易用性的對齊訓練框架,支持由文本、圖片、視頻、音頻對齊大模態模型的正確對齊模型,支持由文本對齊的正確性模型對齊。
此框架具有以下特點:
高度模組化:對不同演算法類型的抽象化和精心設計的API,使用者能夠為不同的任務修改和定製程式碼,以及客製化模型與資料集註冊等高階擴充用法;
支援跨任意模態模型的微調:包含對如LLaMA3.2、LLaVA、Chameleon、Qwen2-VL、Qwen2-Audio、Diffusion等跨越多種模態生成與理解的大模型的微調能力;
支援不同的對齊方法:支援任意模態上的多種對齊演算法,既包括SFT、DPO、PPO等經典演算法,也包括ORPO, SimPO和KTO等新演算法;
支援多種開、閉源對齊評估:支援了30多個多模態評測基準,包括如MMBench、VideoMME等多模態理解評測,以及如FID、HPSv2等多模態生成評測。

同時,研究團隊也發表首個全模態人類偏好資料集Align-Anything。與專注於單一模態且品質參差不齊的現有偏好資料集不同,Align-Anything提供了高品質的數據,包括了輸入和輸出中的任何模態,旨在提供詳細的人類偏好註釋以及用於批評和改進的精細語言回饋,從而實現跨模態的全面評估和改進。

二、擴展Deepseek R1的視覺模態,打造Align-DS-V
在Align-Anything框架的基礎上,團隊研發了Align-DS-V。
借鑒LLaVA的訓練思路,透過訓練投影層(Projector),團隊將視覺編碼器(Vision Encoder)輸出映射到語言表徵空間,從而擴展了Deepseek R1的視覺模態。
為驗證全模態推理大模型在垂域應用的能力,研發團隊對Align-DS-V面向進行香港地區價值觀的本地化對齊,令Align-DS-V適應粵語/英語/普通話混合語言輸入,整合港鐵動態、颱風預警及八達通繳費等香港本土生活場景。
在被圖文詢問到哪一款維他奶(香港地區的熱門飲品)更加減脂時,Align-DS-V精確地選擇了其中的低糖原味豆奶,並且也指出原味豆奶同樣適合減脂飲用,為香港日常飲食選擇提供便利。

在面對包含繁體字的圖文數學問題時,Align-DS-V能夠準確聯動圖文模態訊息,使用嚴密而逐步的數學推導展示求解過程。

結論:DeepSeek的變革席捲具身智能
據了解,在Align-DS-V的基礎上,北大-靈初聯合實驗室已著手在VLA(視覺語言動作模型)領域做更深層的探索。
靈初智能正在研發的VLA模型,在大腦端利用多模態大模型進行對齊和微調,並向小腦端的控制器輸出action token;而後,小腦端的控制器再根據輸入的token和其他模態的信息,輸出具體的機器人控制指令。這兩個過程都需要運用針對多模態大模型的後訓練和微調技術。
北大-靈初聯合實驗室表示,Align-DS-V的多模態強推理能力是VLA模型大腦端的核心,接下來將利用多模態推理模型的跨模態穿透能力,實現action穿透,最終實現真正高效的VLA模型。同樣的後訓練技術也可以應用在小腦端控制器的微調,達到更高的成功率、泛化性和穩健性。
值得注意的是,最近還有多家具身智能相關企業宣佈在DeepSeek上做出嘗試:優必選正在驗證DeepSeek 技術在人形機器人應用場景中的有效性,獵戶星空的機器人AgentOS也接入了DeepSeek-R1,科大訊飛已在訊飛、宇樹科技與DeepSeek達成深度合作等。
從技術研發到場景應用,這場由DeepSeek開源生態驅動的技術革命,正在加速人形機器人感知理解決策能力的進化,也有望在機器人「大腦」層面為企業降低門檻,推動更多的力量向更底層的運動控制「小腦」上集中,從而推動具身智能更快地從實驗室邁向現實場景更快地從實驗室邁向現實場景。
附上開源位址:
Align-Anything框架地址
https://github.com/PKU-Alignment/align-anythingDeepDeek-R1多模態版本Align-DS-V位址: