群核科技開源新模式SpatialLM 登HuggingFace趨勢榜第二位
杭州「六小龍」之一的群核科技近日在GTC2025全球大會上低調開源了一款空間理解模型SpatialLM。 SpatialLM是一個基於大語言模型的3D場景語意生成框架。透過一段視訊輸入,就能準確認知和理解此影片對應的空間點雲數據,並對點雲數據進行推理和場景描述,最終將提取的資訊以自然語言的形式呈現。

SpatialLM運作原理
這款中國公司低調開源的模型一推出,在國外LinkedIn、Twitter和技術圈都受到熱捧。在最新HuggingFace趨勢榜上,群核科技SpatialLM登上趨勢榜第二位,有趣的是趨勢榜前三家均是杭州公司,分別為Deepseek、群核科技SpatialLM、通義千問Qwen2.5-Omni,領先於英偉達、Google等公司模型。

HuggingFace趨勢榜
群核科技創始人黃曉煌接受國際媒體彭博社採訪時直言:“開源是為了推動具身智能技術奇點到來。”

海外平台用戶對SpatialLM的自發性分享
有別於傳統大語言模型,SpatialLM突破了對物理世界幾何與空間關係的理解限制,賦予機器類人的空間認知與解析能力。
目前,SpatialLM已在HuggingFace、GitHub、魔搭社群等平台開放給全球開發者。
雖然業界已有對影像、影片進行參數化描述模型,例如Meta先前發布的SceneScript模型。但SpatialLM的獨特之處在於:
1.相較於Meta需要依賴其眼鏡的客製化模式,SpatialLM設定於面向普通相機、手機的視訊作為輸入,因此更具通用性。
2.不同於感測器對物理世界的感知,SpatialLM使用大語言模型,最終輸出是對3D場景的自然語言描述,未來也將支援原生自然語言與場景資料互動。
3、更重要的是,SpatialLM支持對物理世界中空間訊息的認知理解,和結構化描述。群核科技本身便專注於實體空間模擬的技術場景,過去十餘年中累積了海量的三維資料和空間認知資料;基於此資料訓練的模型,亦具備創造物理正確的空間場景的能力。
SpatialLM模型開源後,將為像具身智慧領域的企業或機構科學研究團隊提供一個空間認知理解的基礎訓練架構。尤其是對那些不具備模型開發能力的具身智慧企業,可以基於SpatialLM模型進行微調,降低具身智慧訓練門檻。
同時,SpatialLM模型與去年群核科技發布的空間智慧解決方案SpatialVerse之間,形成從空間認知理解到空間行動互動的具身智慧訓練閉環。 SpatialLM模型負責空間認知理解上的基礎訓練,SpatialVerse負責機器人在模擬環境中的行動互動訓練。
另一方面,SpatialLM模型使SpatialVerse的資料來源更開放。透過從影片到結構化場景的轉化,將現實世界的資料轉化為虛擬環境中的豐富場景。而基於SpatialVerse的合成資料引擎,這些基於SpatialLM模型產生的一個個結構化場景又可泛化產生億萬級新場景。相當於形成一條”現實- 虛擬- 現實”的閉環路徑,讓現實世界成為「數位道場」的原料來源,這不僅讓SpatialVerse的數據更多樣化,同時還能縮小模擬與現實之間的「差距」。
鈦媒體App先前曾報道過,這家目前備受關注的空間智慧公司,今年2月向港交所提交了上市申請,聯合保薦人為摩根大通、建銀國際。招股書顯示,群核科技營業收入由2022年的6億元增加10.5%至2023年的6.64億元;2024年前9個月經調整淨虧損為9,361萬元。
更早4個月前,群核科技對外公開兩大技術引擎:群核科技啟真(渲染)引擎和群核矩陣(CAD)引擎,並首次介紹其技術底層核心:基於GPU高性能運算的實體世界模擬器。現場,群核科技也推出了群核空間智慧平台SpatialVerse,專為AIGC、具身智慧、AR/VR 等企業開放物理正確的3D空間資料資產、空間認知解決方案以及空間智慧訓練相關服務。
據悉,目前該平台擁有全球最大的室內場景認知深度學習資料集,先前也與英特爾、慕尼黑工業大學推出全球首個高視覺與物理逼真度環境資料合成與訓練模擬平台SPEAR SIM。
群核科技聯合創始人兼CEO陳航表示,群核科技是一家以GPU集群和AI技術為底座的科技公司,在過去數年的技術沉澱中構建了一套物理正確的世界模擬器,並將之運用在基於空間的實時設計渲染、工業生產製造,以及虛擬物理世界訓練等場景中。據悉,2024年群核科技全平台平均月活躍訪客數為8,630萬名,旗下酷家樂是全球最大的空間設計平台,在十年發展中沉澱了超過3.6億的3D模型。 (作者| 秦聰慧)