英偉達發布Jarvis:可匯聚語音視頻等傳感器信息的多模AI SDK
在近日召開的5G移動世界大會上,英偉達(Nvidia)聯合創始人兼首席執行官(CEO)黃仁勳宣布了Nvidia Jarvis 。作為一種多模式人工智能(AI)開源軟件的開發套件(SDK),它能夠將語音、視覺和其它傳感器,整合到一個AI系統中。換言之,借助Nvidia Jarvis,開發者能夠構建和部署融合視覺、語音和其它傳感器的AI應用程序。
據悉,Nvidia Jarvis 提供完整的工作流,來構建、訓練和部署基於GPU 加速的AI 系統。這套系統用於手勢、凝視等視覺提示,以及情境語音。
如前所述,Jarvis 是該公司試圖同時處理來自不同傳感器的多個輸入的嘗試。這種方法的背後,旨在幫助構建上下文,在基於對話的AI 應用程序中,準確地預測和生成響應。
為此,英偉達在其博客文章中舉例說明了可能會有所幫助的一些案例。比如將語音輸入和唇語識別相融合,凝視講述人是否正在與現場的AI 代理、或其他人員進行交流。
此外,Nvidia Jarvis 包含了可根據用戶需求而進行調整的模塊。對於視覺類應用,Jarvis 具有用於人員檢測和跟踪、手勢、唇部活動、注視、以及身體姿勢檢測的模塊。
對於語音類應用,Jarvis 可以分析情感、對話建模、以及意圖和實體分類。為將這些功能集成到系統中,Nvidia 已採用融合算法來同步這些模型的工作。
Nvidia 聲稱,基於Jarvis 的應用程序,在與Nvidia 神經模塊(NeMo)結合時效果最佳。NeMo 是一個與框架無關的工具包,用於創建圍繞神經模塊構建的AI應用程序。
基於雲的應用程序,亦可使用EGX 平台,部署和使用基於Jarvis 開發的服務。Jarvis 在Nvidia EGX 堆棧上運行,該公司自詡為全球首個邊緣計算超算平台,且與Kubernetes 基礎架構兼容。
最後,Jarvis 現已開放早期訪問,感興趣的朋友可註冊並登錄Nvidia 賬戶,以申請早期訪問。