英偉達發布Jarvis：可匯聚語音視頻等傳感器信息的多模AI SDK

2019-10-22 Comments 0 Comment

在近日召開的5G移動世界大會上，英偉達（Nvidia）聯合創始人兼首席執行官（CEO）黃仁勳宣布了Nvidia Jarvis 。作為一種多模式人工智能（AI）開源軟件的開發套件（SDK），它能夠將語音、視覺和其它傳感器，整合到一個AI系統中。換言之，借助Nvidia Jarvis，開發者能夠構建和部署融合視覺、語音和其它傳感器的AI應用程序。

（來自：Nvidia，via Neowin）

據悉，Nvidia Jarvis 提供完整的工作流，來構建、訓練和部署基於GPU 加速的AI 系統。這套系統用於手勢、凝視等視覺提示，以及情境語音。

如前所述，Jarvis 是該公司試圖同時處理來自不同傳感器的多個輸入的嘗試。這種方法的背後，旨在幫助構建上下文，在基於對話的AI 應用程序中，準確地預測和生成響應。
為此，英偉達在其博客文章中舉例說明了可能會有所幫助的一些案例。比如將語音輸入和唇語識別相融合，凝視講述人是否正在與現場的AI 代理、或其他人員進行交流。

此外，Nvidia Jarvis 包含了可根據用戶需求而進行調整的模塊。對於視覺類應用，Jarvis 具有用於人員檢測和跟踪、手勢、唇部活動、注視、以及身體姿勢檢測的模塊。

1571727860_jarvis-banner-tw-li-2048x1024-768x384_story.jpg

對於語音類應用，Jarvis 可以分析情感、對話建模、以及意圖和實體分類。為將這些功能集成到系統中，Nvidia 已採用融合算法來同步這些模型的工作。

Nvidia 聲稱，基於Jarvis 的應用程序，在與Nvidia 神經模塊（NeMo）結合時效果最佳。NeMo 是一個與框架無關的工具包，用於創建圍繞神經模塊構建的AI應用程序。
基於雲的應用程序，亦可使用EGX 平台，部署和使用基於Jarvis 開發的服務。Jarvis 在Nvidia EGX 堆棧上運行，該公司自詡為全球首個邊緣計算超算平台，且與Kubernetes 基礎架構兼容。

最後，Jarvis 現已開放早期訪問，感興趣的朋友可註冊並登錄Nvidia 賬戶，以申請早期訪問。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

WONGCW 網誌

記錄生活經驗與點滴

英偉達發布Jarvis：可匯聚語音視頻等傳感器信息的多模AI SDK

2019-10-22 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆