英偉達推全新視覺語音模型NVEagle 可以看圖聊天

2024-09-02 Comments 0 Comment

英偉達聯合Georgia Tech、UMD 和HKPU 的研究團隊推出了全新的視覺語言模式—NVEagle。據悉，NVEagle 能夠理解複雜的現實場景，透過視覺輸入進行更好的解讀和回應。

它的設計核心在於將圖像轉化為視覺標記，再與文字嵌入結合，進而提升了對視覺訊息的理解。 NVEagle包含了三個版本:Eagle-X5-7B、Eagle-X5-13B 以及Eagle-X5-13B-Chat。其中，7B 和13B 版本主要用於一般的視覺語言任務，而13B-Chat 版本則專門針對對話式AI 進行了微調，能夠更好地進行基於視覺輸入的互動。

NVEagle 的一個亮點在於採用了混合專家（MoE）機制，能夠根據不同任務動態選擇最合適的視覺編碼器，這極大地提升了對複雜視覺訊息的處理能力。該模型已在Hugging Face 上發布，方便研究人員和開發者使用。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

WONGCW 網誌

記錄生活經驗與點滴

英偉達推全新視覺語音模型NVEagle 可以看圖聊天

2024-09-02 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆