微軟公佈新人工智能模型Kosmos-1:了解圖像內容、解決視覺難題
週一,來自微軟的研究人員介紹了Kosmos-1,一個多模態模型,可以分析圖像內容,解決視覺難題,進行視覺文本識別,通過視覺智商測試,並理解自然語言指令。研究人員認為多模態人工智能–它整合了不同的輸入模式,如文本、音頻、圖像和視頻–是建立人工通用智能(AGI)的關鍵步驟,可以執行人類水平的一般任務。
研究人員在他們的學術論文《語言不是你的全部》中寫道:”作為智能的一個基本部分,多模態感知是實現人工通用智能的一個必要條件,在知識獲取和立足於現實世界方面,將感知與語言模型結合起來。”
Kosmos-1論文中的視覺案例顯示,該模型分析圖像並回答有關問題,從圖像中閱讀文本,為圖像編寫標題,並以22-26%的準確率進行視覺智商測試。
當媒體熱議大型語言模型(LLM)的突破時,一些人工智能專家指出,多模態人工智能是通往通用人工智能的潛在途徑,這種假想的技術表面上將能夠在任何智力任務(和任何智力工作)中取代人類。AGI是OpenAI的既定目標,它是微軟在人工智能領域的一個重要商業夥伴。
在這種情況下,Kosmos-1似乎是一個沒有OpenAI參與的微軟公司內部項目。研究人員將他們的創造稱為”多模態大語言模型”(MLLM),因為它的根源在於自然語言處理,就像純文本的LLM,如ChatGPT就是其中的傑出代表。為了讓Kosmos-1接受圖像輸入,研究人員必須首先將圖像翻譯成LLM能夠理解的一系列特殊標記(基本上是文本)。Kosmos-1的論文對此有更詳細的描述:
對於輸入格式,我們將輸入平鋪為一個用特殊標記物裝飾的序列。具體來說,我們使用和來表示序列的開始和結束。特殊標記paragraphImage Embedding paragraph “是一個交錯的圖像-文本輸入。… 一個嵌入模塊被用來將文本標記和其他輸入模式都編碼為向量。然後,嵌入被送入解碼器。對於輸入標記,我們使用一個查找表將其映射到嵌入中。對於連續信號的模態(如圖像和音頻),將輸入表示為離散代碼,然後將其視為”外語”也是可行的。
微軟使用網絡上的數據訓練Kosmos-1,包括The Pile(800GB的英文文本資源)和Common Crawl的節選。訓練結束後,他們在一些測試中評估了Kosmos-1的能力,包括語言理解、語言生成、無光學字符識別的文本分類、圖像說明、視覺問題回答、網頁問題回答和零拍圖像分類。據微軟稱,在許多這些測試中,Kosmos-1的表現超過了目前最先進的模型。
Kosmos-1負責解決的瑞文智商測試的一個例子
特別令人感興趣的是Kosmos-1在瑞文推理中的表現,該測試通過展示一連串的形狀並要求測試者完成該序列來測量視覺智商。為了測試Kosmos-1,研究人員將一個個填寫好的測試題輸入,每次完成每個選項,並詢問答案是否正確。Kosmos-1只能在22%的時間內正確回答瑞文測試中的問題(微調後為26%),方法上的錯誤可能會影響結果,但Kosmos-1在拉文智商測試中擊敗了隨機機會(17%)。
儘管如此,雖然Kosmos-1代表了多模態領域的早期步驟(其他廠商也在追求這種方法),但很容易想像,未來的優化可能會帶來更重要的結果,使人工智能模型能夠感知任何形式的媒體並對其採取行動,這將大大增強人工助理的能力。研究人員說,在未來,他們希望擴大Kosmos-1的模型規模,並將語音能力也整合進去。
微軟表示,它計劃將Kosmos-1提供給開發者,儘管該論文引用的GitHub頁面在本文發表時還沒有提供Kosmos特定代碼。