馬斯克發布Grok-1.5V xAI首款多模態大模型能看圖寫程式碼、算熱量
剛剛,馬斯克的大模型創企xAI推出了其首款多模態大模型Grok-1.5V。這是OpenAI的大語言模式勁敵之一。如今,除了文字功能外,Grok現在還可以處理各種各樣的視覺訊息,包括文件、圖表、圖表、螢幕截圖、照片,並能進行多學科推理。
xAI重點展示了Grok-1.5V的7個範例,包括:將手繪圖表轉換成Python程式碼、看食品標籤計算卡路里、根據孩子的繪畫講個睡前故事、解釋梗圖、將表格轉換成csv格式、為生活日常問題答疑解惑、解決程式碼問題。
至此,xAI正式加入前沿多模態大模型的競賽。
與GPT-4V、Claude 3 Sonnet、Claude 3 Opus、Gemini Pro 1.5相比,Grok-1.5V的表現不相上下,在一些基準測試中略勝一籌。
尤其是在RealWorld,用於衡量真實世界空間理解能力的QA基準測試中,Grok明顯優於同類模型。 xAI團隊對Grok理解物理世界的能力感到特別興奮。對於上面的資料集,團隊在沒有思維鏈提示的情況下在零樣本設定中評估Grok。
xAI宣布向社群發布RealWorldQA基準測試,並計劃隨著其多模態模型的改進而擴展它。 RealWorldQA在CC BY-ND 4.0下發布,資料集大小為677MB。
初版RealWorldQA由700多張圖片組成,每張圖片都有一個問題和易於驗證的答案。該資料集包括從汽車上拍攝的匿名影像,以及其他真實世界的影像。 xAI放出了4個範例,其中有兩張圖都是由汽車前置鏡頭拍攝的。
資料集位址:
https://creativecom mons.org/licenses/by-nd/4.0/?ref=chooser-v1
自2023年11月推出聊天機器人Grok以來,馬斯克xAI一直在追趕OpenAI的步伐。在剛過去的1個月內,xAI相繼宣布將Grok-1開源、推出128k長文本Grok-1.5、推出Grok-1.5V多模態大模型三項重要進展。
Grok-1.5V將很快提供給其早期測試者和現有的Grok用戶。
xAI展示了Grok-1.5V的7個範例:
1.看圖表草圖,寫程式
當使用者拿一張手繪的流程圖,問Grok能否轉換成Python程式碼。
Grok回覆:
“當然!您提供的流程圖描述了一個簡單的猜謎遊戲,其中計算機生成一個隨機數,用戶必須猜測它。下面是表示流程圖中邏輯的Python代碼:”
“這段程式碼將運行流程圖中描述的猜謎遊戲。用戶將被提示輸入他們的猜測,直到他們猜對了數字。”
2、計算卡路里
用戶問:“5片這個有多少卡路里?”
Grok回覆:
「如果一份是3片,含有60卡路里,那麼5片就含有大約100卡路里。這是透過先確定每片的卡路里來計算的:60卡路里/3片=每片20卡路里。然後,將每片的卡路里乘以片數:每片20卡路里*5片= 100卡路里。
3.根據繪畫講一個睡前故事
根據上圖,Grok講出這樣一個睡前故事:
「很久很久以前,在一片充滿冒險和奇蹟的土地上,有一個勇敢的小男孩,名叫蒂米。蒂米和他的家人住在一個舒適的小房子裡,他最喜歡的就是探索周圍的世界。
在一個陽光明媚的日子,蒂米決定去附近的森林探險。他帶了他最喜歡的零食、一本指南針,還有他那本可靠的筆記本,用來畫下他將要看到的所有令人興奮的事情。
當蒂米向森林深處冒險時,他發現了一條在陽光下閃閃發光的神奇河流。這條河是如此迷人,以至於蒂米決定建造一艘小紙船,作為對森林精靈的特殊訊息,順流而下。
蒂米小心翼翼地折起他的紙船,在上面畫了一個笑臉,給森林精靈帶來歡樂。然後,他把船放在河上,看著它漂走,帶著他的友誼和對大自然的愛的信息。
當太陽開始下山時,蒂米知道是時候回家了。他很感激在森林裡度過的神奇的一天,他知道他會永遠把這次冒險的記憶記在心裡。
回到家,蒂米把他的故事告訴了他的家人,他們很高興聽到他在森林裡的神奇一天。他們都認為提米的勇敢和善良的精神是一個真正的鼓舞,他們知道他將繼續有更多的奇妙的冒險在未來。
於是,帶著一顆充滿愛的心和一個充滿夢想的頭腦,蒂米慢慢地睡著了,渴望發現在他想像的世界裡有什麼新的冒險在等著他。 」
4.解釋一張梗圖
給Grok上面這張梗圖,它也能「秒懂」:
「這張圖片是對新創公司和大公司的幽默比較。在左邊標有『新創公司』的地方,有一群人在一起挖洞。他們都在積極參與,這個洞已經相當深了。
在右邊標示’大公司’的地方,有一群人站在一個洞周圍。然而,與創業方不同的是,實際上只有一個人在挖洞,而其他人則在觀看或從事其他活動。
這張圖中的幽默來自於對新創公司和大公司之間差異的誇大。在創業公司,通常有一種緊迫感,每個人都被期望直接為手頭上的任務做出貢獻。相較之下,大公司通常被描述為有更多的官僚主義,並且每個專案中所有團隊成員的直接參與較少。 」
5.將表格轉換成csv
使用者可以請Grok將這張表格轉換成csv。
Grok隨即輸出以純文字格式顯示的CSV。
6.幫忙清理甲板上的爛木頭
Grok也能用於解決生活日常問題。當用戶發送一張照片,詢問:“這些洞出現在我甲板上的螺絲周圍。它爛了嗎?我應該換電路板嗎?”
Grok回覆說:
「看來你甲板上的木頭已經開始腐爛了。螺絲周圍有洞表明了這一點,這是木頭腐爛的常見跡象。
為確保甲板的安全和使用壽命,建議更換受影響的甲板。這將有助於防止甲板進一步受損,並保持其結構完整性。
如果您不確定如何繼續更換板,諮詢專業的甲板建造商或承包商可能會有所幫助。他們將能夠評估損壞的程度,並為您的甲板提供最佳行動方案的專家建議。 」
7.解決代碼問題
請Grok寫Python程式碼解決上面的問題,Grok的輸出如下:
xAI團隊認為,推進其多模態理解和生成能力是建構能夠理解宇宙的有益AGI的重要步驟。在接下來的幾個月裡,xAI預計將在影像、音訊、視訊等各種模態上對這兩種功能進行重大改進。
同時,xAI也貼出招募鏈接,邀請更多設計師、工程師、產品、數據、Infra、AI導師加入。
值得一提的是,LLaVA一作、美國威斯康辛大學麥迪遜分校博士柳昊天今日宣布加入xAI團隊:「我很高興和一個小而專注的團隊一起工作,看看我們能有多快!這只是個開始。 」