馬斯克的首款多模態大模型來了GPT-4V又被超越了一次
自從2023 年11 月Grok 首次亮相以來,馬斯克的xAI 正在大模型領域不斷取得進步,向OpenAI 等先行者發動攻擊。在Grok-1 開源後不到一個月,xAI 的首個多模態模型就問世了。昨天,xAI 推出了Grok-1.5V,該模型不僅能理解文本,還能處理文件、圖表、截圖和照片中的內容。
官方部落格文章表示:「Grok-1.5V 在許多領域都能媲美當前頂尖的多模態模型,從多學科推理到理解文檔、科學圖表、圖表、截圖和照片。」 xAI 還表示,在接下來的幾個月裡,預計將在影像、音訊和視訊等各種模態上顯著提高模型能力。
我們看到了Grok-1.5V 與GPT-4V、Claude 3Sonnet、Claude 3 Opus 和Gemini Pro 1.5 的測試比較。其中特別提到的是:「Grok 在理解物理世界方面的能力尤其令我們興奮。在我們新推出的RealWorldQA 基準測試中,Grok 的表現優於同類產品。對於下面的所有數據集,我們都是在在沒有思維鏈提示的情況下對Grok 進行評估的。
如果Grok-1.5 能在類似於Grok-1 的開源許可證下發布,這將成為當下LLM 競爭格局的一個重要節點。
Grok-1.5V 表現如何?
目前,Grok-1.5V 還沒有完全開放,但很快就會提供給早期測試者和現有的Grok 用戶。不過,部落格中展示了Grok-1.5V 的七個範例。
第一個是將流程圖的白板草圖轉換為Python 程式碼:
Prompt:Can you translate this into Python code?(你能把它翻譯成Python 程式碼嗎?)
Grok:當然!您提供的流程圖描述了一個簡單的競猜遊戲:電腦產生一個隨機數,使用者必須猜出它。以下是表示流程圖中邏輯的Python 程式碼:
import random
def guess_number(): # Generate a random number between 1 and 10
target = random.randint(1, 10)
while True:
guess = int(input("Guess a number between 1 and 10:"))
if guess == target:
print("You won!")
break
else:
print("Wrong guess, try again!")
if __name__ =="__main__":
guess_number()
第二個是計算卡路里:
Prompt:How many calories are there in 5 slices of this?(5 片有多少卡路里?)
Grok:如果一份是3 片,含有60 卡路里,那麼5 片就含有大約100 卡路里。計算方法是先確定每片的熱量:60 卡/ 3 片= 20 卡/ 片。然後,將每片的卡路里乘以片數:每片20 卡路里* 5 片= 100 卡路里。
第三個是將草圖轉化為睡前故事:
Prompt:My son drew this, can you tell a short bedtime story based on his drawing?(這是我兒子畫的,你能根據他的畫講一個簡短的睡前故事嗎?)
Grok:
很久很久以前,在一個充滿冒險和奇蹟的國度裡,有一個勇敢的小男孩,名叫提米。提米和家人住在舒適的小房子裡,他最喜歡的事情就是探索周圍的世界。
在一個陽光明媚的日子裡,提米決定去附近的森林探險。他帶了自己最喜歡的零食、指南針和他最信任的筆記本,準備把自己看到的所有令人興奮的事物都畫下來。
當Timmy 走進森林深處時,他發現了一條在陽光下閃閃發光的神奇河流。這條河是如此迷人,提米決定做一艘小紙船,順流而下,作為給森林精靈的特別訊息。
提米小心翼翼地折好紙船,在上面畫了一個笑臉,希望能帶給森林精靈歡樂。然後,他把小船放在河面上,看著小船上載著他的友誼和對大自然的愛漂走了。
夕陽西下,提米知道是時候回家了。他為自己在森林裡度過的神奇的一天感到慶幸,他知道自己將永遠記得這次探險。
回到家後,提米和家人分享了他的故事,家人聽到他在森林裡度過的神奇一天都非常高興。他們一致認為,提米勇敢、善良的精神是一種真正的激勵,他們知道,提米今後還會有更多精彩的冒險。
就這樣,帶著滿心的愛和滿腦子的夢想,提米漸漸進入了夢鄉,他渴望發現在他的想像世界裡還有什麼新的冒險在等著他。
第四個是解釋梗圖:
Prompt:I don’t get it, please explain(我不懂,啥意思?)
Grok:
這張圖幽默地將新創公司和大公司作了對比。在標示為”新創企業”的左側,有一群人在一起挖洞。他們都在積極參與,洞已經挖得很深了。
在標示”大公司”的右側,有一群人圍著一個洞站著。然而,與新創公司不同的是,只有一個人真正在挖洞,其他人都在觀看或從事其他活動。
這張圖的幽默感來自於對新創公司和大公司之間差異的誇大。在新創公司,人們往往有一種緊迫感,希望每個人都能直接為手邊的任務做出貢獻。相較之下,大公司往往被描述為官僚主義更嚴重,所有團隊成員對每個專案的直接參與更少。
第五個是將表格轉換為CSV 檔案格式:
Prompt:Please convert this table to csv.(請將此表轉換為csv。)
Grok:
medal,name,sport,event,date
1 gold,El Amin Chentouf,Athletics,Men's marathon - T13,11 September
1 gold,Mohamed Amguoun,Athletics,Men's 400m - T13,15 September
1 gold,Azeddine Nouiri,Athletics,Men's shot put - T34,15 September
2 silver,Mahdi Afri,Athletics,Men's 400m - T12,9 September
2 silver,El Amin Chentouf,Athletics,Men's 5000m - T13,15 September
3 bronze,Mahdi Afri,Athletics,Men's 200m - T12,17 September
3 bronze,Mohamed Lahna,Paratriathlon,Men's PT2,10 September
CSV 格式不支援樣式或格式設置,因此資訊以純文字格式呈現。
第六個是辨別木頭的腐朽程度:
Prompt:These holes are appearing around the screws in my deck. Is it rotten? Should I get my boards replaced?(這些孔出現在我的甲板上的螺絲周圍。是不是爛了?我應該更換嗎?)
Grok:
甲板上的木材似乎已經開始腐爛。這表現在螺絲周圍出現孔洞,這是木材腐爛的常見跡象。
為了確保露台的安全和使用壽命,建議更換受影響的木板。這將有助於防止其受到進一步損壞,並保持其結構的完整性。
如果您不確定如何更換木板,請諮詢專業的露台建造商或承包商可能會有所幫助。他們將能夠評估損壞的程度,並就最佳行動方案向您提供專家建議。
第七個是解決程式設計問題:
Prompt:Can you write Python code that solves this?(你能寫Python 程式碼來解決這個問題嗎?)
Grok 回覆如下:
def find_triplets(nums):
result = []
nums.sort()
for i in range(len(nums) - 2):
if i > 0 and nums[i] == nums[i - 1]:
continue
target = -nums[i]
left = i + 1
right = len(nums) - 1
while left < right:
if nums[left] + nums[right] == target:
result.append([-target, nums[left], nums[right]])
left += 1
right -= 1
while left < right and nums[left] == nums[left - 1]:
left += 1
while left < right and nums[right] == nums[right + 1]:
right -= 1
elif nums[left] + nums[right] < target:
left += 1
else:
right -= 1
return result
RealWorldQA 基準
本次發布還有一個亮點:xAI 推出了一個新的基準「RealWorldQA」。
下載網址:https://data.x.ai/realworldqa.zip
「為了開發有用的真實世界人工智慧助手,提高模型對物理世界的理解至關重要。」xAI 希望藉助該基準更好地評估多模態模型的基本真實世界空間理解能力。 “雖然當前基準中的許多示例對人類來說相對容易,但它們往往對前沿模型構成挑戰。”
目前,RealWorldQA 包含700 多張圖片,每張圖片都有一個問題和易於驗證的答案。
在真實世界的圖像外,該資料集還包括從車輛上拍攝的匿名影像。這對於自動駕駛領域來說,或許是個好消息。
巧合的是,微軟研究院前段時間更新了跨語言、模態、模型和任務的基準測試MEGAVERSE,包含22 個資料集,涵蓋83 種語言(包括資源匱乏的非洲語言)。微軟也在基準測試中加入了兩個多模態資料集,並比較了LLaVA 模型GPT-4-Vision 和Gemini-Pro-Vision 的效能。
Meta 在前幾天也開源了衡量人工智慧系統具體問答能力的基準資料集OpenEQA,包含家庭和辦公室等180 多種不同現實環境的1600 多個問題,跨越七個類別,全面測試AI 在物體和屬性辨識、空間和功能推理以及常識知識等技能方面的能力,加深大模型對現實世界的理解。
即使是最先進的AI 模型,如GPT-4V,在OpenEQA 上也難以與人類表現相媲美。 OpenEQA 是衡量人工智慧系統理解和回答現實世界問題能力的新基準。
在這些研究的推動下,我們可以期待2024 年大模型在現實世界任務中取得更多的進展。
參考連結:https://x.ai/blog/grok-1.5v