阿里通義千問推出QVQ-Max視覺推理模型：有“眼力”，更有“腦力”

阿里通義千問團隊發文宣布，正式推出QVQ-Max視覺推理模型第一版。團隊表示，去年12月發布的探索模型QVQ-72B-Preview存在一些不足，而新版本的模型具備強大的多模態處理能力，它不僅能夠「看懂」圖片和影片裡的內容，還能結合這些資訊進行分析、推理，甚至給出解決方案。

從數學題到生活小問題，從程式碼到藝術創作，QVQ-Max都展現出了不俗的能力。

MathVision榜單評圖圖來源：通義千問官方公眾號

在權威的MathVision榜單評量中，透過模型thinking最大長度的調整，其在解決複雜數學問題的準確率上呈現出持續上升的趨勢，充分彰顯了該模型蘊含的巨大潛力。

據悉QVQ-Max的核心能力，主要體現在三個關鍵維度：

細緻觀察：QVQ-Max對圖片的解析能力非常強，無論是複雜的圖表或是日常生活中隨手拍的照片，它都能快速辨識出關鍵元素。例如，它可以告訴你一張照片裡有哪些物品、有什麼文字標識，甚至還能指出一些你可能忽略的小細節

深入推理：僅僅辨識出圖片裡的內容還不夠，QVQ-Max 還能進一步分析這些訊息，並結合背景知識得出結論。例如，在一道幾何題中，它可以根據題目附帶的圖形推導出答案；在一段影片裡，它能根據畫面內容推測出接下來可能發生的情節。

靈活應用：除了分析和推理，QVQ-Max 還能做一些有趣的事情，例如幫你設計插畫、產生短影片腳本，甚至根據你的需求創作角色扮演的內容。如果你上傳一幅草稿，它可能會幫你完善成一幅完整的作品；上傳一個日常照片，它可以化身犀利的評論家。

WONGCW 網誌