阿里通義千問推出QVQ-Max視覺推理模型:有“眼力”,更有“腦力”
阿里通義千問團隊發文宣布,正式推出QVQ-Max視覺推理模型第一版。團隊表示,去年12月發布的探索模型QVQ-72B-Preview存在一些不足,而新版本的模型具備強大的多模態處理能力,它不僅能夠「看懂」圖片和影片裡的內容,還能結合這些資訊進行分析、推理,甚至給出解決方案。
從數學題到生活小問題,從程式碼到藝術創作,QVQ-Max都展現出了不俗的能力。

MathVision榜單評圖圖來源:通義千問官方公眾號
在權威的MathVision榜單評量中,透過模型thinking最大長度的調整,其在解決複雜數學問題的準確率上呈現出持續上升的趨勢,充分彰顯了該模型蘊含的巨大潛力。
據悉QVQ-Max的核心能力,主要體現在三個關鍵維度:
細緻觀察:QVQ-Max對圖片的解析能力非常強,無論是複雜的圖表或是日常生活中隨手拍的照片,它都能快速辨識出關鍵元素。例如,它可以告訴你一張照片裡有哪些物品、有什麼文字標識,甚至還能指出一些你可能忽略的小細節
深入推理:僅僅辨識出圖片裡的內容還不夠,QVQ-Max 還能進一步分析這些訊息,並結合背景知識得出結論。例如,在一道幾何題中,它可以根據題目附帶的圖形推導出答案;在一段影片裡,它能根據畫面內容推測出接下來可能發生的情節。
靈活應用:除了分析和推理,QVQ-Max 還能做一些有趣的事情,例如幫你設計插畫、產生短影片腳本,甚至根據你的需求創作角色扮演的內容。如果你上傳一幅草稿,它可能會幫你完善成一幅完整的作品;上傳一個日常照片,它可以化身犀利的評論家。