阿里發布視覺推理模型QVQ-Max

凌晨三點，阿里在X上發布視覺推理模型QVQ-Max。作為QVQ-72B-Preview的升級版，官方表示，新模型針對傳統AI在視覺訊息處理上的不足進行了優化，增強了從視覺感知到認知推理的能力。

QVQ-Max支援圖像、視訊與文字的聯合推理。在MathVision benchmark測試中，QVQ-Max表現出「thinking長度」與準確率正相關的特性，驗證了模型在複雜多模態任務中的潛力。

官方表示，QVQ-Max在三個方面表現突出：一是細緻觀察，能夠精確識別圖像中的細節和文字標識；二是深入推理，結合背景知識進行分析和推理；三是靈活應用，支持創意生成和內容創作。

WONGCW 網誌