AI大模型看手相！圖片視頻加持深度思考，阿裡QVQ-Max“神了神了”

今天小編(謝飛揚)要和大家分享的是AI大模型看手相！圖片視頻加持深度思考，阿裡QVQ-Max“神了神了”,歡迎閱讀~

阿裡又發了個有意思的大模型——

QVQ-Max，第一版視覺推理模型，對任意影像或視頻都可以進行深度思考。

舉個有趣的例子，上傳一張你的手掌，再點擊Thinking，QVQ-Max 就可以給你看手相：

可以看到，在深度思考過後，QVQ-Max 就開始逐步分析手掌上的線條和其他特征。

包括心線、頭線、生命線等主要線條的分析，以及戒指手指上的金戒指的象征意義。

這還只是一個比較有娛樂性的例子。

如果你一口氣給 QVQ-Max" 喂 "多張圖片，它也可以進行深度思考：

這兩張圖片描繪了哪些風景？它們之間的關系是什麼？

在一頓思考過後，QVQ-Max 準确地識别出兩張圖聯系——都是西湖的風景，但一張是春夏時節，另一張是冬季。

再如數學推理，同樣是給它 " 喂 " 一張圖即可，連提問都省了：

在思考之後，QVQ-Max 是找到了數字們之間的規律，并最終給出了正确答案：10。

以及直接上傳一個手繪簡筆畫視頻，并附上一句：

分析視頻，将視覺内容與文字結合，并為視頻中的鏡頭創建生動有趣的字幕。

最終，QVQ-Max 依舊是穩穩地完成了任務。

網友們看罷，也是麻溜地去試了試。

不過這一次，QVQ-Max 有點小翻車——路飛是認對了，但這個喬巴……

以及啊，這兩天被 OpenAI GPT-4o 影像生成帶火的吉卜力，網友們也是跟上了：

那麼 QVQ-Max 的影像視頻深度思考實力到底如何，我們這就親手嘗試一番。

實測 QVQ-Max

首先，我們還是來測試一下 QVQ-Max 看圖解數學題的能力。

題目是這樣的：

然後我們提問：

這道題的答案是多少？

在深度思考過後，QVQ-Max 不僅精準識别出了手寫的題目，而且給出了正确答案：2。

剛才 Qwen 官方給出了看手相的例子，這次我們再來 " 喂 " 下這張圖：

問題是這樣的：

這是什麼？

嗯，是比較全面地介紹了星盤。

接下來，我們再來測試一下視頻推理，例子就用 Anthropic 最新發布的一個：

若是刨去視頻裡的背景音，單是看内容，還是比較抽象的。

對此，QVQ-Max 給出的理解是：

從觀察到推理

除了效果之外，雖然 Qwen 團隊沒有公布相關論文，但對于背後的技術亮點，團隊還是簡單的介紹了一番。

首先，團隊在 MathVision 這個 benchmark（匯集各類困難多模态數學）上進行了一番測試：

結果表明，通過調整模型 thinking 的最大長度，模型在 MathVision 上的準确率也會持續提升。

除此之外，團隊還總結了 QVQ-Max 的三大能力特點。

包括對圖片的解析能力非常強，無論是復雜的圖表還是日常生活中随手拍的照片，它都能快速識别出關鍵元素。比如，它可以告訴你一張照片裡有哪些物品、有什麼文字标識，甚至還能指出一些你可能忽略的小細節。

僅僅識别出圖片裡的内容還不夠，QVQ-Max 還能進一步分析這些信息，并結合背景知識得出結論。

例如，在一道幾何題中，它可以根據題目附帶的圖形推導出答案；在一段視頻裡，它能根據畫面内容推測出接下來可能發生的情節。

除了分析和推理，QVQ-Max 還能做一些有趣的事情，比如幫你設計插畫、生成短視頻腳本，甚至根據你的需求創作角色扮演的内容。

如果你上傳一幅草稿，它可能會幫你完善成一幅完整的作品；上傳一個日常照片，它可以化身犀利的評論家，占卜師。

值得注意的是，QVQ-Max 是免費可用的哦，感興趣的朋友快去試試吧 ~

體驗地址：

https://chat.qwen.ai

參考鏈接：

[ 1 ] https://qwenlm.github.io/zh/blog/qvq-max-preview/

[ 2 ] https://x.com/Alibaba_Qwen/status/1905342260100956210

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

— 完 —

速搶席位！中國 AIGC 產業峰會觀眾報名通道已開啟 ‍♀️

首批嘉賓曝光啦百度、無問芯穹、數勢科技、生數科技、像素綻放等十數位 AI 領網域創變者将齊聚峰會，讓更多人用上 AI、用好 AI，與 AI 一同加速成長～

4 月 16 日，就在北京，一起來深度求索 AI 怎麼用

一鍵星标

科技前沿進展每日見

關于AI大模型看手相！圖片視頻加持深度思考，阿裡QVQ-Max“神了神了”就分享完了，您有什麼想法可以聯系小編(謝飛揚)。

相關推薦