高馬爾
一個信息發佈的網站

AI大模型看手相!圖片視頻加持深度思考,阿裡QVQ-Max“神了神了”

今天小編(謝飛揚)要和大家分享的是AI大模型看手相!圖片視頻加持深度思考,阿裡QVQ-Max“神了神了”,歡迎閱讀~

阿裡又發了個有意思的大模型——

QVQ-Max,第一版視覺推理模型,對任意影像或視頻都可以進行深度思考。

舉個有趣的例子,上傳一張你的手掌,再點擊Thinking,QVQ-Max 就可以給你看手相

可以看到,在深度思考過後,QVQ-Max 就開始逐步分析手掌上的線條和其他特征。

包括心線、頭線、生命線等主要線條的分析,以及戒指手指上的金戒指的象征意義。

這還只是一個比較有娛樂性的例子。

如果你一口氣給 QVQ-Max" 喂 "多張圖片,它也可以進行深度思考:

這兩張圖片描繪了哪些風景?它們之間的關系是什麼?

在一頓思考過後,QVQ-Max 準确地識别出兩張圖聯系——都是西湖的風景,但一張是春夏時節,另一張是冬季。

再如數學推理,同樣是給它 " 喂 " 一張圖即可,連提問都省了:

在思考之後,QVQ-Max 是找到了數字們之間的規律,并最終給出了正确答案:10。

以及直接上傳一個手繪簡筆畫視頻,并附上一句:

分析視頻,将視覺内容與文字結合,并為視頻中的鏡頭創建生動有趣的字幕。

最終,QVQ-Max 依舊是穩穩地完成了任務。

網友們看罷,也是麻溜地去試了試。

不過這一次,QVQ-Max 有點小翻車——路飛是認對了,但這個喬巴……

以及啊,這兩天被 OpenAI GPT-4o 影像生成帶火的吉卜力,網友們也是跟上了:

那麼 QVQ-Max 的影像視頻深度思考實力到底如何,我們這就親手嘗試一番。

實測 QVQ-Max

首先,我們還是來測試一下 QVQ-Max 看圖解數學題的能力。

題目是這樣的:

然後我們提問:

這道題的答案是多少?

在深度思考過後,QVQ-Max 不僅精準識别出了手寫的題目,而且給出了正确答案:2。

剛才 Qwen 官方給出了看手相的例子,這次我們再來 " 喂 " 下這張圖:

問題是這樣的:

這是什麼?

嗯,是比較全面地介紹了星盤。

接下來,我們再來測試一下視頻推理,例子就用 Anthropic 最新發布的一個:

若是刨去視頻裡的背景音,單是看内容,還是比較抽象的。

對此,QVQ-Max 給出的理解是:

從觀察到推理

除了效果之外,雖然 Qwen 團隊沒有公布相關論文,但對于背後的技術亮點,團隊還是簡單的介紹了一番。

首先,團隊在 MathVision 這個 benchmark(匯集各類困難多模态數學)上進行了一番測試:

結果表明,通過調整模型 thinking 的最大長度,模型在 MathVision 上的準确率也會持續提升。

除此之外,團隊還總結了 QVQ-Max 的三大能力特點。

包括對圖片的解析能力非常強,無論是復雜的圖表還是日常生活中随手拍的照片,它都能快速識别出關鍵元素。比如,它可以告訴你一張照片裡有哪些物品、有什麼文字标識,甚至還能指出一些你可能忽略的小細節。

僅僅識别出圖片裡的内容還不夠,QVQ-Max 還能進一步分析這些信息,并結合背景知識得出結論。

例如,在一道幾何題中,它可以根據題目附帶的圖形推導出答案;在一段視頻裡,它能根據畫面内容推測出接下來可能發生的情節。

除了分析和推理,QVQ-Max 還能做一些有趣的事情,比如幫你設計插畫、生成短視頻腳本,甚至根據你的需求創作角色扮演的内容。

如果你上傳一幅草稿,它可能會幫你完善成一幅完整的作品;上傳一個日常照片,它可以化身犀利的評論家,占卜師。

值得注意的是,QVQ-Max 是免費可用的哦,感興趣的朋友快去試試吧 ~

體驗地址:

https://chat.qwen.ai

參考鏈接:

[ 1 ] https://qwenlm.github.io/zh/blog/qvq-max-preview/

[ 2 ] https://x.com/Alibaba_Qwen/status/1905342260100956210

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

—    —

速搶席位!中國 AIGC 產業峰會觀眾報名通道已開啟  ‍♀️

首批嘉賓曝光啦   百度、無問芯穹、數勢科技、生數科技、像素綻放等十數位 AI 領網域創變者将齊聚峰會,讓更多人用上 AI、用好 AI,與 AI 一同加速成長~

4 月 16 日,就在北京,一起來深度求索 AI 怎麼用  

一鍵星标

科技前沿進展每日見

關于AI大模型看手相!圖片視頻加持深度思考,阿裡QVQ-Max“神了神了”就分享完了,您有什麼想法可以聯系小編(謝飛揚)。