高馬爾
一個信息發佈的網站

“計算機視覺被GPT-4o終結了”(狗頭)

今天小編(衛青柏)要和大家分享的是“計算機視覺被GPT-4o終結了”(狗頭),歡迎閱讀~

一夜之間,CV 被大模型 " 解決 " 了(狗頭)。

萬物皆可吉卜力之後,GPT-4o 原生多模态影像生成更多玩法被開發出來。

一個男友回頭表情包,可以秒變語義分割圖。

也可以秒變深度圖。

這下不光上一代 AI 畫圖工具和設計師,計算機視覺研究員也哭暈在廁所了。

這是 NASA 前工程師測試特斯拉自動駕駛系統的偽裝 " 隐形牆 ",在 GPT-4o 面前也無所遁形。

這下 OpenAI 應用研究主管 Boris Power 已經把腦筋動到了自動駕駛,稱只需要訓練最強大的基礎模型,然後微調。

3D 渲染領網域也慘遭毒手,GPT-4o 可以生成 PBR 材質(基于物理渲染的材質),紋理、法線貼圖等直接來一套。

對于這些能力,也有人認為沒什麼大不了的,Stable Diffusion + ControlNet 就可以全部實現。

但不可否認,靠擴大基礎模型規模就能做到,也是令人意想不到的。

這波 GPT-4o 原生影像生成的技術細節,OpenAI 是一點也沒有公布(粗節也沒有公布)。

但還是有人從 System Card 中發現了蛛絲馬迹。

與 DALL · E 是一個擴散模型不同,GPT-4o 影像生成是原生嵌入在 ChatGPT 内的自回歸模型。

還有人觀察影像的生成過程,發現很可能是多尺度自回歸的組合,先生成一個粗略的影像,填充細節的同時,粗略圖形本身也在變化。

自回歸模型根據之前的像素或 patch 預測下一個像素或 patch,獲得更好地遵循指令,以及影像編輯的能力。

但也有人引用發 OpenAI 員工 Allan Jabri 曬出的板書圖,提出在解碼階段仍然有可能用了擴散模型。

針對這一猜想,更具體的實現方法可以參考 Meta 等 24 年 8 月的一篇論文:使用一個多模态模型同時預測預測下一個 token 和擴散影像。

最後,微信評論區能發圖片了,歡迎大家把更多 GPT-4o 有趣玩法曬出來~

GPT-4o Native Image Generation System Card

https://cdn.openai.com/11998be9-5319-4302-bfbf-1167e093f1fb/Native_Image_Generation_System_Card.pdf

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

https://arxiv.org/abs/2408.11039v1

參考鏈接:

[ 1 ] https://x.com/fofrAI/status/1905289275316326679

[ 2 ] https://x.com/a_karvonen/status/1905372299814932963

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

—    —

速搶席位!中國 AIGC 產業峰會觀眾報名通道已開啟  ‍♀️

首批嘉賓曝光啦   百度、無問芯穹、數勢科技、生數科技、像素綻放等十數位 AI 領網域創變者将齊聚峰會,讓更多人用上 AI、用好 AI,與 AI 一同加速成長~

4 月 16 日,就在北京,一起來深度求索 AI 怎麼用  

一鍵星标

科技前沿進展每日見

關于“計算機視覺被GPT-4o終結了”(狗頭)就分享完了,您有什麼想法可以聯系小編(衛青柏)。