“計算機視覺被GPT-4o終結了”（狗頭）

今天小編(衛青柏)要和大家分享的是“計算機視覺被GPT-4o終結了”（狗頭）,歡迎閱讀~

一夜之間，CV 被大模型 " 解決 " 了（狗頭）。

萬物皆可吉卜力之後，GPT-4o 原生多模态影像生成更多玩法被開發出來。

一個男友回頭表情包，可以秒變語義分割圖。

也可以秒變深度圖。

這下不光上一代 AI 畫圖工具和設計師，計算機視覺研究員也哭暈在廁所了。

這是 NASA 前工程師測試特斯拉自動駕駛系統的偽裝 " 隐形牆 "，在 GPT-4o 面前也無所遁形。

這下 OpenAI 應用研究主管 Boris Power 已經把腦筋動到了自動駕駛，稱只需要訓練最強大的基礎模型，然後微調。

3D 渲染領網域也慘遭毒手，GPT-4o 可以生成 PBR 材質（基于物理渲染的材質），紋理、法線貼圖等直接來一套。

對于這些能力，也有人認為沒什麼大不了的，Stable Diffusion + ControlNet 就可以全部實現。

但不可否認，靠擴大基礎模型規模就能做到，也是令人意想不到的。

這波 GPT-4o 原生影像生成的技術細節，OpenAI 是一點也沒有公布（粗節也沒有公布）。

但還是有人從 System Card 中發現了蛛絲馬迹。

與 DALL · E 是一個擴散模型不同，GPT-4o 影像生成是原生嵌入在 ChatGPT 内的自回歸模型。

還有人觀察影像的生成過程，發現很可能是多尺度自回歸的組合，先生成一個粗略的影像，填充細節的同時，粗略圖形本身也在變化。

自回歸模型根據之前的像素或 patch 預測下一個像素或 patch，獲得更好地遵循指令，以及影像編輯的能力。

但也有人引用發 OpenAI 員工 Allan Jabri 曬出的板書圖，提出在解碼階段仍然有可能用了擴散模型。

針對這一猜想，更具體的實現方法可以參考 Meta 等 24 年 8 月的一篇論文：使用一個多模态模型同時預測預測下一個 token 和擴散影像。

最後，微信評論區能發圖片了，歡迎大家把更多 GPT-4o 有趣玩法曬出來～

GPT-4o Native Image Generation System Card

https://cdn.openai.com/11998be9-5319-4302-bfbf-1167e093f1fb/Native_Image_Generation_System_Card.pdf

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

https://arxiv.org/abs/2408.11039v1

參考鏈接：

[ 1 ] https://x.com/fofrAI/status/1905289275316326679

[ 2 ] https://x.com/a_karvonen/status/1905372299814932963

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

— 完 —

速搶席位！中國 AIGC 產業峰會觀眾報名通道已開啟 ‍♀️

首批嘉賓曝光啦百度、無問芯穹、數勢科技、生數科技、像素綻放等十數位 AI 領網域創變者将齊聚峰會，讓更多人用上 AI、用好 AI，與 AI 一同加速成長～

4 月 16 日，就在北京，一起來深度求索 AI 怎麼用

一鍵星标

科技前沿進展每日見

關于“計算機視覺被GPT-4o終結了”（狗頭）就分享完了，您有什麼想法可以聯系小編(衛青柏)。