今天小編(衛青柏)要和大家分享的是“計算機視覺被GPT-4o終結了”(狗頭),歡迎閱讀~
一夜之間,CV 被大模型 " 解決 " 了(狗頭)。
萬物皆可吉卜力之後,GPT-4o 原生多模态影像生成更多玩法被開發出來。
一個男友回頭表情包,可以秒變語義分割圖。
也可以秒變深度圖。
這下不光上一代 AI 畫圖工具和設計師,計算機視覺研究員也哭暈在廁所了。
這是 NASA 前工程師測試特斯拉自動駕駛系統的偽裝 " 隐形牆 ",在 GPT-4o 面前也無所遁形。
這下 OpenAI 應用研究主管 Boris Power 已經把腦筋動到了自動駕駛,稱只需要訓練最強大的基礎模型,然後微調。
3D 渲染領網域也慘遭毒手,GPT-4o 可以生成 PBR 材質(基于物理渲染的材質),紋理、法線貼圖等直接來一套。
對于這些能力,也有人認為沒什麼大不了的,Stable Diffusion + ControlNet 就可以全部實現。
但不可否認,靠擴大基礎模型規模就能做到,也是令人意想不到的。
這波 GPT-4o 原生影像生成的技術細節,OpenAI 是一點也沒有公布(粗節也沒有公布)。
但還是有人從 System Card 中發現了蛛絲馬迹。
與 DALL · E 是一個擴散模型不同,GPT-4o 影像生成是原生嵌入在 ChatGPT 内的自回歸模型。
還有人觀察影像的生成過程,發現很可能是多尺度自回歸的組合,先生成一個粗略的影像,填充細節的同時,粗略圖形本身也在變化。
自回歸模型根據之前的像素或 patch 預測下一個像素或 patch,獲得更好地遵循指令,以及影像編輯的能力。
但也有人引用發 OpenAI 員工 Allan Jabri 曬出的板書圖,提出在解碼階段仍然有可能用了擴散模型。
針對這一猜想,更具體的實現方法可以參考 Meta 等 24 年 8 月的一篇論文:使用一個多模态模型同時預測預測下一個 token 和擴散影像。
最後,微信評論區能發圖片了,歡迎大家把更多 GPT-4o 有趣玩法曬出來~
GPT-4o Native Image Generation System Card
https://cdn.openai.com/11998be9-5319-4302-bfbf-1167e093f1fb/Native_Image_Generation_System_Card.pdf
Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model
https://arxiv.org/abs/2408.11039v1
參考鏈接:
[ 1 ] https://x.com/fofrAI/status/1905289275316326679
[ 2 ] https://x.com/a_karvonen/status/1905372299814932963
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
速搶席位!中國 AIGC 產業峰會觀眾報名通道已開啟 ♀️
首批嘉賓曝光啦 百度、無問芯穹、數勢科技、生數科技、像素綻放等十數位 AI 領網域創變者将齊聚峰會,讓更多人用上 AI、用好 AI,與 AI 一同加速成長~
4 月 16 日,就在北京,一起來深度求索 AI 怎麼用
一鍵星标
科技前沿進展每日見
關于“計算機視覺被GPT-4o終結了”(狗頭)就分享完了,您有什麼想法可以聯系小編(衛青柏)。