高馬爾
一個信息發佈的網站

你的美圖App,在CVPR技術5連秀

今天小編(惠惠君)要和大家分享的是你的美圖App,在CVPR技術5連秀,歡迎閲讀~

影像編輯大禮包!美圖 5 篇技術論文入圍 CVPR 2025。

比如無痕改字,手寫體書面體、海報廣告上各種字體都可以修改。

又或者基于語義的局部編輯,只需塗抹或框選工具就能在指定區網域生成。

還有超級精細的互動式分割算法等等。

更關鍵的是,這些前沿技術已經在美圖各大 APP(美圖秀秀、WHEE、美圖設計室等)中上線了。

今天就帶大家一文看盡美圖在 AI 影像編輯最新成果。

美圖 5 篇論文入選 CVPR 2025

美圖旗下美圖影像研究院(MT Lab)聯合清華大學、新加坡國立大學、北京理工大學、北京交通大學等知名高校發布的 5 篇論文入選 CVPR 2025,均聚焦于影像編輯領網域,分布在生成式 AI、互動式分割、3D 重建三個方面。

從技術路徑來看,突破主要體現在以下 3 個方面:

(1)精細化策略設計:通過結合精細化策略(如基于點擊的互動式分割方法 NTClick、兩階段細化框架 SAM-REF)顯著提高互動分割的效率與精度,同時大幅降低用户操作復雜度。

(2)垂類場景下基于擴散模型的框架創新:結合特定編碼器,提升生成任務質量,以及基于多任務訓練框架,提升結構穩定性和風格一致性。

(3)外推視角的高質量合成:基于增強視圖先驗引導的方案,成功實現高保真的 3D 重建。

其中 GlyphMastero、MTADiffusion 屬于生成式類任務,這不僅是 CVPR 最熱門的前沿方向之一,美圖近年來在該方向上也屢獲突破,圍繞生成式 AI 推出的多項功能與多款產品吸引了海内外大量用户,旗下美顏相機近期憑借 AI 換裝功能,成功登頂多國應用商店總榜第一。

NTClick、SAM-REF 關注互動分割工作,通過用户簡單互動指導的精确引導影像分割,互動分割在復雜場景下能夠顯著提升分割效果和可靠性,在美圖面向電商設計、影像編輯與處理、人像美化等功能的 AI 產品中有廣泛應用,憑借在互動分割方面的領先優勢,也帶動旗下產品美圖設計室的亮眼表現。根據美圖最新财報數據顯示,這款被稱為 " 電商人必備的 AI 設計工具 "2024 年單產品收入約 2 億元,按年同比翻倍,是美圖有史以來收入增長最快的產品。

EVPGS 則是 3D 重建方面成果,受益于深度學習的驅動,尤其是高斯潑濺(Gaussian Splatting)的興起,3D 重建在新視角生成、增強現實(AR)、3D 内容生成、虛拟數字人等領網域應用需求激增,在多個行業展現出強大的潛力。

GlyphMastero:高質量場景文本編輯的創新方法

針對場景的文本編輯任務,既要求保證文本内容符合用户編輯需求,還要求保持風格一致性和視覺協調性。研究人員發現,現有方法往往使用預訓練的 OCR 模型提取特征,但它們未能捕捉文本結構的層次性,即從單個筆畫到筆畫間的互動,再到整體字元結構間的互動,最後到字元與文字行間的互動,這就導致在處理復雜字元(如中文)時容易產生扭曲或難以辨認的結果。

對此,美圖影像研究院(MT Lab)的研究人員提出專為場景文本編輯設計的字形編碼器 GlyphMastero,旨在解決當前擴散模型在文本生成任務中面臨的質量挑戰。

GlyphMastero 核心由字形注意力模塊 (Glyph Attention Module)和特征金字塔網絡 (FPN)兩大部分組成。

GlyphMastero 方法整體架構

字形注意力模塊(Glyph Attention Module)

通過創新的字形注意力模塊,建模并捕捉局部單個字元的筆畫關系以及字元間的全局排布。該模塊不僅對局部細節進行編碼,還實現了字元與全局文本行之間的跨層次互動。

特征金字塔網絡(FPN)

GlyphMastero 還實現了一個特征金字塔網絡 ( FPN ) ,能夠在全局層面融合多尺度 OCR 骨幹(Backbone)特征,确保在保留字元細節特征的同時,又能夠捕捉全局風格,并将最終生成的字形用于指導擴散模型對文本的生成和修復。

基于跨層次和多尺度融合,GlyphMastero 可以獲得更細粒度的字形特征,從而實現對場景文本生成過程的精确控制。

實驗結果表明,與最先進的多語言場景文本編輯基準相比,GlyphMastero 在句子準确率上提高了 18.02%,同時将文本區網域風格相似度距離(FID)降低了 53.28%,這表明生成文本實現了更加自然且高融合度的視覺風格。

對比結果顯示,在海報、街景和廣告圖等場景下,GlyphMastero 能夠生成與原圖風格高度契合的文本,無論是字體粗細、色調還是透視關系,都比之前的 SOTA 方法更為自然和精細。

目前 GlyphMastero 已落地美圖旗下產品美圖秀秀的無痕改字功能,為用户提供輕松便捷的改字體驗。

美圖秀秀無痕改字效果 MTADiffusion:語義增強的局部編輯方法

影像局部修復(Image Inpainting)提供了一個無需 PS 或其它影像處理工具,就可以輕松進行改圖的全新方式,大大降低使用難度,用户只需要使用塗抹或者框選工具,選定想要修改的局部 Mask 區網域,輸入 Prompt 就能夠在指定區網域生成想要的影像。

但現有的 Inpainting 模型,常常在語義對齊、結構一致性和風格匹配方面表現不佳,比如生成内容不符合用户輸入的文本描述,或是修復區網域的細節缺乏準确性,光照、顏色或紋理與原圖也容易存在差異,影響整體視覺一致性。

針對以上問題,美圖影像研究院(MT Lab)的研究人員提出了一種圖文對齊的 Inpainting 訓練框架——MTADiffusion,MTADiffusion 先使用分割模型提取出物體的 mask,再通過多模态大模型對影像局部區網域生成詳細的文本标注,這種圖文對齊的訓練數據構造方式有效提升了模型的語義理解能力。

為了優化生成物體的結構合理性,MTADiffusion 使用了多任務訓練策略,将影像去噪任務(Inpainting)作為主任務,進行噪聲預測,将聯合邊緣預測任務(Edge Prediction)作為輔助任務,用于優化物體結構。此外,MTADiffusion 還提出了基于 Gram 矩陣的風格損失,以提升生成圖片的風格一致性。

MTADiffusion 整體框架

基于 MTADiffusion 方法,影像局部修復模型在 BrushBench 和 EditBench 上的效果都有明顯提升,同時這些通用的策略也可以适配不同的基礎模型。

在 BrushBench 上的對比效果

在 EditBench 上的對比效果

目前,MTADiffusion 已落地美圖旗下 AI 素材生成器 WHEE,實現輕松高效的一站式改圖。

此外,開發者目前也可通過美圖 AI 開放平台集成局部重繪能力,賦能更多創意場景。

WHEE 的 AI 改圖效果 NTClick:基于噪聲容忍點擊的精細互動式分割方法

互動式影像分割(Interactive Segmentation)旨在通過盡可能高效的用户輸入,預測物體的精确 Mask,該技術廣泛應用于數據标注、影像編輯等領網域,其中 " 點擊 " 憑借其高效與靈活性,逐漸成為互動分割中最主流的互動形式之一。

但随着目标對象復雜性和細節的增加,基于前背景點擊的互動方式的優勢逐漸減弱,因為在處理細小或復雜的目标區網域時,準确點擊對于精确定位的需求會大大降低互動效率,同時用户和設備友好性都非常有限。

為了解決這個問題,美圖影像研究院(MT Lab)的研究人員提出了一種基于點擊的互動式分割方法——NTClick,大幅降低了對精确點擊的依賴,支持用户在處理復雜目标時,能憑借目标區網域附近的粗略點擊,預測精準的 Mask。

NTClick 提出了一種全新的互動形式:噪聲容忍點擊,這是一種在選擇細節區網域時不需要用户精确定位的點擊方式。

NTClick 通過一個兩階段網絡來實現對于粗糙互動的理解以及細節區網域的精修:

第一階段:Explicit Coarse Perception ( ECP ) 顯式粗糙感知網絡:

該階段通過一個用于初步估計的顯式粗略感知網絡,在低分辨率下對用户的點擊進行理解,并且預測出一個初步的估計結果 -FBU Map。受到摳圖技術中三元圖的啓發,FBU map 将影像分為三類區網域——前景、背景和不确定區網域。其中,不确定區網域通常對應細小或邊緣模糊的部分,為後續精細化處理提供指導。

第二階段:High Resolution Refinement ( HRR ) 高分辨率精修網絡:

該階段将 ECP 得到的 FBU Map 進行上采樣,并與原始 RGB 影像拼接,輸入到高分辨率精修網絡中。HRR 網絡專注于細粒度區網域的像素級分類,通過稀疏網格注意力機制和近鄰注意力機制的組合,在計算開銷可控的前提下,在高分辨率下進行精細化感知,實現對微小結構(如植物細枝、精細雕塑等)的精準分割,輸出最終的預測結果。

NTClick 兩階段架構

在包含精細目标的 DIS5K 等多個數據集上的實驗結果顯示,NTClick 擁有明顯更高的感知精度,并且在越復雜的場景下優勢越明顯。這表明,NTClick 不僅保持了高效且用户友好的互動方式,在分割精度上也顯著超過了現有方法。

實驗結果

可視化結果也顯示,NTClick 在處理細小目标(如首飾、線繩)時,相比傳統方法具有更清晰的邊界和更高的分割精度,同時用户的互動負擔明顯降低。

對比結果

近年來美圖在分割算法上屢獲突破,友好的互動方式疊加強大算法泛化能力,持續提升場景覆蓋率與分割精細度,而對場景的理解深度與對用户體驗的極致追求,也助力智能摳圖這個垂類場景一躍成為美圖設計室的王牌功能。

美圖設計室智能摳圖效果 SAM-REF:高精度場景下的互動式分割

互動式分割當前有兩種主流方法,FocalClick、SimpleClick 等早期融合(Early fusion)方法,這是現有專家模型所采用的方法,這類方法在編碼階段就将影像和用户提示進行結合以定位目标區網域,但該方法基于用户的多次互動操作,需要對影像進行多次復雜計算,會導致較高的延遲。

相反的,Segment Anything Model ( SAM ) 、InterFormer 等後期融合(Late fusion)方法,能夠一次性提取影像的全局特征編碼,并在解碼階段将其與用户互動進行結合,避免了冗餘的影像特征提取,大大提高了效率。

其中SAM  是具有裏程碑意義的通用分割模型,盡管它具備高效性和強大的泛化能力,但由于采用晚期融合策略,限制了 SAM 直接從提示區網域提取詳細信息的能力,導致其在目标邊緣細節處理上存在不足。例如,對于細小物體或紋理復雜的場景,SAM 往往會出現邊界模糊或局部信息缺失的問題。

為了解決這一問題,美圖影像研究院(MT Lab)的研究人員提出了兩階段細化框架——SAM-REF,能夠在維持 SAM 運行效率的同時,提升 SAM 的互動式分割能力,尤其是在高精度場景下。

SAM-REF 在後期融合的基礎上,引入了輕量級細化器(Refiner),從而在保持效率的同時,提升 SAM 在高精度場景下互動式分割能力,其核心結構包括:

全局融合細化器(Global Fusion Refiner, GFR)

該模塊專注于捕獲整個對象的詳細信息,通過輕量特征提取,結合 SAM 的 Embeds 中的語義信息,利用影像和提示重引導來補充高頻細節。

局部融合細化器(Local Fusion Refiner, LFR)

該模塊對目标區網域進行局部裁剪,并對局部細節進行精細化處理,避免對整個影像進行重復計算,提高計算效率。

動态選擇機制(Dynamic Selector, DS)

通過分析目标區網域的誤差率,自适應選擇 GFR 處理的全局特征,或者 LFR 處理的局部細節,以達到最佳分割效果。

SAM-REF 核心架構

實驗結果顯示,SAM-REF 在 NoC90 上相較于基線方法(如 SAM 和 FocSAM)提升了 16.3%,在 NoF95 減少了 13.3%,同時 Latency 僅有早期融合方法(如 FocalClick)的 16.5%。可以看出,SAM-REF 在分割精度上有明顯提升,且計算成本僅增加 0.003 秒 / 幀,基本維持了 SAM 的高效性。

可視化結果也顯示,相較于 SAM,SAM-REF 在具有挑戰性的場景中能更有效地識别纖細的結構,并能夠在持續點擊互動中提升分割精度。

SAM-REF 的可視化結果

結合在互動分割領網域的能力提升,美圖旗下美圖設計室為用户帶來簡單、高效、精準的智能摳圖體驗,用户無需精準點擊,就能輕松調整選區。無論是人像、商品、復雜背景甚至發絲細節等難處理元素,分割質量都更加穩定,無需專業技能就可以獲得高質量摳圖。

美圖設計室互動分割效果 EVPGS:基于 3D 高斯潑濺的外推視角合成

新視圖合成(Novel View Synthesis, NVS)旨在生成與輸入影像不同視角的新影像,但傳統方法(如 NeRF、3D Gaussian Splatting)依賴于 " 數量較多 " 且 " 分布均勻 " 的訓練視角來保證重建質量。

針對 " 數量較多 " 的要求,一些研究已經探索了極少視角(三張甚至更少)的三維重建方法。然而,在許多實際應用場景中," 分布均勻 " 卻難以實現。例如,當用户手持手機繞物體或某個場景拍攝一圈時,往往能獲得幾十甚至上百張訓練影像,但這些影像的視角通常集中在同一水平面上,缺少豐富的角度變化。

在這樣的情況下,若嘗試從俯視視角或仰視視角合成新影像,重建質量會顯著下降。如下圖所示,當拍攝的訓練數據僅包含藍色标記的水平視角時,嘗試從紅色标記的視角進行影像合成,結果往往出現嚴重的失真問題。

為應對此類實際應用挑戰,美圖影像研究院(MT Lab)的研究人員提出了基于增強視圖先驗引導的外推視圖合成方案—— EVPGS,解決高斯潑濺 ( Gaussian Splatting ) 在外推視角下的失真問題,有效提升合成質量。

EVPGS 的核心思想是在訓練過程中得到外推視角的先驗信息,應用視角增強策略來監督 GS 模型的訓練。EVPGS 可以生成可靠的視角先驗,稱之為增強視角先驗(Enhanced View Priors),整個過程采用由粗到細(coarse-to-fine)的方式,對視角先驗進行偽影去除和外觀優化。

EVPGS 技術實現路徑分為三個階段:

預訓練階段:

該階段選用 RaDe-GS 作為 Backbone,僅使用訓練視角作為監督進行預訓練。EVPGS 可以支持不同的 GS 方法作為 Backbone,均能在外推視角合成任務中取得顯著的效果提升。

粗優化階段:

該階段選用 Stable Diffusion 2.1 模型對外推視角先驗進行偽影去除,再使用預訓練階段得到的物體 Mesh 渲染的深度圖,對 GS 模型直接渲染的深度圖進行監督,二者分别從外觀和幾何兩個維度對預訓練模型進行正則化,有效提升了外推視角先驗的表現。

細優化階段:

該階段采用幾何重投影方法,從訓練視角中尋找外推視角先驗的對應像素值,并将其作為外推視角先驗的像素。然而,該過程受到視角差異帶來的遮擋和光照變化的影響,可能導致投影結果不準确。因此,該階段還引入了遮擋檢測策略與視角融合策略,有效緩解上述問題的影響,生成更加可靠的增強視角先驗,用于監督 GS 模型的訓練。

EVPGS 訓練方案

實驗結果顯示,在平均約 30 ° 的外推角度下,相比于基于高斯潑濺的系列方法(3DGS、2DGS、GOF 等),EVPGS 的細節保真度顯著提高,紋理重建更清晰,無明顯偽影。這也證明 EVPGS 可以接入到不同的 GS Backbone 中,并取得顯著的效果提升,以 RaDe-GS 作為 Backbone,在外推視角合成任務中達到了業界最佳效果。

實驗結果

可視化結果顯示,EVPGS 比起 Baseline 有更少的偽影,能夠恢復更多高頻率的紋理和文字細節。

可視化結果

美圖 3D 重建方案效果

此外,EVPGS 主要針對物體場景的重建,但将其在室外場景數據集 ( Mip-NeRF360 ) 上進行測試時,發現依舊可以取得不錯的效果,這也進一步證明了 EVPGS 在外推視角合成任務的場景可擴展性。

EVPGS 在室外場景數據集的實驗結果

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

—    —

學術投稿請于工作日發郵件到:

ai@qbitai.com

标題注明【投稿】,告訴我們:

你是誰,從哪來,投稿内容‍

附上論文 / 項目主頁鏈接,以及聯系方式哦

我們會(盡量)及時回復你

  點亮星标

科技前沿進展每日見

關于你的美圖App,在CVPR技術5連秀就分享完了,您有什麼想法可以聯系小編(惠惠君)。