今天小編(袁曼雁)要和大家分享的是13.8倍吞吐提升!浙大上海AI Lab等提出視覺生成新範式,從“下一個token”到“下一個鄰網域”,歡迎閲讀~
在影像 / 視頻生成任務中,傳統的 " 下一個 token 預測 " 方法正面臨嚴重的效率瓶頸。
怎麼辦?
來自浙大、上海 AI Lab 等機構的研究人員提出了一種全新的視覺生成範式——鄰近自回歸建模(Neighboring Autoregressive Modeling, NAR)。與傳統的 " 下一個 token 預測 " 不同,NAR 模型采用了 " 下一個鄰網域預測 " 的機制,将視覺生成過程視為一種逐步擴展的 " 外繪 " 過程。
具體來説,NAR 模型從初始 token 開始,按照與初始 token 的曼哈頓距離從小到大依次生成 token。這種生成順序不僅保留了視覺内容的空間和時間局部性,還允許模型在生成過程中并行預測多個相鄰的 token。
為了實現這一點,研究人員引入了維度導向的解碼頭,每個頭負責在空間或時間的一個正交維度上預測下一個 token。
通過這種方式,NAR 模型能夠在每一步中并行生成多個 token,從而大幅減少了生成所需的模型前向計算步驟。
下面具體來看。
從 " 下一個 token" 到 " 下一個鄰網域 "
在當今的 AI 領網域,視覺生成任務(如影像和視頻生成)正變得越來越重要。無論是生成逼真的影像,還是創造連貫的視頻,AI 模型的表現都在不斷提升。
然而,現有的視覺生成模型,尤其是基于自回歸(Autoregressive, AR)的模型,面臨着嚴重的效率瓶頸。
傳統的自回歸模型通常采用 " 下一個 token 預測 " 的範式,即按照光栅順序逐個生成影像或視頻的 token。這種方法雖然簡單直觀,但在生成高分辨率影像或長視頻時,模型需要進行數千次甚至數萬次的前向計算,導致生成速度極其緩慢。
更糟糕的是,現有的加速方法往往以犧牲生成質量為代價。
例如,一些方法嘗試通過并行生成多個 token 來提高效率,但由于鄰近影像 token 之間的強相關性以及上下文信息的缺失,這種方法容易導致生成質量下降。
因此,如何在保持高質量生成的同時,大幅提升生成效率,成為了視覺生成領網域的一個關鍵挑戰。
為了解決上述問題,研究人員提出了鄰近自回歸建模(NAR)。
正如一開頭提到的,通過引入維度導向的解碼頭,使每個頭負責在空間或時間的一個正交維度上預測下一個 token,最終讓 NAR 模型能夠在每一步中并行生成多個 token,從而大幅減少了生成所需的模型前向計算步驟。
值得一提的是,維度導向的解碼頭設計非常靈活,能夠輕松擴展到更高維的視覺内容生成。
例如,在視頻生成任務中,視頻可以被視為三維數據(時間、行、列),NAR 模型只需增加一個時間維度的解碼頭,即可在時間、行、列三個正交維度上并行生成 token。
對于由 t × n × n 個 token 表示的視頻,NAR 模型僅需 2n+t − 2 步即可完成生成過程,遠遠少于傳統 " 下一個 token 預測 " 模型所需的 tn2 步。
這一顯著的效率提升使得 NAR 模型在處理高分辨率視頻生成任務時具有極大的優勢。
13.8 倍吞吐提升
研究人員在多個視覺生成任務上對 NAR 模型進行了全面評估,實驗結果令人振奮:
1、類别影像生成
在 ImageNet 256 × 256 數據集上,擁有 372M 參數的 NAR-L 取得了比擁有 1.4B 參數的 LlamaGen-XXL 更低的 FID(3.06 vs. 3.09),同時将生成步數減少了 87.8% 并帶來了13.8 倍的吞吐提升 ( 195.4 images/s vs. 14.1 images/s ) 。
與 VAR-d16 模型相比,NAR-M 取得了更低的 FID 的同時(3.27 vs. 3.30),能帶來 92% 的吞吐提升(248.5 images/s vs. 129.3 images/s)。
這説明與現有的自回歸生成方法相比,NAR 模型在生成效率和質量上均取得了顯著提升。
2、類别視頻生成
在 UCF-101 數據集上,NAR 模型相比基于 " 下一個詞預測 "(next-token prediction)的自回歸模型在生成步驟上減少了 97.3%。
相比并行解碼方法 PAR,NAR 在 FVD 更低的同時将吞吐提升了 8.6 倍。
這得益于 NAR 模型在時間維度上的并行生成能力,确保了視頻幀之間的連貫性和高質量生成。
3、文本到影像生成
在 GenEval 基準測試中,NAR 模型僅使用了 0.4% 的訓練數據(6M)便獲得了和 Stable Diffusion v1.5 相持平的綜合得分。
與參數量更大且擁有 1.4B 訓練數據的 Chameleon-7B 模型相比,NAR 的綜合得分更高(0.43 vs. 0.39)且将吞吐率提高了 166 倍。
這些實驗結果不僅證明了 NAR 模型在生成效率上的巨大優勢,還展示了其在生成質量上的卓越表現。
概括而言,NAR 模型為視覺生成任務提供了一種高效且高質量的解決方案,有望在未來的 AI 應用中發揮重要作用。
更多細節歡迎查閲原論文。
論文地址:
https://www.arxiv.org/abs/2503.10696
項目主頁:
https://yuanyu0.github.io/nar/
代碼地址:
https://github.com/ThisisBillhe/NAR
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
學術投稿請于工作日發郵件到:
ai@qbitai.com
标題注明【投稿】,告訴我們:
你是誰,從哪來,投稿内容
附上論文 / 項目主頁鏈接,以及聯系方式哦
我們會(盡量)及時回復你
點亮星标
科技前沿進展每日見
關于13.8倍吞吐提升!浙大上海AI Lab等提出視覺生成新範式,從“下一個token”到“下一個鄰網域”就分享完了,您有什麼想法可以聯系小編(袁曼雁)。