高馬爾
一個信息發佈的網站

ICLR 2025 Spotlight:音頻生成新突破!港科北郵團隊首次通過文本控制聲源方向生成音頻

今天小編(甄正浩)要和大家分享的是ICLR 2025 Spotlight:音頻生成新突破!港科北郵團隊首次通過文本控制聲源方向生成音頻,歡迎閱讀~

兔子通過兩只耳朵可以準确感知捕食者的一舉一動,造就了不同品種廣泛分布在世界各地的生命奇迹;同樣人也需要通過雙耳沉浸式享受電影視聽盛宴、判斷駕駛環境和感知周圍活動狀态。

那應用火爆的 diffusion 生成模型是否可以做到直接生成符合物理世界規律的空間音頻呢?

此前,經典的 Text2Audio 的工作可以通過文本抽象的語義生成較為準确的單通道音頻。

但是這忽略了人類與生俱來的感知雙通道音頻的能力。應用角度來說,通過文本控制生成多通道音頻在影視娛樂、AR/VR 等領網域擁有重要應用。

在這個趨勢的背景下,為了增強文本對于多通道音頻生成的控制,港科大北郵團隊首次從數據、模型和評價标準角度都創新性的将控制聲源方向納入到生成範圍内。

什麼是空間音頻生成?什麼是空間音頻?

似乎能夠通過聲音判斷事物方向和狀态是自然人與生俱來的能力。生物聲學 ( Bioacoustics ) 是早在 20 世紀便進行了深入的探索。人能感知聲音的方位,主要來自以下三個方面:

ITD ( 主要不同 ) :Interaural Time Difference- 耳間時間差。即由于雙耳耳間距離導致聲音到達兩只耳朵的時間不一樣。這一點是雙通道的主要差異。

ILD:Interaural Level Difference- 耳間聲強差。即由于雙耳耳間距離導致聲音到達兩只耳朵的強度和衰減不一樣。這一點是輔助方式,在實際生成中發現這點較難度量,基本能量一致。

耳蝸、耳道和頭骨等生理結構:由于人的感知系統非常復雜,并且涉及物理及生理研究,是一門非常深的學問。在 Bioacoustic 領網域,很多人用深度學習方法構建合理的的 HRTF ( Head-related transfer function ) ,才能夠很好的模拟生理結構。但是鑑于本文為先期探索工作,文中不考慮這點的影響。

實現空間音頻生成相關的技術路線?

1、雙階段方案:首先通過普通 text2audio 的模型生成單通道音頻,然後通過仿真或者可學習的濾波器進行串聯。使得最終能夠獲得多通道的空間音頻。這種系統顯然不夠魯棒并且無法适應復雜場景的生成任務。

2、此前的單階段方案:雖然這類系統能夠生成 stereo 音頻,但是遠遠不具備生成 spatial 音頻的控制能力。

3、該研究方案:提出了從數據集、方法和評估指标的一條龍解決方案,較好的提升了對于 spatial 音頻的控制。

數據構造:讓機器 " 耳聽八方 " 的數據工廠

在本項研究中,數據構造是整個系統的基石!

想要生成各個方向上的音頻,就必須讓生成模型理解方向上的區别。比如想要讓系統生成摩托自左向右行進,就需要提供摩托在左、在右、自左向右和自右向左的音頻讓系統明白區别。這樣音頻收集的成本顯然是非常巨大的,為什麼不做一個高效的 " 數據工廠 " 呢?

接下來,帶大家揭秘BEWO-1M(Both Ears Wide Open 1M)數據集的 " 生產流水線 "。

為什麼需要 BEWO-1M?

現如今一般的音頻 - 文字數據集都缺乏明确的空間信息描述,比如即便有雙通道音頻,配套的文字描述也只是 " 汽車駛過 ",而沒有具體方位信息(比如 " 汽車從右前方駛向左前方 ")。這對于生成具有方向感的空間音頻完全不夠用!

所以,需要一個超大規模的、帶有豐富空間描述的雙通道音頻數據集,而 BEWO-1M 應運而生。它包含超過 100 萬條音頻 - 文本對,并且支持動态聲源、多聲源等復雜場景。

借助近些年的熱門的 GPT-4 和嚴謹的仿真實驗,最終通過思維鏈(Chain of Thought)構造了一個包含100 萬條、共計約 2800 小時音頻的大規模數據集,其中包括:

單聲源靜态音頻子集(Single Stationary):比如 " 貓在左邊叫 "。

單聲源動态音頻子集(Single Dynamic):比如 " 直升機從左飛到右 "。

多聲源音頻子集(Double, Mixed):比如 " 左側有雷聲,右側有狗叫 "。

真實世界音頻子集(Real World):還手動标注了少部分真實錄制的雙通道音頻,确保測試集的真實性。

數據多樣性一覽:

BEWO-1M 是目前首個包含方向描述的大規模雙通道音頻數據集,它不僅适用于空間音頻生成,還可以擴展到空間音頻字幕生成 ( Appendix.G.5 ) 、音頻 - 文本檢索 ( Appendix.G.6 ) 等其他任務。在實驗中,發現它能夠顯著提升生成模型的空間控制能力,讓機器真正做到 " 耳聽八方 "。

生成方法簡述

感謝 Stability AI 的研究者們,他們開發了用于生成雙通道的模型。但是這裡生成模型存在比較顯然的音頻生成問題。比如:在 Stable Audio 中輸入 prompt "A piano sound exists on the left side", 最終生成的鋼琴聲音的方向是不可控的。這是由于他們的雙通道音頻完全由真實數據訓練得到,方向上并不具有足夠的多樣性。所以可控方向的音頻生成模型迫在眉睫。

有了 BEWO-1M 直接 finetune 行不行?行!直接使用帶有方位自然語言的 prompt,直接進行 finetune 就能夠讓模型獲取最基本的生成指定方向音頻的能力。對此作者提供了一個通過自然語言控制的 Gradio Demo.

但是涉及到方向自然語言理解的時候存在非常多樣化的表達。這些多樣化的表達對文本的 encoder 帶來了極大的挑戰。對于 T5 這個非常經典的編碼模型來說,更長的文本長度會帶來更長的編碼和更大的理解難度。

那更進一步地,為了應對這樣的挑戰有兩個非常自然的想法。 ( 1 ) 将空間控制和文本控制解耦; ( 2 ) 利用大模型對于文本的理解能力。

将空間控制和文本控制解耦 . 就意味着增加空間控制的引導!空間控制的實現主要來自仿真的訓練數據,作者有極為準确的仿真建模,所以在訓練時的角度是精确到小數點後 4 位的。那麼在訓練的時候使用這個角度是非常自然的。對此作者提供了一個通過精确方位信息控制的 Gradio Demo.

利用大模型對于文本的理解能力可以在推理的時候用推理和上下文學習獲取可靠的方向信息(詳見論文),這個方向在人工驗證中正确率高達 90%

通過對空間控制和文本解耦實現了如上圖可視化的更精準的音頻方向的控制。其控制性能相比直接 finetune 有了精準性的提升

實驗過程中,作者發現如果使用極為準确的角度建模方式可以生成方向較為準确的音頻,但是生成的音頻語義多樣化欠佳。所以同時開發了 coarse 建模方式可以獲得更多樣化的音頻生成,但是會出現方向控制不準确的情況。

" 多樣性 or 控制 " 這個生成千古難題依然在這裡是個 trade off。

有了基于大量文本音頻對的數據得到的文本控制的模型?那麼如何遷移到其他模态上呢。而且文本編碼用的是 T5 編碼。

眾所周知,T5 作為 encoder+decoder 的 model 在大模型的現今已經淘汰了。研究團隊簡單借助前人的 VL-T5 接着做了簡單的對齊實現了簡單的 image 到 spatial audio 的生成,這僅僅是給社區提供一個簡單粗糙的影像引導的音頻生成的 baseline。

評價和結果

為了和其他模型比較,研究團隊開發了多種語義和聲源方向上的評估算法。

語義層面,此前 Text2Audio 的生成的評估算法依然有效。作者直接聲道平均後評測語義層面上的相似程度。下表展示了以單通道模型的評估标準評估 SpatialSonic 模型依然具有一定的先進性

聲源方向層面,研究團隊創新性地首次提出通過 ITD 求出方位誤差。根據背景所述,人主要通過 ITD 來判斷物體的大致方位,同樣也采用 ITD 作為評估方法。

此前 ITD 的評估一般由 2 種方法而來:

傳統信号方法:代表為 GCC-Phat

深度學習方法:代表為 StereoCRW

本文利用這兩種 ITD 評估方法,開發了對兩段音頻的 ITD 進行不同程度的評估算法(GCC MSE、CRW MSE 和 FSAD)。通過這些指标很好地展示了模型在文本引導的空間音頻生成上的優越性。

由于音頻本身具有的耦合性,研究團隊堅信這并不是生成音頻 ITD 相似度的評估算法的最終形态。團隊會不斷在 GitHub 上更新更優質的算法。更多的實驗結果請參考論文。

如果你好奇如下幾個問題,請向論文中尋求答案!

1、方向的參與程度是否會影響音頻的生成質量? ( Appendix.G.9 )

是的。作者發現加入方向距離中間偏差越大,生成音頻質量會逐漸下降。比如,質量上,純左 < 左前 < 正中。

2、由于方向的加入,必然導致caption 長度的增加,這是否會影響音頻的生成質量? ( Appendix.G.10 )

是的。作者發現 caption 長度越長,生成質量會下降。

3、不同類别的控制方向能力是否相同?是否存在一些類别聲音控制方向能力較強,一些較弱的 Bias? ( Appendix.G.11 )

确實不同。作者發現對于個别類控制能力較強,其他類控制能力稍弱。推測這與數據分布和 GPT induction 都存在關聯。

未來展望

未來在以下多方面存在改進空間:

引入 HRTF 模拟耳道等真實感知。

當前 Visual 由于使用 Coco 數據集存在較強的 in domain 問題。OOD(Out of Distribution)或者 OV ( Open Vocabulary ) 會有非常大的進步空間。

Interactive 的實現依賴于 SAM 的性能,實現依然不是非常優雅且存在錯誤累積。

VL-T5 早已落後時代,或許作為初步探索足夠,但是未來必然會有更優雅的方式。

項目主頁 :   https://peiwensun2000.github.io/bewo/

Gradio Demo ( 自然語言控制 ) :   http://143.89.224.6:2436/

Gradio Demo(滑條控制控制 ) :   http://143.89.224.6:2437/

Github 代碼 :   https://github.com/PeiwenSun2000/Both-Ears-Wide-Open

Arxiv 論文 :   https://arxiv.org/abs/2410.10676

數據集 :   https://github.com/PeiwenSun2000/Both-Ears-Wide-Open/tree/main/datasets

—    —

投稿請工作日發郵件到:

[email protected]

标題注明【投稿】,告訴我們:

你是誰,從哪來,投稿内容‍

附上論文 / 項目主頁鏈接,以及聯系方式哦

我們會(盡量)及時回復你

一鍵關注 點亮星标

科技前沿進展每日見

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

關于ICLR 2025 Spotlight:音頻生成新突破!港科北郵團隊首次通過文本控制聲源方向生成音頻就分享完了,您有什麼想法可以聯系小編(甄正浩)。