高馬爾
一個信息發佈的網站

清華&哈佛4D語言場建模新方法,動态場景精準識别

今天小編(謝飛揚)要和大家分享的是清華&哈佛4D語言場建模新方法,動态場景精準識别,歡迎閱讀~

構建支持開放詞匯查詢的語言場在機器人導航、3D 場景編輯和互動式虛拟環境等眾多應用領網域展現出巨大的潛力。盡管現有方法在靜态語義場重建方面已取得顯著成果,但如何建模 4D 語言場(4D language fields)以實現動态場景中時間敏感且開放式的語言查詢,仍面臨諸多挑戰。而動态世界的語義建模對于推動許多實際應用的落地至關重要。

來自清華大學、哈佛大學等機構的研究團隊提出了一種創新方法——4D LangSplat。該方法基于動态三維高斯潑濺技術,成功重建了動态語義場,能夠高效且精準地完成動态場景下的開放文本查詢任務。這一突破為相關領網域的研究與應用提供了新的可能性, 該工作目前已經被 CVPR2025 接收。

将現有靜态語義場重建方法直接遷移到動态場景中,一種直觀的思路是沿用 CLIP 提取靜态的、物體級語義特征,并借鑑 4D-GS 等工作的思路,通過訓練變形高斯場來建模随時間變化的語義。然而,這種簡單的遷移存在兩個關鍵問題:首先,CLIP 最初是為圖 - 文對齊任務設計的,其在動态語義場中的感知和理解能力存在局限性;其次,基于輸入時間信息預測特征變化量的方法缺乏對特征變化的有效約束,導致動态語義場建模的學習成本顯著增加。

針對上述問題,本文提出了 4D LangSplat 框架。該框架的核心創新在于:利用視頻分割模型和多模态大模型生成物體級的語言描述,并通過大語言模型提取高質量的句子特征(sentence feature),以替代傳統靜态語義場重建方法(如 LERF、LangSplat)中直接使用 CLIP 提取的語義特征。在動态語義特征建模方面,4D LangSplat 引入了狀态變化網絡(Status Deformable Network),通過先驗壓縮語義特征的學習空間,實現了更加穩定和準确的語義特征建模,同時确保了特征随時間的平滑變化。

4D LangSplat 的提出顯著拓展了語義高斯場建模的應用場景,為動态語義場的實際落地提供了一種極具前景的解決方案。目前,該工作已在 X(Twitter)平台上引發廣泛關注,論文的代碼和數據已全面開源。

方法論

多模态對象級視頻提示技術(流程圖中上半部分的紅色區網域)

本文結合了 SAM(Segment Anything Model)和 DEVA tracking 技術,對物體進行分割,并在時間維度上保持物體身份的一致性。為了使多模态大模型能夠更專注于已有物體的描述,首先為目标物體生成視覺提示。具體而言,視覺提示包括輪廓線(Contour)、背景虛化(Blur)和單色調整(Gray)。這一過程可以形式化地定義為:

在加入視覺提示後,首先利用多模态大模型(Qwen-Instrution-7B)生成視頻級的語言描述,随後逐幀将圖片和視頻描述再次輸入到大模型中,提示其生成特定時間步驟下的物體狀态變化的自然語言描述。生成視頻 - 物體級語言描述和圖片 - 物體級語言描述的過程可以形式化地定義為:

對于每一條生成的圖片 - 物體級描述,使用在 sentence-embedding 任務上經過微調的 LLM 模型(e5-mistral-7b)将其轉化為語義特征,并通過分割掩碼生成最終的語義特征圖。此外,參考 LangSplat 的做法,訓練了一個自動編碼器,将高維特征壓縮到低維空間,從而降低高斯場訓練的復雜度和計算成本。

狀态變化場(流程圖中下半部分的綠區網域)

通過對語義特征的觀察,發現現實中的大部分變形和運動都可以分解為一系列狀态及其之間的過渡。例如,人的運動可以分解為站立、行走、跑步等狀态的組合。在特定時間點,物體要麼處于某種狀态,要麼處于從一個狀态到另一個狀态的過渡中。

基于這一觀察,本文提出了狀态變化網絡(Status Deformable Network)。該建模框架将特定時間步下的變化狀态分解為若幹狀态的線性組合,網絡以 Hexplane 提取的時空特征作為輸入,專注于預測指定時間步下的線性組合系數。數學上,其建模方式如下:

其中,w 代表模型預測的系數,S 代表狀态特征。在訓練過程中,狀态特征和預測系數的狀态變化網絡聯合優化,以确保對變化語義特征的準确和平滑建模。

4D 開放詞匯查詢

4D 開放詞匯查詢任務定義為兩個子任務:時間無關的查詢和時間敏感的查詢。

時間無關的查詢主要考驗語義場的靜态語義建模能力,目标是根據指定的查詢詞,給出物體在每一幀的查詢結果掩碼,類似于物體追蹤檢測任務。而時間敏感查詢則更注重動态語義建模能力,不僅需要給出查詢物體的掩碼,還需要精确到具體的時間步(例如動作發生的幀範圍)。

為了完成這兩個子任務,同時渲染了時間無關的語義場和時間敏感的語義場。前者基于 CLIP 提取語義特征,且不對語義特征的變化進行建模;後者則采用本文的方法提取時間敏感語義,并利用狀态變化網絡對語義特征進行建模。在進行時間敏感查詢時,首先通過時間無關場生成對應物體的查詢掩碼,然後計算掩碼内時間敏感場的平均相關系數,并給出預測幀的結果。通過結合這兩個場,能夠同時勝任時間敏感查詢和時間無關查詢任務。

實驗

實驗設定:

由于目前缺乏針對 4D 語義查詢的标注數據,團隊在 HyperNeRF 和 Neu3D 這兩個數據集上進行了手工标注,構建了一個專門用于 4D 語義查詢的數據集。在評估指标方面針對不同的查詢任務設計了相應的衡量标準:

時間無關查詢:使用平均準确率(mACC)和平均交并比(mIoU)作為查詢結果的評估指标。

時間敏感查詢:使用幀級别的預測準确率(ACC)和像素級别的平均交并比(vIoU)作為評估指标

實驗結果:

本方法在時間敏感和時間無關查詢兩個子任務上都顯著優于最先進的方法。在時間敏感查詢上,與基于 CLIP 特征的方法相比,本方法在幀級别準确率(ACC)和像素級别平均交并比(vIoU)上分别提升了 29.03% 和 27.54%。時間無關查詢方面,在 HyperNeRF 和 Neu3D 兩個場景中,本方法在平均交并比(mIoU)上分别比基線方法提升了 7.56% 和 23.62%。

消融實驗:

為了驗證方法中各個組件的有效性,在論文中進行了詳細的消融實驗。實驗結果表明,每個組件都對最終性能的提升起到了重要作用。

貢獻總結

使用 MLLM 生成的對象文本描述構建 4D 語言特征。

為了對 4D 場景中對象的狀态間平滑過渡進行建模,進一步提出了一個狀态可變形網絡來捕捉連續的時間變化。

實驗結果表明,本方法在時間無關和時間敏感的開放詞匯查詢中都達到了最先進的性能。

通過人工标注,構建了一個用于 4D 開放詞匯查詢的數據集,為未來相關方向的研究提供了定量化的指标。

Project Page:   https://4d-langsplat.github.io/

Paper:   https://arxiv.org/pdf/2503.10437

Video:   https://www.youtube.com/watch?v=L2OzQ91eRG4

Code:   https://github.com/zrporz/4DLangSplat

Data:   https://drive.google.com/drive/folders/1C-ciHn38vVd47TMkx2-93EUpI0z4ZdZW?usp=sharing

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

—    —

學術投稿請于工作日發郵件到:

[email protected]

标題注明【投稿】,告訴我們:

你是誰,從哪來,投稿内容‍

附上論文 / 項目主頁鏈接,以及聯系方式哦

我們會(盡量)及時回復你

  點亮星标

科技前沿進展每日見

關于清華&哈佛4D語言場建模新方法,動态場景精準識别就分享完了,您有什麼想法可以聯系小編(謝飛揚)。