僅憑RGB影像實現戶外場景高精度定位與重建，來自港科廣團隊

今天小編(謝飛揚)要和大家分享的是僅憑RGB影像實現戶外場景高精度定位與重建，來自港科廣團隊,歡迎閱讀~

從自動駕駛、機器人導航，到 AR/VR 等前沿應用，SLAM都是離不開的核心技術之一。

現有基于 3D 高斯分布（3DGS）的 SLAM 方法雖在室内場景表現出色，但使用僅 RGB 輸入來處理無界的戶外場景仍然面臨挑戰：

準确的深度和尺度估計困難，這影響了姿态精度和 3DGS 初始化

影像重疊有限且視角單一，缺乏有效的約束，導致訓練難以收斂

為了解決上述挑戰，港科廣團隊提出全新解決方案——OpenGS-SLAM。僅憑 RGB 影像實現高精度定位與逼真場景重建。

△OpenGS-SLAM 管線示意圖

具體來說，研究人員采用了一個點圖回歸網絡來生成幀間一致的點圖。

這些點圖儲存了來自多個标準視角的 3D 結構，包含了視角關系、2D 到 3D 的對應關系和場景幾何信息。這使得相機位姿估計更加穩健，有效緩解了預訓練深度網絡的誤差問題。

此外，OpenGS-SLAM 将相機位姿估計與 3DGS 渲染集成到一個端到端可微的管道中。通過這種方式，實現了位姿和 3DGS 參數的聯合優化，顯著提高了系統的跟蹤精度。

研究人員還設計了一種自适應比例映射器和動态學習率調整策略，能夠更準确地将點圖映射到 3DGS 地圖表示。

值得注意的是，在 Waymo 數據集上的實驗表明，OpenGS-SLAM 将追蹤誤差降低至現有 3DGS 方法的 9.8%。研究人員還在新視角合成任務上建立了一個新的基準，達到了最先進的結果。

基于 3DGS 表示的 RGB-only SLAM 系統

來看具體技術細節。

在 OpenGS-SLAM 的管線示意圖可以看到，每一幀都會輸入一張 RGB 影像用于追蹤。

當前幀和上一幀作為圖片對輸入到 Pointmap 回歸網絡進行位姿估計，随後基于當前的 3D 高斯地圖進行位姿優化。

在關鍵幀處，系統執行地圖更新，并通過自适應尺度映射器（Adaptive Scale Mapper）對 Pointmap 進行處理，以插入新的 3D 高斯點。

此外，相機位姿與 3D 高斯地圖會在局部視窗内進行聯合優化，确保更精準的追蹤與場景重建。

追蹤

幀間點圖回歸與位姿估計

之前基于 3DGS 和 NeRF 的 SLAM 工作，主要集中在室内和小規模場景中，其中相機的運動幅度較小，視角密集。在這種情況下，NeRF 或 3DGS 可以直接用于優化相機位姿。

然而，戶外場景通常涉及基于車輛的攝影，特征是運動幅度較大且視角相對稀疏。這使得直接優化相機位姿難以收斂。

鑑于點圖包含視角關系、2D 到 3D 的對應關系和場景幾何信息，OpenGS-SLAM 團隊提出了一種基于幀間點圖回歸網絡的位姿估計方法，旨在實現穩健且快速的當前幀相機位姿估計。

他們利用一個預訓練的點圖回歸網絡，該網絡結合了 ViT 編碼器、帶有自注意力和交叉注意力層的 Transformer 解碼器以及一個 MLP 回歸頭，生成連續幀影像的點圖。特别地，兩個影像分支之間的信息共享有助于點圖的正确對齊。

盡管應用點圖可能看起來有些反直覺，但它能夠在影像空間中有效表示 3D 形狀，并且允許在不同視角的射線之間進行三角測量，而不受深度估計質量的限制。随後，團隊使用穩健且廣泛應用的 RANSAC 和 PnP 來推斷兩幀之間的相對姿态

，使用這種方法，可以估計第 k 幀的位姿為：

。

位姿優化

為了實現精确的相機位姿追蹤，團隊基于 3DGS 可微光栅化管道，構建了一套可微的相機位姿優化方法。

定義光度損失為：

其中表示每個像素的可微渲染函數，通過高斯和相機位姿

生成影像，表示真實影像。光度損失

關于位姿

的梯度為：

通過這些步驟，利用渲染函數的微分，将增量位姿更新與光度損失緊密關聯。這一策略使得相機位姿能夠基于 3DGS 渲染結果進行端到端優化，從而确保高精度且穩定的位姿跟蹤。

3DGS 場景表示

研究人員使用 3DGS 作為場景表示，提出自适應尺度映射器（Adaptive Scale Mapper），在關鍵幀時為地圖插入新的高斯點。

利用先前獲得的點圖來映射 3D 高斯地圖，由于幀間點圖存在尺度不穩定的問題，研究人員基于點匹配關系計算連續幀之間的相對尺度變化因子，以确保整個場景的尺度一致性。

建圖

高斯地圖優化

管理一個局部關鍵幀視窗 , 以選擇觀察相同區網域的非冗餘關鍵幀，為後續的建圖優化提供更高效的多視角約束。在每個關鍵幀上，通過聯合優化視窗中的高斯屬性和相機位姿來實現局部 BA。

優化過程仍然通過最小化光度損失進行。為了減少高斯橢球體的過度拉伸，研究人員采用了各向同性正則化：

高斯地圖優化任務可以總結為：

自适應學習率調整

在經典的室内 SLAM 數據集中，相機通常圍繞小範圍場景運動并形成閉環，使高斯優化的學習率随迭代次數逐漸衰減。然而，戶外數據由前向車輛相機捕獲，所經過區網域不會重訪，因此需要不同的學習率衰減策略。

為此，研究人員提出了一種基于旋轉角度的自适應學習率調整策略：當車輛沿直路行駛時，學習率逐步衰減；在遇到坡道或轉彎時，動态提升學習率，以更有效地優化新場景。

首先，計算當前關鍵幀和上一關鍵幀之間的旋轉矩陣和，其相對旋轉矩陣為：

接着計算旋轉弧度：

接着将弧度轉換為度數，并根據以下公式調整累計迭代次數：

當旋轉角度達到 90 度時，累積迭代次數将被重置。

實驗結果

如下圖所示，在 Waymo 數據集的無界戶外場景上，OpenGS-SLAM 能渲染高保真的新視角圖片，準确捕捉車輛、街道和建築物的細節。相比之下，MonoGS 和 GlORIE-SLAM 存在渲染模糊和失真的問題。

如下圖所示，OpenGS-SLAM 擁有明顯更優的追蹤性能，在面臨大轉彎時也能穩定收斂。

精度方面，OpenGS-SLAM 在 Waymo 數據集上實現了新視角合成（NVS）的最佳性能。在追蹤精度方面，與 GlORIE-SLAM 相當；而相比同樣基于 3DGS 的 SLAM 方法 MonoGS，OpenGS-SLAM 誤差降低至 9.8%，顯著提升了系統的魯棒性和準确性。

消融研究結果顯示，自适應學習率調整和自适應尺度映射均對整體性能產生積極影響，而 Pointmap 回歸網絡更是本方法的核心支撐，對系統性能至關重要。

總結

OpenGS-SLAM 是一種基于 3DGS 表示的 RGB-only SLAM 系統，适用于無界的戶外場景。

該方法将點圖回歸網絡與 3DGS 表示結合，确保精确的相機姿态跟蹤和出色的新視圖合成能力。

與其他基于 3DGS 的 SLAM 系統相比，該方法在戶外環境中提供了更高的跟蹤精度和魯棒性，使其在實際應用中具有較高的實用性。

論文鏈接：https://arxiv.org/abs/2502.15633

代碼鏈接：https://github.com/3DAgentWorld/OpenGS-SLAM

官方主頁：https://3dagentworld.github.io/opengs-slam/

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

— 完 —

學術投稿請于工作日發郵件到：

[email protected]

标題注明【投稿】，告訴我們：

你是誰，從哪來，投稿内容‍

附上論文 / 項目主頁鏈接，以及聯系方式哦

我們會（盡量）及時回復你

點亮星标

科技前沿進展每日見

關于僅憑RGB影像實現戶外場景高精度定位與重建，來自港科廣團隊就分享完了，您有什麼想法可以聯系小編(謝飛揚)。

相關推薦