高馬爾
一個信息發佈的網站

真·五彩斑斓的黑!耕升GeForce RTX 5070 Ti 炫光 超OC 16GB 評測

今天小編(集玲琳)要和大家分享的是真·五彩斑斓的黑!耕升GeForce RTX 5070 Ti 炫光 超OC 16GB 評測,歡迎閱讀~

前言

英偉達的RTX 50系列以及正式公布了一段時間,市面上也湧現了大量值得一玩的新品,今天我們拿到了來自耕升的GeForce RTX 5070 Ti 炫光 超OC(以下簡稱為耕升RTX 5070 Ti 炫光 超OC),接下來咱們就一起看看這張"RTX 5070 Ti"有何特别吧。

GeForce RTX 5070 Ti規格一覽

循例先來看看這張顯卡的規格,GeForce RTX 5070 Ti 基于Blackwell架構打造,工藝制程是熟悉的台積電 4nm 4N NVIDIA 定制工藝。Blackwell架構的通用算力、光追性能以及AI性能與CUDA數量、第4代RT Core以及第5代Tensor Core的數量有關,而這三種核心又組成了全新一代SM單元。

接着再看看規格表,顧名思義,耕升RTX 5070 Ti炫光超OC是一張超頻型非公版,其加速頻率達到了2512 MHz,這款顯卡的另一大亮點是多達16GB的256-bit GDDR7顯存,而且這代的CUDA規模要遠高于RTX 4070 Ti,顯存與規格的雙重更新意味着它在理論性能這塊的代際提升會比較可觀。

除了規格更新外,RTX 50系列還帶來了以DLSS 4為首的行業領先技術,這些技術的解釋我們放到了最後,有興趣的小夥伴可以拖動到文末了解,接下來我們先看看遊戲性能的表現。

遊戲性能測試

紙面數據就點到即止,接下來我們直奔主題,看看耕升RTX 5070 Ti 炫光的遊戲表現。開始分享數據前先介紹一下咱們的測試平台配置:我們采用了遊戲神U——AMD銳龍7 9800X3D,與之搭配的主機板是微星高端主機板MSI MPG X870E CARBON Wi-Fi暗黑,以及芝奇Trident Z5 RGB 幻鋒戟 DDR5-8000 C38 24GB*2,這套平台的性能理應能将耕升RTX 5070 Ti 炫光 超OC的遊戲性能完全發揮出來。

先看看基礎的遊戲性能,我們測試了《光明記憶:無限》《古墓麗影:暗影》《戰争機器5》等11款遊戲,并比較耕升RTX 5070 Ti 炫光(超頻模式,下同)與RTX 4070 Ti在2k分辨率下最高/極致畫質設定下的平均幀差異。

在不啟用DLSS 4的情況下,實測耕升RTX 5070 Ti 炫光相較于RTX 4080 SUPER性能提升了23%至43%。在多數測試遊戲中,平均幀率超過了100FPS,《古墓麗影:暗影》的平均幀率甚至達到了305 FPS。

以對硬體要求極高的新一代遊戲《黑神話:悟空》為例,在2K分辨率和影視級畫質設定下,耕升RTX 5070 Ti 炫光依然能提供85 FPS的平均幀率,輕松暢遊西遊世界。類似的情況也出現在開啟光線追蹤的《鳴潮》中,RTX 4070 Ti的平均幀率為77 FPS,足以保證流暢的遊戲體驗,而耕升RTX 5070 Ti 炫光的平均幀率則達到了107 FPS。後者在面對突發的高負載狀況時,能提供更高的幀率,有效避免遊戲出現突然卡頓的問題。

盡管尚未展示RTX 50系列的殺手锏——DLSS 4,但通過比較耕升RTX 5070 Ti 炫光與RTX 4070 Ti的幀率表現,我們可以清晰地看到,DLSS 4(X4)确實為平均幀率帶來了顯著的提升。

我們選取了4款已經支持DLSS 4的遊戲進行對比。根據表格中的數據,顯而易見,得益于多幀生成技術的加持,耕升RTX 5070 Ti 炫光 超OC的平均幀率幾乎是RTX 4070 Ti的兩倍。

實際上,比較這兩張卡的幀率差異已經沒有太大意義,我們更應該關注的是耕升RTX 5070 Ti 炫光超OC在開啟DLSS 4多幀生成時,與其它DLSS設定相比有何不同。我們對這款顯卡在【關閉DLSS】、【DLSS 4幀生成2X】、【DLSS 4幀生成4X】三種設定下的幀率進行了對比測試,測試的遊戲包括了4款已支持DLSS 4的遊戲。

測試結果令人震驚,當開啟【DLSS 4幀生成4X】後,這4款遊戲的平均幀率都實現了飛躍性的提升,《賽博朋克2077》的平均幀率甚至達到了原來的6倍。過去我們可能會将這種現象歸咎于BUG,但英偉達已經将之變成了現實中的常态。

針對目前支持DLSS 4的3A級大作,首先提到了引入路徑追蹤技術的《賽博朋克2077》。這款遊戲的性能要求之高,想必已經為許多了解過的玩家所熟知。先前的RTX 5090 D首測已經展示了50系列顯卡能夠輕松應對這款遊戲。現在,讓我們來看看耕升RTX 5070 Ti 炫光超OC顯卡的表現如何。在2K分辨率下,未啟用DLSS 4之前,平均幀數僅為32.41 FPS,僅達到掌機級别的流暢度。然而,一旦開啟DLSS 4,平均幀數激增至200 FPS,而1%的幀數更是飙升至121 FPS,使得這款硬體殺手級别的遊戲變得輕松駕馭,同時延遲也得到了顯著降低。

讓我們再次審視《霍格沃茲之遺》,這是一款經過良好優化的遊戲,即便在不啟用DLSS的情況下,也能确保遊戲的流暢運行。使用耕升RTX 5070 Ti 炫光超OC顯卡,在2K分辨率下關閉DLSS時,遊戲的平均幀率可達77 FPS,但需要注意的是,1%的最低幀率僅為39 FPS,這表明在遊戲過程中可能會遇到一些卡頓。啟用DLSS 4後,遊戲的流暢度顯著提升,1%的最低幀率飙升至143 FPS,徹底消除了卡頓現象。對于那些追求極致畫質的玩家,可以考慮将幀生成技術調整至【2X】模式,以獲得更接近原生分辨率的遊戲畫面。

接下來是《星球大戰:法外狂徒》,在2K分辨率且未啟用DLSS的情況下,26 FPS的1%LOW幀率幾乎可以被稱作災難。然而,DLSS 4再次施展其神奇力量,将一款在畫質全開時幾乎無法遊玩的遊戲變得流暢,平均幀率足以輕松滿足2K@144電競顯示器的需求。

最後是喜聞樂見的《漫威争鋒》,競技類網遊對幀率的要求十分高,而這款遊戲卻有大量畫質設定,畫質拉滿的話配置要求并不低。在2K分辨率未開啟DLSS時,耕升RTX 5070 Ti 炫光 超OC的1%LOW為98 FPS,平均幀率僅為124 FPS,對于一款競技網遊來說這幀率表現只算及格。現在有了DLSS 4幫忙,同一張卡的平均幀率突破至375 FPS,1% LOW幀也有243FPS,這流暢度能讓高端玩家赢在起跑線。

在觀察了四款遊戲的性能展示之後,我們可以得出明确的結論:耕升RTX 5070 Ti 炫光 超OC在2K分辨率下,能夠輕松滿足追求高畫質和流暢體驗的AAA級遊戲需求。即便不計入DLSS 4技術帶來的幀率飛躍,硬體性能的提升也得益于CUDA核心數量的增加、第四代光線追蹤核心和第五代張量核心的革新,以及16GB GDDR7顯存的更新,這些因素共同作用使得遊戲性能的代際提升超過了30%。

外觀篇:

說完遊戲性能再看回耕升RTX 5070 Ti 炫光 超OC本身,先從開箱開始聊起,這張卡的包裝顯然是經典的N卡包裝封面設計,正面是顯卡的幻光風格主視覺設計,當然了,3年質保以及支持個人送保這個優勢售後信息也标注在了醒目的地方,好讓消費者直觀地獲取到。

包裝背面印有碩大的LOGO,上面有顯卡的關鍵特點以及耕升公眾号的二維碼,消費者在使用過程中遇到麻煩的話,也方便"找到組織"。

打開包裝就能見到顯卡本體,随顯卡還贈送了一根3* 8Pin轉12V-2x6轉接線,在細節處耕升準備得充足到位。

讓我們把所有的包裝個配件的先放一邊,直面耕升RTX 5070 Ti 炫光 超OC本體。不得不說,這套設計語言雖然簡約,但屬于耐看的類型。

如今很多高端顯卡都追求誇張的、玲珑浮凸的線條設計,其實只要外觀做得足夠簡約、規整和協調,這套設計語言就足夠耐看了。

比如耕升RTX 5070 Ti 炫光 超OC的散熱器兩面,其實沒有過多的裝飾元素,但是規整的外殼包裹着散熱鳍片,這種規則感整體看上去也很舒服。

每一張非公顯卡都有獨特的散熱系統,這張耕升RTX 5070 Ti 炫光 超OC的散熱器取自主題,名為"炫之黑曜石",目前已經進化到第三代,而扇葉則被命名為"炫風之刃"。

顯卡的末端處耕升還專門做了一個遮擋設計,這樣做一方面能讓顯卡的整體性更強,但更重要的是可以有效避免使用者直接觸碰到散熱鳍片,降低"滴血認親"的概率。

翻到IO擋板,這裡也有些小巧思,擋板上的镂空造型并非傳統的橫條散熱格栅,而是心型和C型組成的耕升镂空LOGO。接口方面,該卡提供3個DisplayPort 2.1b和1個HDMI 2.1b接口。

顯卡背板的設計也延續了簡約的設計風格,背板兩邊醒目的對稱式射線将目光引導至中央的耕升英文名上,靠IO擋板一側的"射線"是印刷圖案,而靠末端的"射線"則是镂空造型,這些镂空位置也有助于顯卡散熱。

經典的12V-2x6接口位于顯卡靠近中央的位置,旁邊則是燈光同步接口。

再來看看上機狀态,既然它名為炫光,在燈效方面自然不會讓人失望,顯卡頂部圍繞着一圈大面積的RGB燈帶,與耕升LOGO燈效相得益彰。

末端處也有燈光覆蓋,清晰的棱角線條與浮雕設計相結合,在光影的映照下,創造出令人愉悅的視覺體驗。

拆解:

完成上機測試後,自然就是拆解分析的環節。希望了解性能測試結果的朋友可以翻到下一章節。現在,讓我們一起深入探讨這款顯卡的内部構造。

從全家福拆解圖可以清晰看到,耕升RTX 5070 Ti 炫光 超OC主要包括PCB、散熱鳍片、合金中框、散熱器外框、背板五個部分。散熱鳍片上的真空腔均熱板+七根鍍鎳熱管組合十分矚目,其中均熱板直接覆蓋GPU核心與顯存。

七根鍍鎳熱管的規格是兩根6mm和五根8mm,這套散熱規格理應能在高負荷的工作條件下,将GPU的熱量迅速排走。

合金中框可不只是裝飾件,它還能增強顯卡的整體強度,從而讓顯卡支撐起厚重的散熱模組。

可以看到這張顯卡的GPU核心代号為GB203-300-A1,核心一圈圍着8顆顯存IC。

顯存來自三星的GDDR7,絲印為K4VAF325ZC-SC28,顯存位寬256bit,顯存帶寬為896GB/s,一顆顯存的容量為2GB,8顆顯存IC組成16GB顯存。

耕升RTX 5070 Ti 炫光 超OC的組件布局整齊劃一,彰顯了大廠的風範。該顯卡的供電配置為10+4+3相,對于一款300瓦的中高端顯卡而言,這樣的供電規格無疑是非常豪華的。

負責實際功率調節的IC型号為MP87993,這款芯片在RTX 50系的產品中大量出現。

12V-2x6接口上印有H++标識,這是一個标準的PCIe 5.1 ATX 3.1接口,用來給300W功率的GPU供電當然屬于做足了冗餘。

PWM控制器被放置在PCB的背面,型号為MP29816。

拆解下來我們發現,耕升RTX 5070 Ti 炫光 超OC的做工及用料均不錯,這樣在日常使用和裝卸中反而能帶來更好的可靠性。

基準性能測試——理論性能測試

顯卡的基本情況分享完畢,接下來當然就是性能實測環節,首先看看理論性能如何,咱們主要參考3DMark基準。在Fire Strike Ultra的基準測試中,耕升RTX 5070 Ti 炫光 超OC的性能大約是RTX 4070 Ti的138%;到了DX12的Time Spy測試中,前者性能是後者的128%;在對顯卡壓力最高的Speed Way基準中,新卡領先幅度又回到了39%。可見随着圖形負載的壓力越大,新老兩代顯卡的性能差異會越來越大。

先看看3DMark提供的DLSS 3測試,正如前面提到的結論,新老兩代顯卡在圖形負載越高的時候,性能的差異會越明顯,比如8K樣例開啟DLSS的時候,耕升RTX 5070 Ti 炫光 超OC的性能足足是RTX 4070 Ti的140%,這也真實反映出兩者在面臨實際遊戲場景時的性能差異。

3DMark已經迅速整合了DLSS 4的對比測試項目,從理論性能的角度審視,RTX 50系列顯卡的性能展示将極具吸引力。通過實際測試,DLSS 4帶來的性能增強效果十分顯著。在4K分辨率的測試中,DLSS 4相較于DLSS 3實現了顯著的幀率提升。即便在2K分辨率的測試環境下,負載較低時,DLSS 4的幀率也達到了DLSS 3的166%。在8K分辨率的測試中,性能差異尤為突出,啟用DLSS 4後,平均幀率達到了137FPS,這種性能的提升堪稱耀眼。

基準性能測試——AI性能測試

聊完理論性能,我們再來聊時下大熱的AI基準。自從ChatGPT橫空出世後,PC行業内幾乎所有巨頭都将AI PC挂在嘴邊,但真正要在本地部署AI并用本地硬體輕松跑通這些大模型,英偉達提供的硬體敢說第二,應該沒有廠商敢認第一。正如CES 2025上英偉達提到了AI如何塑造RTX 50系列。這代新品的其中一個重大更新就是原生支持FP4精度模型,根據英偉達的官方說法,有了這項新特性,RTX 50系相比RTX 40系的效率更高,顯存占用還更低了。

FLUX.1 AI影像生成演示軟體針對NVIDIA基準的測試結果,不僅揭示了FP4精度的潛力,還凸顯了在AI應用中大顯存容量的顯著優勢。在FP8精度下,兩塊顯卡的性能差異顯著,盡管數百倍的性能差異顯然不是兩種顯卡真實算力的直接反映,但根本原因在于它們顯存容量的差異。當RTX 4070 Ti的12GB顯存溢出時,部分任務不得不轉為CPU+GPU"混合雙打",這會顯著降低性能表現。然而,在FP4精度下,性能表現得更符合實際情況,RTX 4080 SUPER需要超過半分鍾才能生成一張影像,而GAINWARD RTX 5070 Ti 炫光僅需8秒,這一對比充分展示了原生FP4精度的優勢。

再來看另一個AI基準——AI Text Generation Benchmark,這是一個集合了PHI 3.5、LLAMA 3.1、LLAMA 2等多種大語言模型的基準測試軟體。從實測結果來看,耕升RTX 5070 Ti 炫光的表現可圈可點,除了PHI 3.5外,其他基準對比RTX 4080 SUPER均有30%~40%的領先,随着以後FP4精度模型的推廣和普及,RTX 50系的優勢勢必越來越明顯。

再來看看MLPerf Client v0.5,這項AI基準更傾向于實際應用場景,比如針對創意寫作、長文摘要等場景的測試,實測耕升RTX 5070 Ti 炫光的領先幅度均在40%以上,可謂遙遙領先。

基準性能測試——創造力性能測試

看完以上幾個基準,相信大夥對耕升RTX 5070 Ti 炫光 超OC的AI性能已經有一定的了解,對于那些以視頻或者3D創作為謀生手段的從業者來說,N卡也是熱門的創造力工具。RTX 50系列在創造力方面的提升同樣明顯,首先不得不提到的是第九代NVENC,即新一代的英偉達編碼器,它可以輸出H.264/H.265 4:2:2編碼的視頻,而耕升RTX 5070 Ti 炫光 超OC内置了雙NVENC,效率自然更高。

我們使用DaVinci Resolve 19.1.2将一條8K Prores422HQ的無損素材編碼分别導出為H.264、H.265、AV1等版本,對比不同版本的導出時間差異。

實測結果着實讓人印象深刻,耕升RTX 5070 Ti 炫光 超OC導出這三條不同格式的4K視頻比RTX 4070 Ti節省了快一半的時間,尤其是導出逐漸會成為主流的AV1格式視頻,用時節省了一大半。而且正如前面所言,它還支持編碼4:2:2色度取樣的視頻,而且實測的導出時間也很優秀。有了這項新特性,耕升RTX 5070 Ti 炫光 超OC不但能為創作者節省大量時間,更能幫助創作者輕松輸出更高清無損的視頻樣例。

再來看看更貼合真實使用場景的創作力基準——Pugetbench創作力跑分測試,在幾款Adobe基準中耕升RTX 5070 Ti 炫光在達文西、PR的創作軟體的代際性能提升明顯,達文西軟體的測試基準得分代際提升來到了25%以上。

接着是3D渲染軟體的性能評估,我們選擇了Blender與V-Ray的基準測試。實測耕升RTX 5070 Ti 炫光 超OC在這幾個3D渲染基準中平均領先RTX 4070 Ti大約28%。

最後是喜聞樂見的工業領網域專用軟體基準SPEC2020,這項基準測試涵蓋了市面上多個工業級生產力軟體,能一定程度上反映出顯卡的工業生產水平。實測除了creo-03基準外,耕升RTX 5070 Ti 炫光 超OC的代際提升均十分顯著,而且提升幅度在10%到25%之間。

總結:

經過實際測試,耕升RTX 5070 Ti 炫光 超OC顯卡的性能及其相較于前代產品的提升是顯而易見的。特别值得注意的是,該系列顯卡已經開始采用16GB顯存,這對于那些有意向嘗試本地部署人工智能工具的用戶來說,提供了更為豐富的顯存資源,從而增強了其可操作性。以目前廣受歡迎的Deepseek工具為例,16GB顯存足以支持本地運行DeepSeek-R1-Distill-Qwen-14B模型,并且能夠高效處理一些基礎的文書工作。

針對顯卡的主要應用領網域——遊戲,耕升RTX 5070 Ti 炫光 超OC顯卡能夠輕松應對2K分辨率下各類高端遊戲的極致畫質需求。更為重要的是,DLSS 4技術的引入使得該顯卡在高分辨率遊戲運行方面更為高效,實現了畫質與流暢性的雙重保障,從而确立了其在高端顯卡市場中的地位。該顯卡不僅在外觀設計上獨具特色,其散熱性能也足以支撐長時間的高性能運行,确保了穩定性。

從實際使用體驗來看,耕升RTX 5070 Ti 炫光 超OC顯卡在遊戲性能、内容創作以及人工智能應用方面均表現出色,能夠滿足廣大用戶群體的需求。考慮到其性價比,該顯卡被賦予"高端性能守門員"的稱号是合理的。盡管其型号為70 Ti,但事實上它已經成為了大多數普通用戶的首選。一旦市場價格調整至合理水平,該顯卡有望成為市場上的熱門選擇,進一步鞏固英偉達在高端獨立顯卡市場的領先地位。

GeForce RTX 50系列亮點技術盤點

好了,以上就是我們給出的測試與分析内容,最後給大家介紹一下這一代顯卡的架構亮點以及部分技術解析。

Blackwell架構的改進

GeForce RTX 50系顯卡采用了此前NVIDIA在AI領網域推出的Blackwell架構,以大衛·布萊克威爾命名,其是一名受人尊敬的數學家和統計學家,在博弈論和統計學領網域留下了不可磨滅的貢獻,NVIDIA用其名字命名這一架構反映了新平台的開創性和先進的計算能力。Blackwell可以說是NVIDIA近年來更新幅度最大的GPU架構了,相比起之前的架構來說,劃時代地引入了神經網絡着色器,力圖為遊戲開創先進、高效更為逼真的渲染方式,帶給玩家全新的遊戲體驗。

相比前代Ada架構,Blackwell的更新聚焦于四大方向:分别是AI算力的爆發、光線追蹤技術的革新、顯存能效的提升以及劃時代的神經網絡渲染。

第五代Tensor核心

其中AI算力的爆發就不得不提到Blackwell架構上的第五代Tensor核心,新一代Tensor Core添加了對FP4浮點運算精度的支持。FP4是一種較低的量化方法,類似于檔案壓縮,可以減小模型推理過程中數據存儲和計算量大小,提高計算效率,降低該過程對顯存的要求。與大多數模型默認使用的FP16相比,FP4使用的顯存不到其一半,并使GeForce RTX 50系列GPU的性能相比上一代提升高達2倍。

第四代RT核心

而光線追蹤技術的革新則仰賴于第四代RT核心的加持,相較于第三代RT核心來說,Blackwell架構的第四代RT核心主要提升了檢測光線、路徑與三角形相交的效能,過往在檢測時往往只能檢測單個三角形,一旦場景復雜,檢測能力不足就容易導致渲染出錯等問題,而現在檢測能夠以簇集方式進行,檢測效率更高。同時還有三角形簇集解壓縮引擎加持,其新增了Linear-swept Spheres(LSS)功能,可以減少渲染毛發所需的幾何圖形數量,并使用球體代替三角形以獲得更準确的毛發形狀拟合,能夠讓顯卡發揮更好的性能但只消耗較小的顯存占用。

綜合來看,Blackwell架構的光線追蹤多邊形相交效率是上一代Ada架構的2倍,是Turing架構的8倍,同時還可以節省25%的顯存使用率。

第四代RT核心的改進主要是為實現更好的光追效果。其中有兩項新技術能夠受益,第一項是RTX Mega Geometry技術。随着光線追蹤遊戲場景的幾何復雜性不斷增加,遊戲畫面中幾何圖形的計算量也呈現出快速增長的趨勢。而RTX Mega Geometry技術能夠加速構建邊界體積層次結構(BVH),使得在實時渲染中可以處理多達100倍的三角形數量。

該技術的出現,也使得開發者能夠在遊戲場景中使用更復雜的幾何圖形,而不會影響遊戲幀率。過去需要一個個算BVH,現在RTX Mega Geometry能夠智能地在GPU上批量更新三角形簇,減少了CPU的負擔,既保證了性能,也兼顧了影像質量。相信随着這些技術的不斷發展和應用,未來的遊戲将能夠呈現出更加逼真和細膩的視覺效果,同時保持高效的性能表現。

另外一個能夠受益的技術則是Curve Primitive,方便光追在曲面中的應用,例如一位男士的頭發可能需要多達400萬個三角形,再加上光線追蹤技術,畫面所需要的運算負載極大。NVIDIA則通過第四代RT核心中的Linear- Swept Spheres(線性掃描球體)技術有效減少了渲染頭發所需的幾何體數量,以球形代替多邊形,更貼合頭發的形狀,從而将内存占用量大幅縮減至三分之一,并進一步提升了實際幀數,讓頭發的渲染效果更加自然流暢。

GDDR7顯存

第三點改變則是顯存效率的提升,Blackwell架構中還首次加入了對GDDR7顯存的支持,此前GDDR6顯存的信号編碼為NRZ/PAM2,而RTX 40系上的GDDR6X則是PAM4編碼。最新的GDDR7顯存,信号編碼改成了PAM3,NRZ/PAM2每周期提供1位的數據傳輸,PAM4每周期提供2位的數據傳輸,而PAM3每兩個周期的數據傳輸為3位。說人話就是,新的編碼機制可以使雜訊失真比減小,信号品質更清晰,同時還能帶來更高的顯存運行頻率以及更低的電壓,根據NVIDIA的介紹,使用GDDR7顯存後,數據傳輸速率可達GDDR6時的2倍,并且功耗接近GDDR6的一半,經典加量還減價。

神經網絡着色器

接着我們再細說一下這一代架構的最大變化,NVIDIA這次将Blackwell架構的SM單元直接稱為神經網絡着色器。相比較于之前的可編程着色、CUDA統一着色、通用計算着色來說,其最大的變化就是引入了AI,AI将會徹底改變GPU的着色方式。

在Blackwell架構中,NVIDIA 進一步拓展了神經網絡渲染的範疇,引入了諸多創新元素,包括神經網絡紋理壓縮(Neural Textures)、神經網絡材質(Neural Materials)、神經網絡體積(Neural Volumes)、神經網絡輻射場(Neural Radiance Fields)以及神經網絡輻射緩存(Neural Radiance Cache)等,這些元素共同構成了神經網絡渲染中神經網絡着色的重要呈現方式。

這裡舉個例子讓大家能夠更簡單地理解神經網絡渲染,過去復雜的物品或大量異材質的貼圖往往會占用相當大的内存空間,如果疊加光追的話,計算量将會更大。然而,得益于神經網絡渲染技術中的神經網絡材質功能,這一問題得到了顯著改善。開發者可以先在離線渲染出物品的光照數據,然後再用這些數據訓練一個小的AI模型,遊戲運行時只要實時調用這個AI模型當場推理就好了,這樣就能還原出想要的光照效果了,再配合神經網絡紋理壓縮技術,就能顯著降低實際生成的材質數據量,從而在占用更少顯示内存的同時,實現了細節更豐富的材質表現,達到了實時生成如電影般細膩素材的效果。

目前神經網絡渲染技術已經得到了微軟的大力支持,未來也将會加入DirectX中,玩家能夠體驗到更真實的遊戲世界。

而在硬體層面,由于神經網絡渲染的加入,Blackwell架構的SM單元相較于RTX 40系的Ada架構還是有不小變化的,Ada架構内的SM内,SM單元會拆抽成一半的CUDA專門用于處理FP 32(單精度浮點數),另一半則依需求動态調整去處理FP32和INT32(32位整數)。而在Blackwell架構上,SM單元則改成了CUDA核心可以完全依需求動态處理FP32和INT32的形式。

另外一個改進是,過往的着色工作往往只有SM單元的Shader在處理,而Blackwell架構上引入了神經網絡渲染以後,使得Blackwell架構上的第五代Tensor核心也能共同分擔着色工作,大大提高了着色效率。

這樣改進的好處是,Blackwell架構能夠進一步針對神經網絡渲染工作進行排序,即把傳統的着色工作分配給Shader,而需要動用神經網絡渲染的工作負載則可以給到Tensor核心上,兩種核心同時運用,效率最高可以提升2倍之多。并且得益于Tensor核心也加入了可編程渲染管線,現在開發者或API也能更好地調用Tensor核心,未來遊戲内我們能見到的AI技術勢必越來越多。

先進的AI管理處理器

此外,AI的應用也越來越多,不僅遊戲中應用AI技術,現在連可編程渲染的過程裡也引入了AI,因此如何去分配顯卡内部多樣化工作就成了一個問題。如過往顯卡在開啟DLSS玩遊戲時,其中應用到的語言模型和遊戲引擎需要同時與GPU的不同核心互動,生成遊戲幀,但是往往很難做到每一幀都有一致的生成時間,抑或是遊戲AI對話的響應不夠及時,這些情況都會造成遊戲體驗不友好。

而Blackwell架構為了解決這一問題,引入了AI管理處理器(AMP)。它能夠實時調度資源,确保在神經網絡渲染、幀生成和 AI 驅動的遊戲互動中實現智能化的任務分配。這種設計不僅帶來了更高效的性能輸出,還讓顯卡在遊戲渲染和 AI 運算之間實現了絕佳的平衡,确保幀的間隔均勻,對話類型的AI能夠及時響應,玩家的遊戲體驗一致性能夠比較好地保障。

技術解析:DLSS 4

介紹完NVIDIA引以為傲的RTX神經網絡渲染,再讓我們看看應用RTX神經網絡渲染的最好例子——DLSS。它不僅能提高幀率,還可同時提供清晰銳利的高質量影像,效果與原生分辨率渲染媲美。目前支持DLSS的遊戲已經多達540款,而玩家使用DLSS的時間更是長達3億個小時,可以說DLSS給玩家帶來了劃時代的遊戲體驗。

目前DLSS已經迭代至DLSS 4,DLSS 4進一步整合了多幀生成 (Multi Frame Generation)、光線重建 (Ray Reconstruction)和超級分辨率 (Super Resolution)等多種先進技術,通過 AI 模型對幀間信息進行深度分析與融合,最終呈現出更具沉浸感與真實感的畫面。

什麼是DLSS 多幀生成?

在 DLSS 3 幀生成技術中,AI 模型使用運動向量和深度等遊戲數據以及來自 GeForce RTX 40 系列光流加速器的光流場來生成一個額外的幀。由于每生成一個新的幀都需要光流加速器和 AI 模型參與,因此生成多幀的開銷相當高昂,而過高的性能開銷會帶來瓶頸,導致幀率提升受限。

而這次DLSS 4全新更新,引入了多幀生成技術,它可以利用 AI 為每個渲染幀額外生成多達3幀!相比傳統渲染的方式,能夠最多實現8倍的性能提升。并且每次渲染額外幀只需要AI模型執行一次,就能輸出三幀畫面,因此無論是對性能、顯存的開銷還是延遲都比之前要好了許多。

DLSS多幀生成技術還會與 DLSS 光線重建和DLSS超分辨率等其他技術協同工作。光線重建技術可以根據生成的多幀更好地處理光線追蹤效果,使光線效果更加逼真和自然;超分辨率技術則可以在多幀生成的基礎上,進一步提升畫面的分辨率和細節,确保在高幀率下畫面質量也能保持較高水平。

另外,由于多幀生成技術,輸出的幀多了,要給每一幀都安排一個合理的間隔刷新才能讓觀感更好。因此NVIDIA還引入了專屬的Flip Metering來代替CPU Pacing,它将幀節奏邏輯轉移到顯示引擎,讓GPU能夠更精确地管理顯示時間,盡可能地将每一幀畫面的生成時間保持一致,從而提高整體遊戲視覺的流暢感。不過由于Flip Metering是硬體級的控制器,因此DLSS 4的多幀生成目前只有RTX 50系顯卡支持。

新Transformer模型架構

DLSS 4 還引入了圖形行業首個 Transformer 模型實時應用。熟悉AI的應該對它很熟悉了,它在AI生成領網域已經應用多年了。基于Transformer架構的 DLSS 超分辨率和光線重建模型,相比之前DLSS使用的卷積神經網絡(CNN)模型來說,具備2倍的參數量和4倍的計算量。在遊戲場景中,能夠提供更高的穩定性、更少的拖影、更高的細節和更強的抗鋸齒能力,使畫面更加清晰、流暢和逼真。

不過雖然DLSS 4的多幀生成功能是RTX 50系顯卡的獨占功能,但新的Transformer模型将會逐步下放至DLSS 3、DLSS 2等,将适用于所有GeForce RTX顯卡。

Transformer 模型的最大優勢在于其強大的全局分析能力。傳統的卷積神經網絡(CNN)在單幀優化上表現出色,但對動态場景中的復雜變化(如快速移動物體或光線變化)處理有限。而 Transformer 能夠捕捉多幀之間的時間關系和全局場景信息,從而更加精準地還原細節,進一步減少"拖影"現象。

顯存占用優化

同時得益于多幀生成功能是利用效率極高的AI模型,相較于上一代的硬體光流器進行幀生成的方式,能夠顯著降低生成額外幀的計算開銷。反映在顯示中就是能夠節約顯存占用,例如在《戰錘 40 K:暗潮 》中,以4K最高設定遊玩,DLSS 4不僅可将幀率再提升10%,還能将内存占用量減少400 MB。

超過75款遊戲和應用将支持DLSS 4

超過75款遊戲和應用将在GeForce RTX 50系列開售時支持DLSS 4的全新DLSS多幀生成功能,包括《賽博朋克2077》《戰神:諸神黃昏》《心靈殺手2》《霍格沃茲之遺》等,《黑神話:悟空》也将于今年晚些時候更新支持 DLSS4的多幀生成。随着時間的推移,支持DLSS 4的遊戲和應用數量将不斷增加。

對于尚未完成更新至最新DLSS模型和功能的遊戲,NVIDIA App将通過全新DLSS優設功能實現相關支持。說人話就是,如果你想玩的遊戲還沒有提供DLSS,你可以通過NVIDIA App進行設定,強開DLSS技術,同時随着Game Ready驅動的不斷更新,DLSS相關的AI模型也會封裝在驅動之中,随着模型的不斷迭代,畫質與性能也會越來越好,簡單地說DLSS越用越好用!

不過DLSS 4技術中的多幀生成功能目前僅支持最新的GeForce RTX 50系列顯卡。究其原因還是因為多幀生成需要Blackwell架構内置的Flip Metering硬體及其他支持。因此想要體驗最新的黑科技,還需要玩家更新至GeForce RTX 50系列顯卡才行。

技術解析:NVIDIA Reflex 2

另外,值得一提的是,與DLSS 4一起到來的還有全新的NVIDIA Reflex 2技術。延遲一直是電競中繞不開的話題,玩家的每個動作都會經過復雜的計算,再在螢幕上渲染,其中的每一步都會增加延遲。雖然延遲往往只有幾十毫秒,但是你卻能明顯地感覺到遊戲的不流暢、卡頓。

為了盡可能地降低延遲所帶來的不良遊戲體驗,NVIDIA發布了NVIDIA Reflex技術,它可以使GPU和CPU同步,确保最佳響應速度和低系統延遲。目前NVIDIA Reflex已集成到超過100款遊戲中,可以将PC延遲降低50%。

而GeForce RTX 50系顯卡再度更新,帶來了NVIDIA Reflex 2技術。它結合了Reflex低延遲模式與Frame Warp技術。它可以把最新的滑鼠輸入指令同步給渲染幀,及時更新渲染的遊戲幀并在渲染幀被發送到顯示器之前獲取最新的滑鼠信息,通過刷新渲染的遊戲幀以進一步減少延遲,将PC延遲進一步降低多達75%。

另外,Frame Warp的加入,能夠進一步将延遲降低。當一個幀被GPU渲染時,CPU會根據最新滑鼠或搖桿輸入計算工作流中下一幀的視角位置。Frame Warp從CPU采樣新的視角位置,然後将GPU剛才渲染的幀扭轉到最新的視角位置。在渲染幀被發送到顯示器之前,在盡可能最新的時間進行扭轉操作,确保螢幕上反映最新滑鼠輸入。

而當Frame Warp轉移遊戲像素時,影像中可能會產生縫隙撕裂、鏡頭位置的變化會讓遊戲場景中顯示新的部分。NVIDIA則開發了一種優化了延遲的預測渲染算法,該算法使用來自先前幀的視角、顏色和深度數據,對這些撕裂空白的像素進行準确的影像修復。玩家可以通過更新的視角看到沒有撕裂的渲染幀,并降低了改變遊戲内視角位置而產生的延遲。說人話就是現在NVIDIA Reflex 2還可以根據上一幀的信息去腦補一些空白的像素,有種無中生有但你又看不出來的感覺。

首發支持NVIDIA Reflex 2技術的遊戲是《THE FINALS》以及《無畏契約》,該技術也将在 GeForce RTX 50 系列 GPU 上首次亮相,當然後續也會逐步開放給更多的GeForce RTX系列顯卡,老玩家也可以體驗到最新的技術。

關于真·五彩斑斓的黑!耕升GeForce RTX 5070 Ti 炫光 超OC 16GB 評測就分享完了,您有什麼想法可以聯系小編(集玲琳)。