騎士網頻道,騎士網站詳細信息
前言/外觀賞析:索泰 GeForce RTX 4090 天啟 OC
前言
今年9月,玩家翹首以盼的GeForce RTX 4090終于到來了,老黃的NVIDIA新品發布會也稱得上是科技圈的“春晚”之一,新的RTX 4090既有性能的飛躍,又有獨家的黑科技加持,然而FE公版一經上架就一搶而空,玩家們想要體驗這張性能巨獸,選擇AIC非公版會更合適。
*下文的“索泰 GeForce RTX 4090 天啟 OC”簡稱為“索泰RTX 4090 天啟OC”
外觀賞析:索泰 GeForce RTX 4090 天啟 OC
眾所周知,索泰天啟系列一直以豪華用料與高規格散熱著稱,這一代的索泰RTX 4090 天啟OC也不例外。外包裝還是一貫的風格,以天啟系列的LOGO作藝術化的延伸,打造了一個相當富有藝術感以及神秘感的外包裝的主背景。
不同于其他品牌將產品渲染圖放于正面,索泰則是將RTX 4090 天啟OC的效果圖放置在外包裝的背面,并且用文字凸顯出其特色設計及功能,讓玩家一眼就能看出這代顯卡的特色。
索泰RTX 4090 天啟OC的外觀設計極具辨識度,機甲風格設計貫穿整張顯卡,正面是三風扇設計,風扇的四周被名為“銀鱗裝甲”的散熱風罩包圍,銀黑裝甲、龍鱗設計輔以正中央的“啟世之環”,簡約颯爽,造型炫酷。
索泰還為這個“啟世之環”打造了無以倫比的燈光效果,透光的鉆切呼吸燈點亮后猶如鉆石般璀璨閃耀。玩家也可通過索泰FireStorm控制中心自定義燈效,可玩性拉滿。
三個110mm的仿生盾鱗2.0散熱風扇十分吸睛,扇葉相比前代也大出不少,并且在扇葉表面還設計了鱗莊仿生條紋并優化了扇葉曲率,這樣設計的目的是給顯卡提供充足的風量,保證風道流通,高效散熱。
與其他高端顯卡一樣,索泰RTX 4090 天啟OC采用高強度合金材料一體鑄形而成,能夠增加顯卡結構強度,保護顯卡PCB,提升顯卡靜電防護能力。
并且背板上加入了天啟之翼2.0散熱引擎,左右分別設置了兩個風扇,分管吹風和抽風,位置上正好對應“天啟姬”的形象設計,既有顏又能打,全方位為顯卡散熱,助力性能完全釋放。
騎士網沒有了是因為被舉報了。騎士網因為版權問題,被一些網友舉報后,網站被封禁,就會找不到了,顯示網頁被禁用。所以騎士網沒有了是因為被舉報了。
其中一個小風扇下壓制的是AD102核心的背部電容,相比其他顯卡,散熱效能更進一步。
顯卡的頂部可以看到一個印有索泰Logo的發光燈牌,與正面的“啟示之環“一樣,通過FireStorm軟件可以實現燈效自定義等效果,燈牌之后是一整排的散熱鰭片貫穿顯卡頂部和底部,加速熱量排出。
接著看細節,索泰RTX 4090 天啟OC采用全新的12VHPW供電接口,通過一根12VHPW的電源線就可達到供電需求,并且索泰給接口內部的金屬端子鍍金,騎士網站官網,能夠有效減緩氧化,降低電源線和接口的接觸阻抗,降低發熱量,保障顯卡的安全使用。
在12VHPW供電接口的旁邊是顯卡BIOS切換按鈕,索泰RTX 4090 天啟OC預設了加速和寂靜兩種BIOS設置,玩家可以通過BIOS切換按鈕或索泰的FireStorm控制中心進行切換,滿足玩家高性能或安靜的需求。
顯卡厚度上不比其他RTX 4090動輒3.5槽的厚度,索泰RTX 4090 天啟OC僅有3槽,對小還是比較友好的,并且配備了三個DP1.4a和一個HDMI2.1a,用這款顯卡帶8K屏幕一樣流暢。
顯卡拆解:索泰 GeForce RTX 4090 天啟 OC
拆解:索泰 GeForce RTX 4090 天啟 OC
索泰RTX 4090 天啟OC的堆料相當奢華,我們拆開來一探究竟,卸下索泰RTX 4090 天啟OC金屬背板上的螺絲后就可以分離散熱系統和PCB。
再卸下金屬背板上剩余的螺絲后即可完全分離PCB,PCB采用類公版的方案,越肩設計,比一般的顯卡都要再高一些,從長度來看,索泰RTX 4090 天啟OC的PCB比前代RTX 3090 Ti還要小,不過PCB上密密麻麻布滿各種元器件,排列整齊,有大廠出品的質感。
PCB的背面主要是控制芯片,核心背部電容位置使用了四個POSCAP(導電聚合物鉭電容)代替四組MLCC(一組10個MLCC),整體電氣性能更強。
回到正面,PCB的正中央就是這張顯卡的大腦——TSMC 4N NVIDIA定制工藝的AD102-300-A1 GPU芯片,小小的GPU芯片中集成了763億個晶體管,相比RTX 3090 Ti足足多了2.7倍,稱它是地表最強卡皇都不足為過。
核心的四周就是NVIDIA與美光共同研發的GDDR6X顯存,型號是型號為2MU47 D8BZC,共12顆,單顆2GB容量,12顆組成RTX 4090上24GB的超大顯存容量,為處理復雜項目提供堅實的硬件基礎。
作為天啟系列的續作,供電規模也相當豪華,索泰RTX 4090 天啟OC采用24+ 4相 SEP供電系統,供電分列在PCB的左右兩側。
其中24相為核心供電,每相供電均采用了獨立的DrMos芯片,封裝型號為BLN3,實際應為AOS的AOZ5311NQI-03,持續輸出電流為55A。
另外4相為顯存供電,每相都采用了獨立的DrMos芯片,同樣是來自萬國半導體Alpha & Omega Semiconductor,封裝型號為BLN0,實際應為AOZ5311NQI,持續輸出電流也是55A。

供電控制芯片共三顆,均安排在PCB背面,型號分別是:uP9512U、uP9512R,以及uS5650Q。其中uP9512U與uP9512R共同管理核心供電,可以做精細化的供電管理,而uS5650Q則是主要負責顯存供電部分。
在核心周圍還能看到兩顆BIOS控制芯片,型號為IS25WP016,分別控制這款顯卡的加速BIOS與寂靜BIOS。
豪華的堆料自然少不了強勁的散熱系統,索泰RTX 4090 天啟OC采用了全新升級的高效能冰芯VC散熱系統。
全新升級的冰芯VC散熱系統相當龐大,不僅能夠給GPU散熱,還為顯存、電感以及MOS管等進行散熱,如此規格的散熱壓制AD102核心綽綽有余。
在VC均熱板上可以看到索泰給顯存和供電都配上了高系數的導熱墊輔助散熱,AD102核心上也安排上了厚厚的硅脂,為的就是讓這顆地表最強核心盡情釋放全部潛能。
將隱藏在風扇下的螺絲卸下后,就可以徹底分離散熱風扇與龐大的散熱器,散熱器本體為兩段式散熱模塊,左右兩側均有全覆蓋高密度鍍鎳鰭片,搭配全新對流穿透散熱設計,能夠大大提升顯卡散熱效能。
9根冰脈2.0熱管穿梭在散熱器內部,能夠將前后的兩段散熱鰭片鏈接起來,將熱量快速傳導到散熱鰭片。
散熱系統上還包括三個采用雙滾珠軸承設計的110mm仿生盾鱗2.0風扇,升級后的扇葉不僅能夠保證充足的風量,還兼顧了使用壽命,并且風扇動靜交由AI掌控,可以在高、低溫度和負載之間讓風扇智能啟停,減小噪音。
http://ko.sohu.com/ 國外的不好找
五風扇的散熱設計,剩下的兩個就是背部的天啟之翼2.0散熱引擎,采用無線觸點設計,使風流可以遍及顯卡背面PCB等散熱死角,構成全方位立體散熱系統,進一步降低顯卡溫度。
測試平臺/理論性能/游戲性能
測試平臺介紹
旗艦級的自然要有旗艦級的配置,想要襯得上索泰RTX 4090 天啟OC這樣的卡皇,其他硬件自然不能差,所以我們在測試平臺的搭建上都挑選一些較為頂級的設備。三套件為:的K,微星MEG Z670 ACE,以及金士頓的64GB DDR5-6000高規格。
有了強悍的硬件,顯示設備也不能拖后腿,顯示器我們采用了愛攻&保時捷聯名PD32M電競顯示器,其搭載了目前頂級的4K 144Hz面板,可以完美體驗到RTX 4090帶來的絲滑4K 144Hz游戲體驗。
上機前依照慣例,先在GPU-Z中驗明正身,索泰RTX 4090 天啟 OC的基準頻率為2235MHz,Boost頻率為2550MHz,高于公版FE的2520MHz,并且可以看到此時主板的Resizable BAR功能已開啟,顯卡能夠做大限度的發揮出其全部性能。
另外從GPU-Z中我們還可以了解到這款顯卡的功耗和溫度設定,索泰RTX 4090 天啟 OC的TGP設定為450W,最高限度500W,與公版保持一致,溫度控制的上限為84℃,不過可向上調整至88℃,想必這張卡還有不小的超頻空間。
理論性能測試
首先是3DMark的理論性能測試,在基準性能測試部分,索泰RTX 4090天啟OC充分釋放了性能,成績大幅領先于RTX 3090 Ti。其中不管是代表DX 11性能的FireStike還是代表DX 12性能的TimeSpy,其成績領先的幅度都在70%以上。
另外最近3DMark還更新了基于DX12新的基準測試工具——SpeedWay性能測試,索泰RTX 4090 天啟OC得分首超1W分大關,來到了10028,相比公版的9854分高出不少,可見這次索泰來勢洶洶。
而在DXR光追性能部分,得益于擁有數量更多的第三代光追單元,索泰RTX 4090 天啟OC領先幅度更大,相比上代卡皇RTX 3090 Ti,性能提升超過一倍,在Port Royal中,26196的得分領先了80%以上。
游戲性能測試
絕大多數玩家關注的自然是心心念念的游戲性能,為了展示這款核彈級顯卡的真正實力,我們選取了多款游戲或Benchmark測試對索泰RTX 4090 天啟OC進行實測。
2K分辨率下,索泰RTX 4090 天啟OC逐漸展示出其優勢,整體性能相比前代卡皇RTX 3090 Ti提升近40%以上,不少游戲依舊穩定200 FPS以上,2K@144Hz不在話下。
4K分辨率才是這款顯卡的主場,從實測結果中可以看出,隨著分辨率的提升,索泰RTX 4090 天啟OC的優勢越大,在有著“顯卡殺手”之稱的《賽博朋克2077》中,索泰RTX 4090 天啟OC能夠做到76 FPS,而RTX 3090 Ti僅有48 FPS,屬實有點不夠看。而在《光明記憶:無限》中,即使是高畫質加復雜光追的苛刻條件下,這代顯卡的表現依舊強勢,87 FPS的成績領先前代近70%。
既然都是地表最強游戲顯卡了,不試試8K分辨率怎么行,在8K游戲測試方面,索泰RTX 4090 天啟OC能夠將大部分游戲跑到60 FPS以上,像一些優化好的游戲,例如《極限競速:地平線5》甚至能有85 FPS左右,總的來說,用RTX 4090已經能夠滿足部分游戲運行在8K畫質下的需求,相較于RTX 3090 Ti幾乎是翻倍的提升,如果游戲廠商優化到位,8K電競指日可待。
DLSS 3性能
DLSS 3性能測試
應該有不少玩家疑惑,為什么游戲測試中沒有提及DLSS 3,不要著急,要說這DLSS 3可以說是這一代40系的最大升級亮點,相比DLSS 2,DLSS 3不僅可以實現畫質于幀數的雙向提升,還新增幀生成功能,實現游戲幀數翻倍,老黃在發布會上更是直言“DLSS 3讓游戲性能翻倍”,所以我們也用多款DLSS測試程序與游戲驗證這一說法。
3DMark DLSS 3理論性能測試
3DMark中新增了DLSS 3性能測試,實測下來有DLSS 3的加持下,索泰RTX 4090 天啟OC相比RTX 3090 Ti真的實現了性能的翻倍,在4K分辨率下,不開DLSS 3僅能勉強維持在60 FPS附近,一旦開啟DLSS 3后,性能直接提升三倍,已經可以滿足4K@144Hz的電競需求。
8K分辨率下更是離譜,不開DLSS 3只可以13 FPS,測試過程卡成PPT,而開啟DLSS 3后,幀數暴漲80 FPS,逼近百幀,相較上代提升3倍有多,似乎已經可以開始期待8K@120Hz甚至8K@144Hz了。
《F1 22》DLSS 3性能測試
具體到實際游戲表現中,索泰RTX 4090 天啟OC的表現依舊強勁,在《F1 22》游戲中,4K分辨率下僅TAA設置的游戲流暢度僅為75 FPS,這說明了RTX 4090不開啟DLSS功能的游戲性能已經足夠強了,開啟DLSS 3后,無論是質量檔還是性能檔,其游戲流暢度都高于120 FPS,對于一款賽車游戲來說,這流暢度是真再爽不過了。
當然不少玩家可能擔心DLSS 3會有降畫質的問題,這里我們也截取了DLSS 3各個檔位下的游戲實際畫面,可以看到無論是哪個檔次,游戲畫質均沒有明顯影響,甚至因為DLSS 3是通過AI進行超分渲染,因此在文字等細節紋理上會比原生畫質更加清晰。
DLSS 3-F1 22-DLSS-Balance
DLSS 3-F1 22-DLSS-Perfoemance
DLSS 3-F1 22-DLSS-Quality
DLSS 3-F1 22-DLSS-SuperPerfoemance
DLSS 3-F1 22-TAA
Unreal Engine 5 Lyra DLSS3測試
最后我們還測試了利用Unreal Engine 5引擎打造的Lyra DEMO,此DEMO除了能夠支持最新的DLSS 3技術外,還帶上了NVIDIA Reflex。筆者這里上傳了兩個圖片給大家看看Lyra DEMO里的DLSS 3開啟與關閉的畫質對比,游戲流暢度自然是DLSS 3開啟后提升較為明顯的,達到192 FPS,而PCL延遲也進一步降低到了50ms的水平。
Unreal-Engine-5-Lyra-DLSS3-OFF
Unreal-Engine-5-Lyra-DLSS3-ON
總的來說,有了DLSS 3的加持,索泰RTX 4090 天啟OC相比前代有了翻天覆地的變化,以前8K想都不敢想,現在近在咫尺;目前游戲中的特效日漸復雜多樣,老舊顯卡已經不足以支撐高畫質暢玩,而有了DLSS 3的加入,給這代顯卡帶來巨幅的性能提升,因此要面對未來的全景光追游戲大作,索泰RTX 4090 天啟OC顯然是必備之物。
創作者能力/雙NVIDIA編碼器
創作者性能測試
作為一張頂級卡皇,索泰RTX 4090 天啟OC不僅游戲性能強,對于生產力用戶來說,索泰RTX 4090 天啟OC的24GB超大顯存和強大算力就有了用武之地,因此我們測試了以UL Procyon、PugetBench為代表的Bnechmark來檢驗這款在視頻創作上的能力,同時也加測了PCMark 10用于模擬日常使用。
從實測結果來看,你可能覺得索泰RTX 4090 天啟OC對辦公或視頻剪輯的提升不大,但其實并非如此,Adobe等軟件對顯卡性能要求不高,但索泰RTX 4090 天啟OC上有著24GB GDDR6X顯存,大顯存的優勢在視頻剪輯、特效處理等應用項目上是顯而易見的,它能夠處理更加復雜的項目,并且縮短用時,因此作為一個設計師或后期工作者,這張RTX 4090可以讓你的效率更進一步。
不同于傳統辦公和視頻剪輯,索泰RTX 4090 天啟OC在專業領域的提升十分顯著,Blender和Octance這兩個渲染器對3D渲染的用戶一定不陌生,曾經的卡皇RTX 3090 Ti已經足夠強了,但索泰RTX 4090 天啟OC的性能更勝一籌,相比前代分別有87%和94%的性能提升。
即使是在SPECviewperf 2020集成的8款工業軟件測試中,索泰RTX 4090 天啟OC也是全方位的領先前作,性能提升也有54%之多,所以說搞工業設計的用戶這次真的可以換顯卡了,這代RTX 4090真的可以顯著提升你們的渲染效率。
雙NVIDIA編碼器測試
工業軟件提升明顯,視頻剪輯小幅提升,那后期工作者或設計師就沒有必要更新這代RTX 4090了嗎?非也,這次索泰RTX 4090 天啟OC還有一個重磅升級——雙NVENC編碼器,作為第八代NVENC編碼器,其編解碼性能相比前代有了質的飛躍。
最新的RTX 4090顯卡支持AV1編碼,而RTX 3090 Ti僅支持AV1解碼,二者差距相當明顯,新的AV1編碼技術能夠在占用相同空間情況下,提供更加快速的視頻編碼和更高質量的流媒體傳輸性能,并且目前許多主流媒體也逐步支持AV1編碼,像達芬奇、萬興喵影、剪映等軟件均已支持AV1編碼。
我們使用NVIDIA提供的8K片源與工程文件進行測試,同樣的素材下AV1編碼相比H.265編碼所需時間更短,而即使同為H.265格式導出,索泰RTX 4090 天啟OC的導出時長也比前作快了70%以上。
另外我們來看看H.265格式與AV1格式下的畫質區別,從肉眼來看,其實畫質幾乎完全一樣,這樣也意味著AV1可以用更小的空間占用量實現與H.265同等規格的畫質表現,總的來說,無論是導出速度、空間占用還是畫質表現,它都完勝H.265。
超頻/功耗/評測總結
超頻體驗
前面提到索泰RTX 4090 天啟OC的TGP與溫度墻都有一定的余量,那超頻自然是不可錯過的絕佳好戲。我們使用索泰的FireStorm控制中心對進行超頻,小手一拉,這張顯卡在3DMark的Port Royal測試中跑出了2955MHz的有效頻率,得分也上升至26848分。
我們繼續加大壓力,在FireStorm中將索泰RTX 4090 天啟OC的BOOST頻率提升到2800MHz,繼續測試3DMark的Port Royal光追項目。
這次顯卡的有效頻率直接來到3120MHz,相比默認的2550MHz提升明顯,分數也上升至27297,比起默認狀態下的26196提升超1000分,不得不說索泰的供電與散熱設計相當強勁,完全可以繼續開發這顆至尊級GPU的性能,玩家如果有興趣,還可以進一步挖掘它的強大潛力。
功耗與散熱
索泰RTX 4090 天啟OC是罕見的五風扇散熱器配置,要知道這代RTX 4090的散熱器都是超規格的,那這個配置拉滿的散熱器究竟能給這張RTX 4090降溫到什么程度呢?我們使用甜甜圈單烤,15分鐘后,顯卡核心頻率為2700MHz,GPU核心溫度僅有63.8℃,顯存溫度更是只有66℃,相比起上代的RTX 3090 Ti動輒七八十度,這代顯卡的溫度表現甚至比部分還低。
另外溫度低還不夠,索泰RTX 4090 天啟OC最高功耗為446W,甚至還比RTX 3090 Ti低一點,用幾乎相同的功耗卻帶來了幾乎翻倍的性能提升,不得不說這代顯卡的強勁實力令人驚喜。
烤機過程中我們也留意了風扇噪音,實測滿載情況下,風扇噪音也不大,放在中幾乎感受不到,如果你想要更安靜的使用環境,可以切換至寂靜BIOS或者手動使用索泰的FireStorm控制中心對風扇轉速進行調整。
評測總結
評測到這里就接近尾聲了,全新Ada Lovelace架構下的RTX 4090無論是游戲性能還是專業生產力都遙遙領先RTX 3090 Ti,不愧為地表最強游戲顯卡。而本次測試的索泰 GeForce RTX 4090 天啟 OC無論是性能、顏值、還是配置都延續了天啟系列一貫的奢華。
性能上著實給我帶來不小的驚喜,雖然出廠默認的BOOST頻率只比公版4090高了30MHz,但從我們實測來看,它的超頻潛力不容小覷,輕輕松松就能跑到3120MHz。在散熱上更有全新升級的高效能冰芯VC散熱系統加持,絲毫不懼發熱,完美詮釋了頂級非公應有的表現。
外觀上這代索泰GeForce RTX 4090 天啟 OC也是辨識度拉滿,機甲風格設計、啟示之環RGB燈、天啟之翼等元素輔以RGB燈效后,低調內斂的造型設計和個性張揚的RGB燈效相得益彰,在個性和沉穩找到了一個很好平衡點,看得出這款顯卡就是索泰專為游戲玩家量身定制的。
總的來說,如果你想購買一款性能強勁、顏值在線、堆料豪華的顯卡,那么索泰RTX 4090 天啟OC就是你的不二之選。DLSS 3、全新RT Core、Tensor Core等黑科技加持,8K游戲也能輕松實現;24GB大顯存配上大幅提升的算力,創作者也能感受架構革新帶來的效率提升。目前索泰 GeForce RTX 4090 天啟 OC上架銷售,售價12999元,感興趣的不要錯過。
ADA架構解析
Ada Lovelace架構講解
Turing、Ampere上兩代架構核心均以人物來命名,前者是計算機科學之父——艾倫·麥席森·圖靈;后者則是“電學中的牛頓”——安德烈·瑪麗·安培,電流的國際單位安培就是以其姓氏命名。那Ada Lovelace定非凡人,度娘一下果然,這是 人稱“數字女王”的阿達·洛芙萊斯,編寫了歷史上首款電腦程序,是被世界公認的第一位計算機程序員,果真是一代比一代還要更牛。PS:她的父親是《唐璜》的作者,詩人拜倫喔。
從Turing架構開始,NVIDIA首次在中加入了加速光線追蹤的RT Core單元,以及面向AI推理的Tensor Core單元,這革命性的創新使實時光線追蹤成為可能。而Ampere架構則是全面的架構改進,在加入新一代的二代RT Core和三代Tensor Core基礎上,還有著更先進的SM單元設計,這樣顯卡工作效率那是翻倍的提升。而來到Ada Lovelace架構,同時是以效率提升為大前提,自然是引入了最新的第三代 RT Cores與第四代 Tensor Cores單元,同時加入眾多新穎的黑科技,從執行效率來說Ada Lovelace架構是上代Ampere架構的2倍以上,甚至光線追蹤能力更是達到了恐怖的4倍性能。
在講述核心架構前,我們先了解幾個關鍵詞:GeForce RTX 4090、Ada Lovelace、TSMC 4N、608mm2、760億個晶體管、2倍性能功耗比。
大家帶著幾個關鍵字來看上面的【顯卡規格參數對比】表格,就可以更容易讀懂上述表格了。最新一代的桌面顯卡GeForce RTX 40系列均采用全新的Ada Lovelace架構核心, GeForce RTX 4090的核心是 AD102,目前Ada Lovelace架構核心中最為強大的,具有760億個晶體管、16384個CUDA核心和24 GB高速美光GDDR6X顯存。
值得注意的是,制程工藝的提升不單能擁有更多的晶體管,其核心頻率更是能跑得很高,GeForce RTX 4090 Boost頻率就已經達到了2520MHz,這樣在核心頻率與高規格的雙向保證下實現了比上代顯卡高達2倍的性能功耗比。
從GTC2022秋季大會中,其實我們就已經發現了,目前GeForce RTX 4090顯卡中配備的AD102-300核心其實并非完整的AD102核心。完整的AD102核心應該包括了12 個GPC (圖形處理集群)、72 個TPC (紋理處理集群)、144 個SM (流式多處理器) 和?個帶有 12 個 32Bit顯存控制器的 384 Bit顯存位寬。
再來看上面的GeForce RTX 4090架構圖,和完整版本的AD102核心對比起來就很容易看出差別。首先,GeForce RTX 4090核心代號為AD102-300,其擁有9個完整規格的GPC (圖形處理集群,每個內建6個TPC),與2個非完整的GPC (圖形處理集群,每個內建5個TPC),共組成了64個TPC ,那么SM單元自然就是128個了。至于顯存位寬方向那是相當的完整——384Bit。
如果你還是不太懂,這里筆者就逐一為了Ada Lovelace架構顯卡的構成。
剛才我們已經說到,一個完整的Ada Lovelace架構AD102核心內部擁有12個GPC,而每個完整的GPC中包含了一個專用的Raster Engine(光柵化引擎),兩組ROPs共16個ROP(光柵化處理單元),以及6個TPC與12個SM單元。
全新的SM流式多處理器
Ada Lovelace架構中最大的亮點之一:全新的SM流式多處理器,每個SM包含了128個CUDA核心、1個第三代的RT Cores,4個第四代 Tensor Cores(張量核心)、4個Texture Units(紋理單元)、256 KB Register File(寄存器堆),以及128 KB L1 數據緩存/共享子系統,于是這一個全新的SM單元有著超過上一代2倍之的性能表現。
過去的Turing架構INT32 計算單元與FP32數量是一致的,而兩者相加才組成了64個CUDA核心。但是Ampere架構開始,左側的計算單元實現了FP32+INT32的計算單元并發執行,也就是說CUDA核心數量翻倍到了128個。
再來看看Ada Lovelace架構的SM,FP32/INT32的計算單元組合,同樣實現了每個SM內含128個CUDA的設計,看似提升不大,但是當你了解到GeForce RTX 4090擁有128個SM,16384個CUDA核心,那你也就應該明白達82.6 TFLOPS的著色器能力是如何實現的了,比上一代的RTX 3090 Ti顯卡的40 TFLOPS,還真是提升了兩倍有多。
另外緩存方面Ada Lovelace架構也進行了大規格的提升,首先每個SM單元中單獨配上了128 KB的緩存,這樣RTX 4090顯卡中就實現了163MB L1/共享內存。其次核心的二級緩存進行進行了重新的設計,并且完整AD102核心是96MB二級緩存,而RTX 4090顯卡擁有72MB二級緩存,也可能是因此Ada Lovelace架構核心對顯存位寬的依賴性并不高。
技術講解:第三代RT Cores與第四代Tensor Cores
以為剛才的CUDA數量與超大L2緩存就已經很猛了,實現上Ada Lovelace架構最大的提升還是在第三代 RT Cores與第四代 Tensor Cores身上。
第三代 RT Cores
RT Cores用于光線追蹤加速,第三代 RT Cores 的有效光線追蹤計算能力達到 191 TFLOPS,是上一代產品 2.8 倍。
在Ampere架構中,第二代RT Cores支持邊界交叉測試(Box Intersection testing)和三角形交叉測試(Triangle Intersection testing),用于加速BVH遍歷和執行射線三角交叉測試計算,雖然光線追蹤處理能力已經比初代的Turing架構核心更高效,但是隨著環境和物體的幾何復雜性持續增加,傳統的處理方式很難再以更高效率、正確反應出的現實世界中的光線,尤其是光的運動準確性。
所以在第三代 RT Cores增加了兩個重要硬件單元:Opacity Micromap Engine與Displaced Micro-Meshes Engine引擎。Opacity Micromap Engine,主要是用于alpha通道的加速,可以將 alpha 測試幾何體的光線追蹤速度提高2倍。
在傳統光柵渲染中,開發人員使用一些 Alpha 通道的素材來實現更高效的畫面渲染,例如 Alpha 通道的葉子或火焰等復雜形狀的物體。但在光線追蹤時代,這傳統的做法會為光線追蹤帶為不少無效的計算,例如運動性的光線多次通過一塊葉子,光線每擊中一次葉子,都會調用一次著色器來確定如何處理相交,這時就會做成嚴重的執行成本與時間等待成本。
而Opacity Micromap Engine用于直接解析具有非不透明度光線交集的不透明度狀態
三角形。根據Alpha 通道的不透明,透明與未知等三個不同的塊狀態進行處理:透明則直接忽略繼續找下一個,不透明塊則記錄并告之命中,而未知的則交給著色器來確定如何處理,這樣GPU很大部分都不需要進行著色器的調試處理,能夠實現更為高效的性能。
Displaced Micro-Meshes Engine
如果說Opacity Micromap Engine加速的是面處理,那么Displaced Micro-Meshes Engine就是幾何曲面細節的加速器。如上圖所示,在Ada Lovelace架構中,通過1個基底三角形+位移地圖,就可以創建出一個高度詳細的幾何網格,所需要資源占用比二代RT Cores更低,效率也更高。
假面騎士官方網站可以在朝日官網、騎士官網。《假面騎士》系列是由石森章太郎原作、東映株式會社制作的日本特攝系列英雄故事,截止到2020年,共有37位(重置系列和番外系列未被算入其中)主角騎士。劇情簡介:“假面騎士系列”為。
通過NVIDIA給出的創建14:1珊瑚蟹例子來說事,這里我們需要需要1.7萬個微網格、160萬個微三角形,在Ada Lovelace架構中BVH創建速度可加快7.6倍,存儲空間縮小8.1倍。Displaced Micro-Meshes Engine起到了關鍵性的作用,其將一個幾何物體根據不同細節分成密度不一的微網絡處理,紅色密度超高,細節處理越為復雜 。相應的低密度微網絡區域則可以釋放更多的資源與存儲空間,這樣Displaced Micro-Meshes Engine就可以幫助BVH加速過程,減少構建時間和存儲成本。
同時Ada Lovelace架構SM中新增了著色器執行重排序(Shader Execution Reordering,SER),這是由于光線追蹤不再只有強光或者陰影渲染處理,未來將會更多的是在光線的運動性,這樣光線就會變得越來越復雜,想要第三代 RT Cores與第四代 Tensor Cores有著更高的執行效率,那就得為他們來安排一位管家。而著色器執行重排序(SER)就是為了能夠即時重新安排著色器負載來提高執行效率,為光線追蹤提供2倍的加速,也能更好地利用 GPU 資源。不過目前仍未有實例,想實現這個功能,還得游戲與開發工具的支持才行。
第四代 Tensor Cores
Tensor Cores是專門為執行張量/矩陣運算而設計的專用執行單元,這些運算是深度學習中使用的核心計算功能。第四代 Tensor Cores 新增 FP8 引擎,具有高達 1.32 petaflops 的張量處理性能,超過上一代 的 5 倍。
DLSS 3技術講解
技術講解:DLSS 3
或者說第四代 Tensor Cores太硬核你不會知道是啥?提升意義在哪?但是Tensor Cores最經典的應用DLSS你肯定會知道,這一次Ada Lovelace架構支持NVIDIA最新的DLSS3技術。
之前我們也聊過DLSS技術,其設計之初是為了彌補光線追蹤技術后的性能損失,具體的表現為開啟光線追蹤技術后游戲幀數大幅度的下降,甚至很難保證游戲流暢的運行。于是DLSS使用低分辨率內容作為輸入并運用AI技術輸出高分辨率幀,從而提升光線追蹤的性能。
在DLSS3中包含了三項技術:DLSS 幀生成、DLSS 超分辨率(也稱為 DLSS 2)和 NVIDIA Reflex。你可以理解為DLSS3是在DLSS2的基礎上,新增了DLSS 幀生成技術;而后兩技術中,DLSS 超分辨率只需要GeForce RTX都能使用上,NVIDIA Reflex則是GeForce 900 系列以后的顯卡都用使用上。
想實現DLSS 幀生成可不簡單,這需要配合上Ada Lovelace架構的GeForce RTX 40系列顯卡才行。DLSS 幀生成技術原理是:利用 AI 技術生成更多幀,以此提升性能。DLSS 會借助 GeForce RTX 40 系列 GPU 所搭載的全新光流加速器分析連續幀和運動數據,進而創建其他高質量幀,同時不會影響圖像質量和響應速度。
還有。根據查詢資料顯示騎士網是有的,騎士網是汽車類自媒體,截至2022年5月11日,微博粉絲數達100547人。騎士網國內最大最專業的男士護膚品,男士香水,品牌運動鞋正品折扣網,100%專柜正品。7天退換貨保障。貨到付款,主要。
從Ampere架構開始,NVIDIA顯卡就已經支持了光流加速器,而Ada Lovelace架構的光流加速器升級到了第二代,其提供了高達300 TeraOPS (TOPS) ,比安培架構的初代光流加速器(Optical Flow Acceleration,OFA)快 2 倍以上。為了實現DLSS幀生成,OFA扮演了重要的角色,其配合上新的運行?量分析算法在DLSS3技術框架內實現精確和高性能的幀生成能力。
另外,由于DLSS 幀生成是在GPU上作為后處理執行的,那么即使在游戲受到性能限制的時候,我們同樣能夠從中獲得更好的游戲性能提升。尤其是那種物理計算密集型的游戲或大型場景游戲,DLSS2均可以讓GeForce RTX 40系列顯卡以高達兩倍于CPU可計算的性能來渲染游戲。
最后由于DLSS 3是建立在DLSS 2基礎之上的,游戲開發者可以在已支持DLSS 2或NVIDIA Streamline的現有游戲中快速集成該功能,所以DLSS 3已在游戲生態得到廣泛應用,目前已有超過35款游戲和應用即將支持該技術。
閱讀小亮點:NVIDIA Reflex
NVIDIA Reflex也是DLSS3其中的一環,它可以使GPU和CPU同步,確保最佳響應速度和低系統延遲。
想要實現端對端的最低延遲,你需要確保游戲、顯示器以及三者都同時支持并開啟了Reflex 技術。
當GeForce RTX 40 系列顯卡和 NVIDIA Reflex搭配上后,直接達到1440p分辨率360 FPS的體驗,這著實是性能有點強勁了。
但唯一一個問題就在于,部分顯示器廠商認為此類產品受眾人群較少,會降低此類顯示器的產能,甚至產品就已經被內部PASS掉,所以1440p360Hz是很美好,但現實也是相當的骨感。
雙NVIDIA編碼器技術講解
技術講解:雙NVIDIA編碼器(NVENC)
GeForce RTX 40 系列還有一個全新的升級,那就是雙編碼器NVENC。第八代的NVENC雙編碼器不僅支持H.264與H.265,還支持開放式視頻編碼格式 AV1。
而由于AV1是一種免版稅的視頻編碼格式,上游軟件廠商與下游戲的配套端都在大力推廣此編碼格式,我們也會看到越來越多的硬件與軟件支持AV1格式,包括剪映專業版、DaVinci Resolve、以及 Adobe Premiere Pro 較為流行的 Voukoder 插件均支持,且均可通過編碼預設使用雙編碼器,這樣我們等待視頻導出的時間縮短將近一半。
不單是視頻制作軟件,AV1格式也將會是主播、游戲直播UP主們的新寵兒,在保證畫面最高質量的情況下,AV1 編碼器可將效率提高 40%,同時顯卡的占用也更低。包括OBS Studio一一代軟件中也會增加AV1格式的支持。另外我們還能通過 GeForce Experience 和 OBS Studio 錄制高達 8K60 的內容,這樣我們做游戲錄制也會變得更為輕松。
包括我們之后測試時使用的游戲內錄視頻都是支持AV1格式,同時雙編碼器NVENC在資源占用和適配上做得越來越好。
版權聲明:本站文章均來源于網絡,如有侵權請聯系刪除!
