第 2 代 Ray Tracing 引擎 !!
Ray Tracing 光線追踪技術是一種密集型渲染技術,可以逼真地模擬場景及物件的光線,實時以物理方式渲染光線的反射、折射、陰影及間接照明效果等。過去的 GPU 架構無法對遊戲及圖形進行複雜的實時光線追踪處理,NVIDIA 經過 10 年的研究開發成果,在上一個 GeForce 20 的 Turing GPU 微架構中加入硬體光線追踪加速引擎 RT Cores,結合 NVIDIA RTX 軟體引擎,實現逼真的實時光線場景效果。
在 GeForce RTX 30 系列的 Ampere GPU 升級了第二代的 RT Cores,上一代在 BVH 遍歷與射線三角交測運算能力,效能是第一代 RT Cores 的 2 倍,以往 Turning SM 在 Ray Tracing 運算時,不能同時執行 Graphics 或 Compute 運算,Ampere SM 強化了異步運算能力,當執行 Ray Tracing 運算時可同步進行 Graphics 或 Compute 運算,令 Ray Tracing 的遊戲執行效率大大提升。
上圖是 GeForce RTX 20 執行「Wolfenstein : Youngbload」遊戲的 1 幀畫面,如果單純用 CUDA Cores 運算需要 51ms (~20fps),交由 RT Cores 運算則可下降至 20ms (~50fps),如果啟用 DLSS 將部份運算交由 Tensor Core 處理,則可減至 12ms (~83 fps)。
在 GeForce RTX 30 的性能提升非常明顯,單純用 CUDA Cores 已降至 37ms,由 RT Cores 運算可降至 11ms,如果啟動了 DLSS 將交由 Tensor Core 處理器則可減至 6.7ms (~150 fps),Ray Tracing 性能提升非常明顯。
第 3 代 Tensor Cores 運算單元
上一代的 Turing GPU 採用第二代 Tensor Core 運算單元,是專門用於執行向量及矩陣運算的運算單元,包括 INT8 及 INT4 類度的函數運算,以及更高精度的 FP16 運算,主要用於深度學習神經網絡運算、推理運算、矩陣運算等,提供更佳的硬升加速能力。
針對遊戲應用層面,Tensor Cores 其中一個重點是加入全新的 DLSS 深度學習超級採樣技術,透過深度神經網絡提取渲染場景的多維特徵,並智能地組合來自多個幀的細節,以構建高質量 3D 影像,與傳統 AA 技術相比,DLSS 使用更少的輸入樣本,同時避免了透明度和其他復雜場景元素的算法難度。
新的 Ampere GPU 微架構升級至第三代 Tensor Cores運算單元,加入了更多不同類型的運算模式,例如加入新的稀疏性運算、TF32 及 BFloat 16 等新精度模式,同時在矩陣乘法的速度提高 2 倍,NVIDIA 更針對每個 SM 內的 Tensor Cores 數目作出了重組,減少了一半 Tensor Cores 的數目,但每個 Tensor Cores 運算能力變得更為強大。
由於 Ampere GPU 微架構的 Tensor Cores 運算能力大幅提升,啟動 DLSS 深度學習超級採樣的性能提升將會更為明顯,利用深度神經網絡提取渲染場景的多維特微,並智能地組合多個幀中的細節,以構建看起來跟原始圖像非常接近,甚至在更高的分辨率中提升更佳的質素。