NVIDIA 18 日正式發佈全新 GeForce GTX 1050 Ti 繪圖卡,為遊戲玩家提供高性價比的入門級選擇,基於全新「 Pascal 」 GPU 微架構、 14nm FinFET 制程的「 GP107 」繪圖核心,內建 768 個 CUDA Cores 、 4GB GDDR5 記憶體,定價約 US$139 美元能在主流遊戲大作中提供 60fps @ 1080p 流暢 3D 性能。
NVIDIA 「 GP107 」繪圖核心
NVIDIA 正式發佈全新「 Pascal 」 GPU 微架構的入門級產品,核心代號為「 GP107 」的「 GeForce GTX 1050 」系列,主要對手將會是 AMD 的「 Radeon RX 460 」,受惠於繪圖核心內部改良及全新 14nm FFET 制程的 VLSI 積體電路設計,性能表現相較上代「 GeForce GTX 950 」大幅提升,能滿足主流 3D 遊戲大作的基本性能要求,達成 60fps @ 1080p 流暢遊戲體驗。
「 GP107 」繪圖核心將擁有兩個不同型號,「 GeForce GTX 1050 Ti 」採用「 GP107-400 」繪圖核心,完整的核心規格, 768 個 CUDA Cores 、 48 個 Texture Units 及 4GB GDDR5 記憶體,定價約為 US$139 美元;「 GeForce GTX 1050 」則採用「 GP107-300 」繪圖核心,運算單元數目略為刪減,擁有 640 個 CUDA Cores 、 40 個 Texture Units 及 2GB GDDR5 記憶體,定價約為 US$109 美元。
受惠於全新 16nm FinFET 制程進步, LSI 超大型積體電路優化,經過多次在晶片的布局、布線及版圖等層面的改良,全新「 GP107 」繪圖核心的時脈提升能力相較上代明顯加強,但受限於沒有外接 PCIe 電源關係,「 GP107 」的預設時脈大約只有 1.4GHz 水平,將提供了一定的超頻空間給第三方廠商,非公板設計可以考慮加入外接 PCIe 電源令超頻能力大幅升,要達至 1.7GHz 或以上水平相信不是問題。
相較上代 28nm 制程的「 GM206-250 」繪圖核心,內建 29.4 億個電晶體、 Die Size 為 227m² 、 TDP 為 90W ;全新「 GP107 」繪圖核心增至 33 億個電晶體 ,但 Die Size 卻減少至約 135mm² ,雖然運算單元增加及時脈大幅提升, 但 TDP 僅為 75W 水平,性能功耗比表現更上一層樓。
768 個 CUDA Cores 、 48 個Texture Units
有別於「 GeForce GTX 950 」與「 GeForce GTX 960 」是採用相同的「 GM206 」繪圖核心,僅透過屏敝部份運算單元而成,「 GeForce GTX 1050 」則採用了全新的「 GP107 」繪圖核心,與「 GeForce GTX 1060 」的「 GP106 」繪圖核比較,雖然同樣擁有 2 個 GPC 圖形處理群,每個 GPC 內擁有一組獨立的 Raster Engine 光柵處理引擎,每個 SM 模組同樣內建 128 個 CUDA Cores 及 8 個 Texture Units 。
不過,「 GP107 」繪圖核心的每個 GPC 圖形處理群所內建的 SM 模組數目由 5 個減至 3 個,令 SM 模組總數減至 12 個,整體運算單元數目減至 768 個 CUDA Cores 、 48 Texture Units 個。
「 GP107 」繪圖核心擁有 4 個 32Bit 記憶體控制,合共 128Bit 記憶體頻寬,記憶體時脈提升至 8Gbps ,令記憶體總頻寬由上代 105.6GB/s 大幅提升至 112GB/s 。
此外,每組記憶體控制器緊連著 8 個 ROP 單元及 256KB L2 Cache ,因此整顆繪圖核心擁有 32 個 ROP 單元及 1MB L2 Cache ,規格與上代「 GM206-250 」繪圖核心相同。
「 Pascal 」 GPU 微架構的 SM 模組設計,主要改動在於「 PolyMorph Engine 4.0 」引擎,針對現今 VR 3D 應用增設了「 Simultanceous Multi-Projection 」單元,其他部份則延續了上代「 Maxwell 」 GPU 微架構的 SMM 模組設計,每個 SM 模組內擁有 4 個 CUDA Processing 區塊,每個區塊各自擁有獨立的 Instruction Buffer 、 Warp Scheduler 、 Instruction Buffering 、 Dispatch Unit , 256KB Register File 容量、 96KB 共享記憶體、 48KB Texture/L1 Cache
加入 Dynamic Load Balancing 運算
雖然「 GeForce GTX 1050 Ti 」的規格與「 GeForce GTX 950 」相約,不過今代「 GM107 」繪圖核心在半導體層面上的改良,令核心時脈得以進一步提升外,在微架構層面上亦帶來能上的上升,例如加入異步運算能力,以往 GPU 在同時處理一幀影像的渲染及運算工作時, GPU 需要劃出固定的 CUDA Core 運算核心區間,讓不同類型的工作同時進行,當某一項工作已完成時,相關的 CUDA Core 會變成閒置的運算單元,直至該幀的其他運算完成後才會被重新分配。
全新「 GP107 」 繪圖核心引入了「 Dynamic Load Balancing 」運算,當某一項工作已完成時,相關的 CUDA Core 會立即被分配處理其他工作,加速完成該幀畫面的處理,將有效令 GPU 運算效率大大提升,減少內部運算單元閒置而造成浪費,將有效提升影像及聲音物理運算及渲染後影像處理等的性能。
新增 Low-Level Preemption 能力
「 GP107 」 繪圖核心為進一步降低運算延遲,新增了 Pixel Level Preemption 搶佔中斷,遊戲引擎的每一個渲染指令往往包含了數百個 Draw Calls 、每個 Draw Calls 可包括數百個三角形,每個三角可能包括了數百個 Pixel 指令,以往 GPU 必需要完成整個渲染指令,才能切換至執行其他工作,造成嚴重的運算延遲。
為解決這個問題,全新「 GP107 」繪圖核心首次引入全新「 Pixel Level Preemption 」功能,在執行一個渲染過程中可以在細微至在某一 Pixel 指令運算期間作出暫停,立即切換至執行其他渲染指令,切換時所需要延遲將少於 100ms ,而被暫停的工作可以暫存在記憶體中,並可以隨時繼續未完成的渲染工作。
除了繪圖層面外,全新「 GP107 」 繪圖核心亦加入了「 Instruction Level Preemption 」功能,當 GPU 執行一項運算工作時,可以在指令之間作出暫停,立即切換至其他運算工作,同樣地未完成的工作可暫存至記憶體,並隨時繼續未完成的工作。 透過全新 Pixel Level 和 Thread Level Preemption 運算能力, GPU 能夠提供更快的反應時間, GPU 能夠立即中斷現有渲染加速更新反應。
第四代 Delta Color 壓縮引擎
雖然記憶體介面仍保持 128Bit ,只是記憶體速度由 6.6Gbps 略為提升至 7.0Gbps ,不過全新「 GP107 」全新「 GP106 」 繪圖核心亦針對色彩壓縮技術入手,提升記憶體頻寬的效率,相較上代的 Delta Color 壓縮引擎,今代進一步強化了 2:1 壓縮模式取樣方式令更多比例的畫面能被壓縮,同時加入了全新的 4:1 及 8:1 高壓縮模式,以提升資料的壓縮比進一步節省頻寬所需。
圖下為 Project CARS 的遊戲畫面截圖,畫面中可被壓縮的地方將會以桃紅色作展示,圖下左為「 GM206 」 GPU 微架構的壓縮能力,雖然大部份地方已經被壓縮了,但兩旁的樹及較遠的境物仍然無法被壓縮,圖下右為全新「 GP107 」 GPU 微架構的第四代 Delta Color 壓縮引擎,可以看到能夠壓縮的比例進一步提高了。
受惠於第四代 Delta Color 壓縮技術,「 GP107 」繪圖核心能減少資料寫入記憶體的容量,壓縮後 L2 Cache 能存放更多筆資料,同時相較上代平均節省多 20% 記憶體所需頻寬,令記憶體有效頻寬相較上代有明顯提升 。
Source : HKEPC