升至 1,733GHz 水平,時脈的大幅提升帶來明顯的性能增長,而且風冷下超頻幅度可達 2GHz 以上,這是以往必需要在極冷下才能達成。
相較上代 28nm 制程的「 GM104 」繪圖核心,內建 52 億個電晶體、 2048 個 CUDA Cores 、 Die Size 為 398mm² 、 TDP 為 165W ;全新「 GP104 」繪圖核心增至 72 億個電晶體、 2560 個 CUDA Cores ,但 Die Size 卻減少至 314mm² ,雖然運算單元增加及時脈大幅提升, TDP 卻僅提升至 180W ,性能功耗比表現更上一層樓。
GeForce GTX 980 vs GeForce GTX 1080
GeForce GTX 980 GM104 (Maxwell) |
GeForce GTX 1080 GP104 (Pascal) |
|
SMs |
16 |
20 |
CUDA Cores |
2048 |
2560 |
Base Clock |
1126 MHz |
1607 MHz |
GPU Boost Clock |
1216 MHz |
1733 MHz |
GFLOPs |
4981 |
8873 |
Texture Units |
128 |
160 |
Texel fill-rate |
155.6 Gigatexels/sec |
277.3 Gigatexels/sec |
Memory Clock (Data Rate) |
7,000 MHz |
10,000 MHz |
Memory Bandwidth |
224 GB/sec |
320 GB/sec |
ROPs |
64 |
64 |
L2 Cache Size |
2048 KB |
2048 KB |
TDP |
165 Watts |
180 Watts |
Transistors |
5.2 billion |
7.2 billion |
Die Size |
398 mm² |
314 mm² |
Manufacturing Process |
28 nm |
16 nm |
2560 個 CUDA Cores 、 160 個 Texture Units
全新「 GP104 」繪圖核心設計,與上代「 GM204 」繪圖核心一樣擁有 4 個 GPC 圖形處理群,每個 GPC 內擁有一組獨立的 Raster Engine 光柵處理引擎,每個 SM 模組同樣內建 128 個 CUDA Cores 及 8 個 Texture Units 。不過,今代「 Pascal 」 GPU 微架構的 GPC 圖形處理群,由上代擁有 4 個 SM 模組增至 5 個,令 SM 模組總數增至 20 個,因此「 GP104 」繪圖核心的 CUDA Cores 數目增至 2560 個、 Texture Units 數目增至 160 個。
「 GP104 」記憶體控制器設計亦作出修改,由以往 4 個 64Bit 記憶體控制器,變成 8 個 32Bit 記憶體控制器,能有效提升記憶體時脈以配搭全新 GDDR5X 顆粒,每組記憶體控制器緊連著 8 個 ROP 單元及 256KB L2 Cache ,因此整顆繪圖核心擁有 256Bit 記憶體介面、 64 個 ROP 單元及 2MB L2 Cache 。
「 Pascal 」 GPU 微架構的 SM 模組設計,主要改動在於「 PolyMorph Engine 4.0 」引擎,針對現今 VR 3D 應用增設了「 Simultanceous Multi-Projection 」單元,其他部份則延續了上代「 Maxwell 」 GPU 微架構的 SMM 模組設計,每個 SM 模組內擁有 4 個 CUDA Processing 區塊,每個區塊各自擁有獨立的 Instruction Buffer 、 Warp Scheduler 、 Instruction Buffering 、 Dispatch Unit , 256KB Register File 容量、 96KB 共享記憶體、 48KB Texture/L1 Cache 。
加入 Dynamic Load Balancing 運算
除了在半導體層面的改良,「 Pascal 」 GPU 微架構亦針對異步運算作出改良,以往 GPU 在同時處理一幀影像的渲染及運算工作時, GPU 需要劃出固定的 CUDA Core 運算核心區間,讓不同類型的工作同時進行,當某一項工作已完成時,相關的 CUDA Core 會變成閒置的運算單元,直至該幀的其他運算完成後才會被重新分配。
全新「 Pascal 」 GPU 微架構首次引入了「 Dynamic Load Balancing 」運算,當某一項工作已完成時,相關的 CUDA Core 會立即被分配處理其他工作,加速完成該幀畫面的處理,將有效令 GPU 運算效率大大提升,減少內部運算單元閒置而造成浪費,將有效提升影像及聲音物理運算及渲染後影像處理等的性能。
新增 Low-Level Preemption 能力
今代「 Pascal 」 GPU 微架構為進一步降低運算延遲,新增了 Pixel Level Preemption 搶佔中斷,遊戲引擎的每一個渲染指令往往包含了數百個 Draw Calls 、每個 Draw Calls 可包括數百個三角形,每個三角可能包括了數百個 Pixel 指令,以往 GPU 必需要完成整個渲染指令,才能切換至執行其他工作,造成嚴重的運算延遲。
為解決這個問題,全新「 Pascal 」 GPU 微架構首次引入全新「 Pixel Level Preemption 」功能,在執行一個渲染過程中可以在細微至在某一 Pixel 指令運算期間作出暫停,立即切換至執行其他渲染指令,切換時所需要延遲將少於 100ms ,而被暫停的工作可以暫存在記憶體中,並可以隨時繼續未完成的渲染工作。
除了繪圖層面外,全新「 Pascal 」 GPU 微架構亦加入了「 Instruction Level Preemption 」功能,當 GPU 執行一項運算工作時,可以在指令之間作出暫停,立即切換至其他運算工作,同樣地未完成的工作可暫存至記憶體,並隨時繼續未完成的工作。
透過全新 Pixel Level 和 Thread Level Preemption 運算能力, GPU 能夠提供更快的反應時間,以解決突如其來的指令要求,其中最大得益將會是 VR 應用,當頭部位置突然改變, GPU 能夠立即中斷現有渲染加速更新反應。
全新 PolyMorph Engine 4.0
全新「 Pascal 」 GPU 微架構其中一個重大改動,在於 SM 模組內的 PolyMorph Engine 升級至 4.0 版本,加入了全新「 Simulataneous Multi-Projection 」 (SMP) 多投影引擎單元,取代舊有的「 Viewport Transform 」單元,此一改良將令 VR 運算能力大幅提升。
舊有的「 Viewport Transform 」單元,每次只能處理一個中心視點、單一投影視點的 Gemetory 幾何加工,但對於 VR 遊戲來說需要為左眼、右眼制作不同中心點的畫面,因此同一幀的遊戲畫面需要分別進行兩次 Gemetory 運算才能完成。
全新的「 Simulataneous Multi-Projection 」單元支援 Single Pass Stereo 運算,能夠同一時間處理左、右眼兩個中心視點的投影視點的 Gemetory 幾何加工,因此在相同的 PolyMorph Engine 數目下,全新「 Pascal 」 GPU 微架構在 VR 應用時, Gemetory 運算能力提升了一倍。
以往在進行 VR 遊戲, GPU 需生成一個完整影像,再變形以配合鏡片的光學弧度,透過全新的「 Simulataneous Multi-Projection 」單元的「 Len Matched Shading 」功能,每個中心視點可以分割 16 個不同解析度、不同投影視點,產生能配合鏡片的光學弧度的原生視像,無需完成一個正常畫面再變形,大幅減少所需 Pixel Shader 運算量。
據 NVIDIA 指出,如果正常一幀影像需要進行 4 千 2 百萬個 Pixels ,透過全新「 Simulataneous Multi-Projection 」單元的 Lens Matching Shading 視點處理,所需運算量可降至 2 千 8 百萬個 Pixels , Pixels 運算能力因此提升了約 8 成。
所以, NVIDIA 非常強調新一代「 Pascal 」 GPU 微架構的 VR 運算能力,如果單純以一般 3D 運算能力而言,「 GeForce GTX 1080 」的性能相較上代「 GeForce GTX Titan X 」提高了約 20% ,但 VR 運算能力卻高達 1 倍以上。
採用 GDDR5X 記憶體顆粒
「 GeForce GTX 1080 」繪圖卡將配搭全新 GDDR5X 記憶體顆粒,其傳輸速度高達 10Gbps ,每個 bit 之間的傳輸時間間距只有 100ps (Picoseconds) ,相等於光速僅移動了約一英寸的距離,為了達成如此高速的記憶體傳輸, GDDR5X 記憶體的 IO 電路需要大幅改良作出配合,「 GP104 」繪圖核心的記憶體控制器需作出修改, PCB 的走線設計亦進一步優化,避免 Channel Loss 、 Crosstalk 等可導致訊號衰減的情況。
圖上為「 GP104 」繪圖核心與 GDDR5X 記憶體顆粒的走線布局,頂端是 GPU 至下方 GDDR5X 顆粒,黃線展示為訊號路徑的提取模式,紅色的路徑為新一代 GeForce GTX 1080 的新 IO 電路佈局設計,透過 PCB 走線的設計優化,成功在 1.35V 工作電壓下達成 10Gbps 傳輸速度,相較上代 GDDR5 顆粒在相同功耗表現下,頻寬提升了約 43% 。
第四代 Delta Color 壓縮引擎
除了改用更高速的 GDDR5X 記憶體顆粒外,全新「 Pascal 」 GPU 微架構繼續針對色彩壓縮技術入手,提升記憶體頻寬的效率,相較上代的 Delta Color 壓縮引擎,今代進一步強化了 2:1 壓縮模式取採方式令更多比例的畫面能被壓縮,同時加入了全新的 4:1 及 8:1 高壓縮模式,以提升資料的壓縮比進一步節省頻寬所需。
圖下為 Project CARS 的遊戲畫面截圖,畫面中可被壓縮的地方將會以桃紅色作展示,圖下左為「 Maxwell 」 GPU 微架構的壓縮能力,雖然大部份地方已經可被壓縮了,但兩旁的樹及較遠的境物仍然無法被壓縮,圖下右為全新「 Pascal 」 GPU 微架構的第四代 Delta Color 壓縮引擎,可以看到能夠壓縮的比例進一步提高了。
( 左 ) 「 Maxwell 」 Delta Color 壓縮效果 ( 右 ) 「 Pascal 」 Delta Color 壓縮效果
受惠於第四代 Delta Color 壓縮技術,「 GP104 」繪圖核心能減少資料寫入記憶體的容量,壓縮後 L2 Cache 能存放更多筆資料,同時相較上代平均節省多 20% 記憶體所需頻寬,加上受惠於今代改用 GDDR5X 記憶體顆粒,記憶體時脈提升至 10Gbps ,令記憶體有效頻寬相較上代大幅提升了 70% 。
NVIDIA GeForce GTX 1080 繪圖卡
圖上為 NVIDIA GeForce GTX 1080 Founder 版本,其實所謂 Founder 版本即是由 NVIDIA 官方設計版本,以往會被稱為 Reference Design 公板, NVIDIA 這次的命名主要是希望一改玩家對公板的觀感, Founder 版本標榜採用最高級的元件, NVIDIA 工程師們的精心設計,散熱器外觀相較上代加入立體三角形的輪廓,感覺更具質感。
散熱器保持採用過往類似的吹風機的設計,內裡裝有一個橫向黑色鋁製散熱鰭片,通過右邊的風扇吸入鮮風,沿散熱鰭片通過,同時帶走表面的熱力,再從尾端 I/O 位置排走。整個散熱被鑄鋁外殼及膠片包圍,形成密封空間,可以確保氣流完全通過散熱鰭片。
NVIDIA GeForce GTX 1080 繪圖卡的 PCB 設計經過優化,提供低阻抗提供訊號及電力傳輸效率,以滿足新一代 GDDR5X 記憶體高達 10Gbps 的速度需求, 5+1 相 Dual FET 供電模組降低供電模組產生的雜訊,並且增加了額外的電容強化濾波作用,優化電源輸出效率及降低雜訊產生,相較上代 Peak to Peak 電壓聲噪由上代的 209mV ,下降至 120mV ,有效提升繪圖卡的超頻能力。
「 GP104-400 」繪圖核心
繪圖核心採用全新「 GP104-400 」繪圖核心,擁有 2560 個 CUDA Cores 、 160 個 Texture Units ,雖然運算單元數目相較上代「 GM204 」更多,電晶體數目亦由 52 億個大幅提升至 72 億個,但受惠於全新 16nm FinFET 制程,其 Die Size 相較上代「 GM204 」約為 398mm² ,進一步縮細至只有 314mm² ,核心時脈更大幅提升至 1607MHz Base Clock 、 1733MHz Base Clock ,但最高 TDP 僅由上代 165W 略增至 180W ,僅需要一組 8 Pin PCIe 外接電源,建議使用 500W 電源供應器,而且在風冷下可達 2GHz 的超頻能力,表現非常驚人。
GDDR5X 記憶體顆粒
記憶體方面, NVIDIA 並沒有跟隨 AMD 把記憶體整合在晶片之上,而是透過改良 PCB 線路配合全新 GDDR5X 記憶體顆粒,記憶體時脈高達 5,005MHz ,在 QDR 技術下其傳輸時脈高達 10Gbps ,在保持 256bit 記憶體介面下,記憶體頻寬由上代 GeForce GTX 980 的 224GB/s ,大幅提升至今代 320GB/s ,再加上全新第 4 代 Delta Color Compression 技術,進一步優化記憶體頻寬,令有效記憶體頻寬相較上代提升了 1.7X 。
可以看到 NVIDIA GeForce GTX 1080 繪圖卡具備了 8 顆 Micron Z9TXT GDDR5X 記憶體顆粒,正式型號為 MT58K256M32JA-100 ,合共高達 8GB 容量,採用全新 20nm 制程、單顆容量高達 8Gbit 。據 Micron 指出,全新 GDDR5X 記憶體顆粒採用了 190-ball FBGA 封裝、 0.65mm Picth , VDD/VDDQ 為 1.35V 。
據 Micron 指出, GDDR5X 記憶體擁有不俗的時脈提升空間,預期今年年底可以量產頻寬高達 14Gbps 的 GDDR5X 顆粒,看來 NVIDIA 在短期內並不會推出類似 HBM 的記憶體技術。
全新的 SLI HB
舊有 NVIDIA 高階繪圖卡擁有 2 組 SLI 介面,主要是為了 3 Ways 及 4 Ways SLI 繪圖卡協同運算而設,在 2 Ways SLI 模式時僅使用 1 組 SLI 介面進行傳輸,全新「 Pascal 」 GPU 微架構將會強化 SLI 傳輸性能,全新 GeForce GTX 1080 的 2 組 SLI 介面,將會聯成為 Dual Link 介面用作 2 Ways SLI ,傳輸介面寬度提升一倍,同時推出全新「 SLI HB 」接橋令介面時脈進一步提升。
舊有的 SLI 接橋雖然仍能相容於 GeForce GTX 1080 ,但只會運作於較低的 400MHz 時脈,而全新的「 SLI HB 」接橋則會運作亦 650MHz 時脈,令傳輸速度提升 33% 。
據 NVIDIA 指出,舊有的 Single Link SLI 介面加上較低速的 400MHz ,受限於頻寬問題,解析度超出 2560 x 1440 @ 60Hz 時將會出現性能瓶頸,經改良的 Dual Link SLI 介面並運作於 650MHz ,能夠提供足夠頻寬支援 2560 x 1400 @ 120Hz+ 、 5K 及 SURROUND 遊戲顯示輸出。
此外, NVIDIA 不再建議用家使用超過兩張繪圖卡進行 SLI 協同加速,但仍然會為追求極限的超頻玩家提供 3 Ways 及 4 Ways SLI 模式,超頻玩家必需要前往 NVIDIA Enthusiast Key 網站下載一個多 GPU SLI 啟動程式,該程式會為超頻玩家的 GPU 生成一個簽名字串,把該字串輸入至 NVIDIA Enthusiast Key 網絡就能生成一個簽名檔,用家就能啟動 3 Ways 及 4 Ways SLI 功能了。
效能比拼︰
在測試 GeForece GTX 1080 效能的同時,編輯部亦找來了上代同級 GeForce GTX 980 、上代頂級 GeForce GTX Titan X 及對手現有頂級 AMD Radeon R9 Fury X 進行對比測試,以了解新一代 NVIDIA GeForce GTX 1080 的效能水平,包括了 3DMark 及多款實際 3D 遊戲的性能測試。
3DMark
FireStrikeFireStrikeExtremeFireStrikeUltraGeForce GTX1080GeForce GTX980GeForce GTXTitan XRadeon R9Fury X05,00010,00015,00020,000
A |
FireStrike |
FireStrike Extreme |
FireStrike Ultra |
GeForce GTX 1080 |
16705 |
9281 |
4975 |
GeForce GTX 980 |
11523 |
5812 |
3036 |
GeForce GTX Titan X |
14892 |
7601 |
4012 |
Radeon R9 Fury X |
13613 |
6542 |
3512 |
3DMark 作為最廣泛的 3D 性能基準測試,性能對比結果當然不可缺少,憑著全新 Pascal GPU 微架構的改良,再加上 16nm FinFET 制程帶來的時脈提升幅度,雖然 CUDA Core 數目上較少,但全新 GeForce GTX 1080 依然力壓 GeForce GTX Titan X ,性能大約高出約 20% ,相較上代同級 GeForce GTX 980 更高出約 70% 。
Call of Duty: Black Ops 3
2560x14403840x2160GeForce GTX1080GeForce GTX980GeForce GTXTitan XRadeon R9Fury X0306090120
A |
2560×1440 |
3840×2160 |
GeForce GTX 1080 |
101.6 |
47.1 |
GeForce GTX 980 |
56.4 |
25.7 |
GeForce GTX Titan X |
78.2 |
38.2 |
Radeon R9 Fury X |
60.4 |
29.5 |
Crysis 3
2560x14403840x2160GeForce GTX1080GeForce GTX980GeForce GTXTitan XRadeon R9Fury X015304560
A |
2560×1440 |
3840×2160 |
GeForce GTX 1080 |
45.7 |
23.6 |
GeForce GTX 980 |
26.1 |
13.7 |
GeForce GTX Titan X |
35.2 |
19.2 |
Radeon R9 Fury X |
29.7 |
14.6 |
Fallout 4
2560x14403840x2160GeForce GTX1080GeForce GTX980GeForce GTXTitan XRadeon R9Fury X0255075100
A |
2560×1440 |
3840×2160 |
GeForce GTX 1080 |
92.6 |
49.2 |
GeForce GTX 980 |
69.4 |
31.7 |
GeForce GTX Titan X |
81.3 |
42.2 |
Radeon R9 Fury X |
73.1 |
34.6 |
Grand Theft Auto V
2560x14403840x2160GeForce GTX1080GeForce GTX980GeForce GTXTitan XRadeon R9Fury X020406080GeForce GTX 10802560×1440:69.4
A |
2560×1440 |
3840×2160 |
GeForce GTX 1080 |
69.4 |
35.8 |
GeForce GTX 980 |
42.7 |
20.6 |
GeForce GTX Titan X |
52.4 |
27.3 |
Radeon R9 Fury X |
44.1 |
19.1 |
Hitman DX12
2560x14403840x2160GeForce GTX1080GeForce GTX980GeForce GTXTitan XRadeon R9Fury X0255075100
A |
2560×1440 |
3840×2160 |
GeForce GTX 1080 |
78.4 |
46.5 |
GeForce GTX 980 |
46.1 |
25.1 |
GeForce GTX Titan X |
58.2 |
33.9 |
Radeon R9 Fury X |
53.5 |
28.3 |
Unigine Heaven 4.0
2560x14403840x2160GeForce GTX1080GeForce GTX980GeForce GTXTitan XRadeon R9Fury X0255075100GeForce GTX 10802560×1440:89.6
A |
2560×1440 |
3840×2160 |
GeForce GTX 1080 |
89.6 |
36.4 |
GeForce GTX 980 |
53.4 |
21.2 |
GeForce GTX Titan X |
74.2 |
29.1 |
Radeon R9 Fury X |
66.1 |
22.9 |
遊戲效能水平亦是今次測試的重點之一,今次測試過程裡面挑選了 6 款不同的遊戲或遊戲引擎,當中包括近 Call of Duty: Black Ops 3 、 Crysis 3 、 Fallout 4 、 GTA V 、 Hitman DX12 及 Unigine Heaven 4.0 等,全部遊戲都會設定成 2560 x 1440 及 3840 x 2160 解析度,特效方面亦會推至最高設定,以測試繪圖卡的最大運算能力。
NVIDIA GeForce GTX 1080 雖然在 CUDA Cores 數目上,相較於上代頂級型號 GeForce GTX Titan X 更少,但憑著微架構層面的改良,加上制程進步令核心時脈得以大幅提升,性能出現壓倒性優勢,更不要提對手 AMD 至今仍然無力還撃,繪圖卡市場現時出現接近壟斷情況, AMD 繪圖卡無人問津, GeForce GTX 1080 根本是毫無對手,如果你要一張高階繪圖卡打機,現時你根本找不到代替品可言。
Source : http://www.hkepc.com/14024/