More

    全新Pascal GPU微架構 NVIDIA GeForce GTX 1080登場

    升至 1,733GHz 水平,時脈的大幅提升帶來明顯的性能增長,而且風冷下超頻幅度可達 2GHz 以上,這是以往必需要在極冷下才能達成。

    相較上代 28nm 制程的「 GM104 」繪圖核心,內建 52 億個電晶體、 2048 CUDA Cores Die Size 398mm² TDP 165W ;全新「 GP104 」繪圖核心增至 72 億個電晶體、 2560 CUDA Cores ,但 Die Size 卻減少至 314mm² ,雖然運算單元增加及時脈大幅提升, TDP 卻僅提升至 180W ,性能功耗比表現更上一層樓。

    GeForce GTX 980 vs GeForce GTX 1080

    GeForce GTX 980

    GM104 (Maxwell)

    GeForce GTX 1080

    GP104 (Pascal)

    SMs

    16

    20

    CUDA Cores

    2048

    2560

    Base Clock

    1126 MHz

    1607 MHz

    GPU Boost Clock

    1216 MHz

    1733 MHz

    GFLOPs

    4981

    8873

    Texture Units

    128

    160

    Texel fill-rate

    155.6 Gigatexels/sec

    277.3 Gigatexels/sec

    Memory Clock (Data Rate)

    7,000 MHz

    10,000 MHz

    Memory Bandwidth

    224 GB/sec

    320 GB/sec

    ROPs

    64

    64

    L2 Cache Size

    2048 KB

    2048 KB

    TDP

    165 Watts

    180 Watts

    Transistors

    5.2 billion

    7.2 billion

    Die Size

    398 mm²

    314 mm²

    Manufacturing Process

    28 nm

    16 nm

    2560 CUDA Cores 160 Texture Units

    全新「 GP104 」繪圖核心設計,與上代「 GM204 」繪圖核心一樣擁有 4 GPC 圖形處理群,每個 GPC 內擁有一組獨立的 Raster Engine 光柵處理引擎,每個 SM 模組同樣內建 128 CUDA Cores 8 Texture Units 。不過,今代「 Pascal GPU 微架構的 GPC 圖形處理群,由上代擁有 4 SM 模組增至 5 個,令 SM 模組總數增至 20 個,因此「 GP104 」繪圖核心的 CUDA Cores 數目增至 2560 個、 Texture Units 數目增至 160 個。

    GP104 」記憶體控制器設計亦作出修改,由以往 4 64Bit 記憶體控制器,變成 8 32Bit 記憶體控制器,能有效提升記憶體時脈以配搭全新 GDDR5X 顆粒,每組記憶體控制器緊連著  8 ROP 單元及 256KB L2 Cache ,因此整顆繪圖核心擁有 256Bit 記憶體介面、 64 ROP 單元及 2MB L2 Cache

    Pascal GPU 微架構的 SM 模組設計,主要改動在於「 PolyMorph Engine 4.0 」引擎,針對現今 VR 3D 應用增設了「 Simultanceous Multi-Projection 」單元,其他部份則延續了上代「  Maxwell GPU 微架構的 SMM 模組設計,每個 SM 模組內擁有 4 CUDA Processing 區塊,每個區塊各自擁有獨立的 Instruction Buffer Warp Scheduler Instruction Buffering Dispatch Unit 256KB Register File 容量、 96KB 共享記憶體、 48KB Texture/L1 Cache

    加入 Dynamic Load Balancing 運算

    除了在半導體層面的改良,「 Pascal GPU 微架構亦針對異步運算作出改良,以往 GPU 在同時處理一幀影像的渲染及運算工作時, GPU 需要劃出固定的 CUDA Core 運算核心區間,讓不同類型的工作同時進行,當某一項工作已完成時,相關的 CUDA Core 會變成閒置的運算單元,直至該幀的其他運算完成後才會被重新分配。

      

    全新「 Pascal GPU 微架構首次引入了「 Dynamic Load Balancing 」運算,當某一項工作已完成時,相關的 CUDA Core 會立即被分配處理其他工作,加速完成該幀畫面的處理,將有效令 GPU 運算效率大大提升,減少內部運算單元閒置而造成浪費,將有效提升影像及聲音物理運算及渲染後影像處理等的性能。

    新增 Low-Level Preemption 能力

    今代「 Pascal GPU 微架構為進一步降低運算延遲,新增了 Pixel Level Preemption 搶佔中斷,遊戲引擎的每一個渲染指令往往包含了數百個 Draw Calls 、每個 Draw Calls 可包括數百個三角形,每個三角可能包括了數百個 Pixel 指令,以往 GPU 必需要完成整個渲染指令,才能切換至執行其他工作,造成嚴重的運算延遲。

    為解決這個問題,全新「 Pascal GPU 微架構首次引入全新「 Pixel Level Preemption 」功能,在執行一個渲染過程中可以在細微至在某一 Pixel 指令運算期間作出暫停,立即切換至執行其他渲染指令,切換時所需要延遲將少於 100ms ,而被暫停的工作可以暫存在記憶體中,並可以隨時繼續未完成的渲染工作。

    除了繪圖層面外,全新「 Pascal GPU 微架構亦加入了「 Instruction Level Preemption 」功能,當 GPU 執行一項運算工作時,可以在指令之間作出暫停,立即切換至其他運算工作,同樣地未完成的工作可暫存至記憶體,並隨時繼續未完成的工作。  

    透過全新 Pixel Level Thread Level Preemption 運算能力, GPU 能夠提供更快的反應時間,以解決突如其來的指令要求,其中最大得益將會是 VR 應用,當頭部位置突然改變, GPU 能夠立即中斷現有渲染加速更新反應。

    全新 PolyMorph Engine 4.0

    全新「 Pascal GPU 微架構其中一個重大改動,在於 SM 模組內的 PolyMorph Engine 升級至 4.0 版本,加入了全新「 Simulataneous Multi-Projection (SMP) 多投影引擎單元,取代舊有的「 Viewport Transform 」單元,此一改良將令 VR 運算能力大幅提升。

    舊有的「 Viewport Transform 」單元,每次只能處理一個中心視點、單一投影視點的 Gemetory 幾何加工,但對於 VR 遊戲來說需要為左眼、右眼制作不同中心點的畫面,因此同一幀的遊戲畫面需要分別進行兩次 Gemetory 運算才能完成。

    全新的「 Simulataneous Multi-Projection 」單元支援 Single Pass Stereo 運算,能夠同一時間處理左、右眼兩個中心視點的投影視點的 Gemetory 幾何加工,因此在相同的 PolyMorph Engine 數目下,全新「 Pascal GPU 微架構在 VR 應用時, Gemetory 運算能力提升了一倍。

    以往在進行 VR 遊戲, GPU 需生成一個完整影像,再變形以配合鏡片的光學弧度,透過全新的「 Simulataneous Multi-Projection 」單元的「 Len Matched Shading 」功能,每個中心視點可以分割 16 個不同解析度、不同投影視點,產生能配合鏡片的光學弧度的原生視像,無需完成一個正常畫面再變形,大幅減少所需 Pixel Shader 運算量。

    NVIDIA 指出,如果正常一幀影像需要進行 4 2 百萬個 Pixels ,透過全新「 Simulataneous Multi-Projection 」單元的 Lens Matching Shading 視點處理,所需運算量可降至 2 8 百萬個 Pixels Pixels 運算能力因此提升了約 8 成。

    所以, NVIDIA 非常強調新一代「 Pascal GPU 微架構的 VR 運算能力,如果單純以一般 3D 運算能力而言,「 GeForce GTX 1080 」的性能相較上代「 GeForce GTX Titan X 」提高了約 20% ,但 VR 運算能力卻高達 1 倍以上。

    採用 GDDR5X 記憶體顆粒

     

    GeForce GTX 1080 」繪圖卡將配搭全新 GDDR5X 記憶體顆粒,其傳輸速度高達 10Gbps ,每個 bit 之間的傳輸時間間距只有 100ps (Picoseconds) ,相等於光速僅移動了約一英寸的距離,為了達成如此高速的記憶體傳輸, GDDR5X 記憶體的 IO 電路需要大幅改良作出配合,「 GP104 」繪圖核心的記憶體控制器需作出修改, PCB 的走線設計亦進一步優化,避免 Channel Loss Crosstalk 等可導致訊號衰減的情況。

    圖上為「 GP104 」繪圖核心與 GDDR5X 記憶體顆粒的走線布局,頂端是 GPU 至下方 GDDR5X 顆粒,黃線展示為訊號路徑的提取模式,紅色的路徑為新一代 GeForce GTX 1080 的新 IO 電路佈局設計,透過 PCB 走線的設計優化,成功在 1.35V 工作電壓下達成 10Gbps 傳輸速度,相較上代 GDDR5 顆粒在相同功耗表現下,頻寬提升了約 43%

    第四代 Delta Color 壓縮引擎

    除了改用更高速的 GDDR5X 記憶體顆粒外,全新「 Pascal GPU 微架構繼續針對色彩壓縮技術入手,提升記憶體頻寬的效率,相較上代的 Delta Color 壓縮引擎,今代進一步強化了 2:1 壓縮模式取採方式令更多比例的畫面能被壓縮,同時加入了全新的 4:1 8:1 高壓縮模式,以提升資料的壓縮比進一步節省頻寬所需。

    圖下為 Project CARS 的遊戲畫面截圖,畫面中可被壓縮的地方將會以桃紅色作展示,圖下左為「 Maxwell GPU 微架構的壓縮能力,雖然大部份地方已經可被壓縮了,但兩旁的樹及較遠的境物仍然無法被壓縮,圖下右為全新「 Pascal GPU 微架構的第四代 Delta Color 壓縮引擎,可以看到能夠壓縮的比例進一步提高了。

    ( ) Maxwell  Delta Color 壓縮效果 ( ) Pascal Delta Color 壓縮效果

    受惠於第四代 Delta Color 壓縮技術,「 GP104 」繪圖核心能減少資料寫入記憶體的容量,壓縮後 L2 Cache 能存放更多筆資料,同時相較上代平均節省多 20% 記憶體所需頻寬,加上受惠於今代改用 GDDR5X 記憶體顆粒,記憶體時脈提升至 10Gbps ,令記憶體有效頻寬相較上代大幅提升了 70%

    NVIDIA GeForce GTX 1080 繪圖卡  

    圖上為 NVIDIA GeForce GTX 1080 Founder 版本,其實所謂 Founder 版本即是由 NVIDIA 官方設計版本,以往會被稱為 Reference Design 公板, NVIDIA 這次的命名主要是希望一改玩家對公板的觀感, Founder 版本標榜採用最高級的元件, NVIDIA 工程師們的精心設計,散熱器外觀相較上代加入立體三角形的輪廓,感覺更具質感。

    散熱器保持採用過往類似的吹風機的設計,內裡裝有一個橫向黑色鋁製散熱鰭片,通過右邊的風扇吸入鮮風,沿散熱鰭片通過,同時帶走表面的熱力,再從尾端 I/O 位置排走。整個散熱被鑄鋁外殼及膠片包圍,形成密封空間,可以確保氣流完全通過散熱鰭片。

    NVIDIA GeForce GTX 1080 繪圖卡的 PCB 設計經過優化,提供低阻抗提供訊號及電力傳輸效率,以滿足新一代 GDDR5X 記憶體高達 10Gbps 的速度需求, 5+1 Dual FET 供電模組降低供電模組產生的雜訊,並且增加了額外的電容強化濾波作用,優化電源輸出效率及降低雜訊產生,相較上代 Peak to Peak 電壓聲噪由上代的 209mV ,下降至 120mV ,有效提升繪圖卡的超頻能力。

    GP104-400 」繪圖核心

    繪圖核心採用全新「 GP104-400 」繪圖核心,擁有 2560 CUDA Cores 160 Texture Units ,雖然運算單元數目相較上代「 GM204 」更多,電晶體數目亦由 52 億個大幅提升至 72 億個,但受惠於全新 16nm FinFET 制程,其 Die Size 相較上代「 GM204 」約為 398mm² ,進一步縮細至只有 314mm² ,核心時脈更大幅提升至 1607MHz Base Clock 1733MHz Base Clock ,但最高 TDP 僅由上代 165W 略增至 180W ,僅需要一組 8 Pin PCIe 外接電源,建議使用 500W 電源供應器,而且在風冷下可達 2GHz 的超頻能力,表現非常驚人。

    GDDR5X 記憶體顆粒

     

    記憶體方面, NVIDIA 並沒有跟隨 AMD 把記憶體整合在晶片之上,而是透過改良 PCB 線路配合全新 GDDR5X 記憶體顆粒,記憶體時脈高達 5,005MHz ,在 QDR 技術下其傳輸時脈高達 10Gbps ,在保持 256bit 記憶體介面下,記憶體頻寬由上代 GeForce GTX 980 224GB/s ,大幅提升至今代 320GB/s ,再加上全新第 4 Delta Color Compression 技術,進一步優化記憶體頻寬,令有效記憶體頻寬相較上代提升了 1.7X

    可以看到 NVIDIA GeForce GTX 1080 繪圖卡具備了 8 Micron Z9TXT GDDR5X 記憶體顆粒,正式型號為 MT58K256M32JA-100 ,合共高達 8GB 容量,採用全新 20nm 制程、單顆容量高達 8Gbit 。據 Micron 指出,全新 GDDR5X 記憶體顆粒採用了 190-ball FBGA 封裝、 0.65mm Picth VDD/VDDQ 1.35V

    Micron 指出, GDDR5X 記憶體擁有不俗的時脈提升空間,預期今年年底可以量產頻寬高達 14Gbps GDDR5X 顆粒,看來 NVIDIA 在短期內並不會推出類似 HBM 的記憶體技術。

    全新 16nm FinFET 制程的 GP104 繪圖核心

    全新的 SLI HB

    舊有 NVIDIA 高階繪圖卡擁有 2 SLI 介面,主要是為了 3 Ways 4 Ways SLI 繪圖卡協同運算而設,在 2 Ways SLI 模式時僅使用 1 SLI 介面進行傳輸,全新「 Pascal GPU 微架構將會強化 SLI 傳輸性能,全新 GeForce GTX 1080 2 SLI 介面,將會聯成為 Dual Link 介面用作 2 Ways SLI ,傳輸介面寬度提升一倍,同時推出全新「 SLI HB 」接橋令介面時脈進一步提升。

    舊有的 SLI 接橋雖然仍能相容於 GeForce GTX 1080 ,但只會運作於較低的 400MHz 時脈,而全新的「 SLI HB 」接橋則會運作亦 650MHz 時脈,令傳輸速度提升 33%

    NVIDIA 指出,舊有的 Single Link SLI 介面加上較低速的 400MHz ,受限於頻寬問題,解析度超出 2560 x 1440 @ 60Hz 時將會出現性能瓶頸,經改良的 Dual Link SLI 介面並運作於 650MHz ,能夠提供足夠頻寬支援 2560 x 1400 @ 120Hz+ 5K SURROUND 遊戲顯示輸出。

    此外, NVIDIA 不再建議用家使用超過兩張繪圖卡進行 SLI 協同加速,但仍然會為追求極限的超頻玩家提供 3 Ways 4 Ways SLI 模式,超頻玩家必需要前往 NVIDIA Enthusiast Key 網站下載一個多 GPU SLI 啟動程式,該程式會為超頻玩家的 GPU 生成一個簽名字串,把該字串輸入至 NVIDIA Enthusiast Key 網絡就能生成一個簽名檔,用家就能啟動 3 Ways 4 Ways SLI 功能了。

    效能比拼︰

    在測試 GeForece GTX 1080 效能的同時,編輯部亦找來了上代同級 GeForce GTX 980 、上代頂級 GeForce GTX Titan X 及對手現有頂級 AMD Radeon R9 Fury X 進行對比測試,以了解新一代 NVIDIA GeForce GTX 1080 的效能水平,包括了 3DMark 及多款實際 3D 遊戲的性能測試。

    3DMark

    FireStrikeFireStrikeExtremeFireStrikeUltraGeForce GTX1080GeForce GTX980GeForce GTXTitan XRadeon R9Fury X05,00010,00015,00020,000

    A

    FireStrike

    FireStrike Extreme

    FireStrike Ultra

    GeForce GTX 1080

    16705

    9281

    4975

    GeForce GTX 980

    11523

    5812

    3036

    GeForce GTX Titan X

    14892

    7601

    4012

    Radeon R9 Fury X

    13613

    6542

    3512

    3DMark 作為最廣泛的 3D 性能基準測試,性能對比結果當然不可缺少,憑著全新 Pascal GPU 微架構的改良,再加上 16nm FinFET 制程帶來的時脈提升幅度,雖然 CUDA Core 數目上較少,但全新 GeForce GTX 1080 依然力壓 GeForce GTX Titan X ,性能大約高出約 20% ,相較上代同級 GeForce GTX 980 更高出約 70%

    Call of Duty: Black Ops 3

    2560x14403840x2160GeForce GTX1080GeForce GTX980GeForce GTXTitan XRadeon R9Fury X0306090120

    A

    2560×1440

    3840×2160

    GeForce GTX 1080

    101.6

    47.1

    GeForce GTX 980

    56.4

    25.7

    GeForce GTX Titan X

    78.2

    38.2

    Radeon R9 Fury X

    60.4

    29.5

    Crysis 3

    2560x14403840x2160GeForce GTX1080GeForce GTX980GeForce GTXTitan XRadeon R9Fury X015304560

    A

    2560×1440

    3840×2160

    GeForce GTX 1080

    45.7

    23.6

    GeForce GTX 980

    26.1

    13.7

    GeForce GTX Titan X

    35.2

    19.2

    Radeon R9 Fury X

    29.7

    14.6

    Fallout 4

    2560x14403840x2160GeForce GTX1080GeForce GTX980GeForce GTXTitan XRadeon R9Fury X0255075100

    A

    2560×1440

    3840×2160

    GeForce GTX 1080

    92.6

    49.2

    GeForce GTX 980

    69.4

    31.7

    GeForce GTX Titan X

    81.3

    42.2

    Radeon R9 Fury X

    73.1

    34.6

    Grand Theft Auto V

    2560x14403840x2160GeForce GTX1080GeForce GTX980GeForce GTXTitan XRadeon R9Fury X020406080GeForce GTX 10802560×1440:69.4

    A

    2560×1440

    3840×2160

    GeForce GTX 1080

    69.4

    35.8

    GeForce GTX 980

    42.7

    20.6

    GeForce GTX Titan X

    52.4

    27.3

    Radeon R9 Fury X

    44.1

    19.1

    Hitman DX12

    2560x14403840x2160GeForce GTX1080GeForce GTX980GeForce GTXTitan XRadeon R9Fury X0255075100

    A

    2560×1440

    3840×2160

    GeForce GTX 1080

    78.4

    46.5

    GeForce GTX 980

    46.1

    25.1

    GeForce GTX Titan X

    58.2

    33.9

    Radeon R9 Fury X

    53.5

    28.3

    Unigine Heaven 4.0

    2560x14403840x2160GeForce GTX1080GeForce GTX980GeForce GTXTitan XRadeon R9Fury X0255075100GeForce GTX 10802560×1440:89.6

    A

    2560×1440

    3840×2160

    GeForce GTX 1080

    89.6

    36.4

    GeForce GTX 980

    53.4

    21.2

    GeForce GTX Titan X

    74.2

    29.1

    Radeon R9 Fury X

    66.1

    22.9

    遊戲效能水平亦是今次測試的重點之一,今次測試過程裡面挑選了  6 款不同的遊戲或遊戲引擎,當中包括近 Call of Duty: Black Ops 3  Crysis 3 Fallout 4 GTA V Hitman DX12 Unigine Heaven 4.0 等,全部遊戲都會設定成  2560 x 1440 3840 x 2160  解析度,特效方面亦會推至最高設定,以測試繪圖卡的最大運算能力。

    NVIDIA GeForce GTX 1080 雖然在 CUDA Cores 數目上,相較於上代頂級型號 GeForce GTX Titan X 更少,但憑著微架構層面的改良,加上制程進步令核心時脈得以大幅提升,性能出現壓倒性優勢,更不要提對手 AMD 至今仍然無力還撃,繪圖卡市場現時出現接近壟斷情況, AMD 繪圖卡無人問津, GeForce GTX 1080 根本是毫無對手,如果你要一張高階繪圖卡打機,現時你根本找不到代替品可言。

    Source : http://www.hkepc.com/14024/

    Recent Articles

    spot_img

    Related Stories

    Stay on op - Ge the daily news in your inbox