代號 Alder Lake、Intel 12 代 Core 處理器架構分析

Back-End 與記憶體子系統

不過在 Back-End 執行端口設計方面，Golden Cove 的執行端口仍然以 Unified Reservation Station 設計，沒有像 AMD Zen 3 中將 INT 整數及 FP 淨點運算群獨立分開，雖然共用流水線及執行端口能減少電晶體的數量，但 SMT 同步多線程運算性能會有所降低，所以 Intel 在後端設計中，未來還有改良的空間。

Back-End 方面，Golden Cove 的 Unified Reservation Station 增加了 Port 10 端口，令執行 Integer Execution 整數運算的端口由 4 個增至 5 個，Port 10 端口具有 ALU 運算和 LEA 儲存指令，這令 Golden Cove 成為所有 x86 微架構中原始 ALU 吞吐量最高的核心。而 Golden Cove 的 5 個 LEA 單元都是可以在單一週期內完成，可應用在加法、減法和固定數字的快速乘法，相較 Tiger Lake 的 Willow Cove 部份指令要 2 個週期才能完成，性能明顯大幅提升。

在浮點運算方面，Golden Cove 在 Port 01 與 Port 05 的端口增加了 FADD 單元，處理 FADD 指令時相較使用 FMA 單元性能更高且延遲更低，同時針對 FMA 單元亦作出了強化，新增 FP16 指令支援令低精度運算加速，不過這是 AVX-512 指令集的功能，如未能使用 AVX-512 的情況下，是不會使用到它的。

Load / Store 單元方面，Golden Cove 新增了 Port 11 並增加了 1 個 256bit 的 Load 加載單元，將每個週期的加載數量由上代 Willow Cove 的 2 個 512bit 資料，提升至 3 個 256bit 或 2 個 512bit 資料，追數量上追上了 AMD Zen 3 微架構。

在 L1 Data TLB 由 64 增至 96 Entries，L1 Data Cache 由 12 個增至 16 個 Fill Buffers，並且改良了 L1 Data Cache 強取器的性能，由上代的 2 頁增至 4 頁面，讓 TLB 未命中時可以速查找更多頁面的資料。更寬的 Cache Subsystem 結構與更佳的資料預取，盡量填充 Execute Engine 減低閒置及延遲。

而在 L2 Cache 方面，Golden Cove 的 L2 Cache 則沿用了 Willow Cove 的設計，每個核心具備 1.25MB L2 Cache、非包含式設計。增加了平行數據訪問未完成請求數量由 32 條增至 48 條，同時 L2 Cache 的預取單元亦作出了改良，避免要完全覆寫相同的資燉至 Cache Line 之中，從而降低 Prefetch Throtting 問題使緩存性能有所提升。

Recent Articles

Fix MacPro 2013 incompatibility of Chromium Browser

Windows 11 25H2 Installation bypass Microsoft Account

Install Windows 10/11 without Microsoft Account

可搭16臺E3.S SSD與4張GPU卡，Dell推2U2路Xeon 6伺服器

【AI直連儲存加速時代來臨】GPUDirect Storage產品生態總覽

Related Stories

Stay on op - Ge the daily news in your inbox