欧美涩涩

英特爾首款性能混合架構，代號Alder Lake，智能英特爾硬件線程調(diào)度器，藍寶石急流，專為數(shù)據(jù)中心設計的下一代英特爾至強可擴展處理器，基礎設施處理器，即將推出的顯卡架構包括XeHPG微架構和XeHPC微架構，Alchemist SoC和Ponte Vecchio SoC。

X86內(nèi)核

能效核心

全新英特爾能效核心微體系結(jié)構，以前代號為格雷斯蒙特。高能效內(nèi)核可以利用各種技術進步，在不消耗處理器功率的情況下確定工作負載的優(yōu)先級，并通過每周期指令數(shù)改進功能直接提高性能，包括:

具有5000個條目的分支目標緩沖區(qū)支持更精確的分支預測

64KB指令高速緩存，在不消耗內(nèi)存子系統(tǒng)功率的情況下保存可用指令

英特爾首款按需指令長度解碼器可以生成預解碼信息

英特爾的集群無序執(zhí)行解碼器在保持能效的同時，每個周期最多可解碼6條指令

寬后端有五組五寬分配和八組寬度撤回，256個無序窗口條目和17個執(zhí)行端口

支持英特爾控制流執(zhí)行技術和英特爾虛擬化技術重定向保護等功能

實現(xiàn)了支持整數(shù)人工智能運算的AVX指令集和新擴展

與英特爾最具生產(chǎn)力的CPU核心Skylake相比，在單線程性能下，高能效核心可以在相同功耗下實現(xiàn)40%的性能提升，或者以不到40%的功耗提供相同的性能與兩個運行四個線程的Skylake內(nèi)核相比，四個高能效內(nèi)核提供的吞吐性能可以以更低的功耗同時提升80%的性能，在提供相同吞吐性能的情況下，功耗降低80%

性能核心

英特爾新的性能核心微體系結(jié)構，曾被代號為黃金灣。性能核心具有更廣泛，更深入和更智能的體系結(jié)構:

更寬:解碼器從4增加到6，6Op緩存增加到8

更深:更大的物理寄存器文件，512個條目的重新排序緩沖區(qū)

更智能:提高分支預測的準確性，降低有效一級延遲，優(yōu)化二級全寫預測帶寬

性能核心是英特爾有史以來構建的最高性能CPU核心，它通過以下功能突破了低延遲和單線程應用性能的限制:

與當前的第11代英特爾酷睿處理器架構相比，在通用性能的ISO頻率下，它在各種工作負載下實現(xiàn)了約19%的平均改進

顯示更高的并行度和執(zhí)行并行度的增加

配備英特爾高級矩形擴展，內(nèi)置下一代AI加速技術，用于學習推理和訓練。AMX包括專用硬件和新的指令集架構，以顯著改善矩陣乘法

減少時間延遲，并為具有大數(shù)據(jù)和大代碼量的應用程序提供更好的支持

客戶

阿爾德湖客戶端SoC

英特爾下一代客戶端架構代號為Alder Lake，是英特爾首款性能混合架構，首次集成了性能核心和能效核心兩種核心類型阿爾德湖基于英特爾7進程技術，支持最新內(nèi)存和最快I/O

阿爾德湖支持所有客戶端設備，從超便攜筆記本到發(fā)燒友再到商用臺式機。它采用單一且高度可擴展的SoC架構，并提供三種類型的產(chǎn)品設計形式:

高性能，雙芯片，插座式臺式機處理器，具有領先的性能和能效支持高規(guī)格內(nèi)存和I/O

高性能筆記本處理器，BGA封裝，并增加影像單元，更大的Xe顯卡和Thunderbolt 4連接

輕薄低功耗筆記本處理器，采用高密度封裝，優(yōu)化了輸入/輸出和功率傳輸

英特爾需要在不影響功耗的情況下滿足計算和運算的要求

I/O 代理對帶寬的需求為了解決這一挑戰(zhàn)，英特爾設計了三種獨立的內(nèi)部總線，每一種都采用基于需求的實時啟發(fā)式后處理方式

。計算內(nèi)部總線可支持高達 1000GBps—— 即每個內(nèi)核或每集群 100GBps，通過最后一級緩存將內(nèi)核和顯卡連接到內(nèi)存

具有高動態(tài)頻率范圍，并且能夠動態(tài)選擇數(shù)據(jù)路徑，根據(jù)實際總線結(jié)構負載而進行時延和帶寬優(yōu)化
根據(jù)利用率動態(tài)調(diào)整最后一級緩存策略 —— 也就是包含或不包含

。I/O 內(nèi)部總線支持可高達 64GBps，連接不同類型的 I/O 和內(nèi)部設備，能在不干擾設備正常運行的情況下無縫改變速度，選擇內(nèi)部總線速度來匹配所需的數(shù)據(jù)傳輸量

。內(nèi)存結(jié)構可提供高達 204GBps 的數(shù)據(jù)，并動態(tài)擴展其總線寬度和速度，以支持高帶寬，低時延或低功耗的多個操作點

英特爾硬件線程調(diào)度器

為使性能核和能效核與操作系統(tǒng)無縫協(xié)作，英特爾開發(fā)了一種改進的調(diào)度技術，稱之為英特爾硬件線程調(diào)度器硬件線程調(diào)度器直接內(nèi)置于硬件中，可提供對內(nèi)核狀態(tài)和線程指令混合比的低級遙測，讓操作系統(tǒng)能夠在恰當?shù)臅r間將合適的線程放置在合適的內(nèi)核上硬件線程調(diào)度器具有動態(tài)性和自適應性 —— 它會根據(jù)實時的計算需求調(diào)整調(diào)度決策 —— 而非一種簡單的，基于規(guī)則的靜態(tài)方法

傳統(tǒng)意義上，操作系統(tǒng)會根據(jù)有限的可用數(shù)據(jù)做出決策，如前臺和后臺任務。硬件線程調(diào)度器可通過以下方式增加新維度:

使用硬件遙測工具將需要更高性能的線程引導到當時適合的性能核上
更精細地監(jiān)控指令組合，每內(nèi)核當前狀態(tài)以及相關的微架構遙測，從而幫助操作系統(tǒng)做出更智能的調(diào)度決策
通過與微軟合作，優(yōu)化英特爾硬件線程調(diào)度器在 Windows11 上的性能
擴展 PowerThrottling API，使得開發(fā)人員能夠為其線程明確指定服務質(zhì)量屬性
應用全新 EcoQoS 分類，該分類可讓調(diào)度程序獲悉線程是否更傾向于能效

XeHPG 微架構和 Alchemist SoC

XeHPG 是一款全新的獨立顯卡微架構XeHPG 微架構為 Alchemist 系列 SoC 提供動力，首批相關產(chǎn)品將于 2022 年第一季度上市，并采用新的品牌名 —— 英特爾銳炫XeHPG 微架構采用全新的 Xe 內(nèi)核，是一款聚焦計算，可編程且可擴展的元件

客戶端顯卡路線圖包括 Alchemist，Battlemage，Celestial 和 Druid SoC在演講中，英特爾展示了微架構細節(jié)，并分享了在試產(chǎn)階段的 Alchemist SoC 上運行的演示視頻，包括真實游戲展示，虛幻引擎 5 測試良好，全新的基于神經(jīng)網(wǎng)絡的超取樣技術 XeSS 等

基于 XeHPG 微架構的 Alchemist SoC 能夠提供可擴展性和計算效率，并擁有以下關鍵架構特征:

多達 8 個具有固定功能的渲染切片，專為 DirectX 12 Ultimate 設計
全新 Xe 內(nèi)核，擁有 16 個矢量引擎和 16 個矩陣引擎，高速緩存和共享內(nèi)部顯存
支持 DirectX Raytracing和 Vulkan Ray Tracing 的新光線追蹤單元
通過架構，邏輯設計，電路設計，制程工藝技術和軟件優(yōu)化，相比 XeLP 微架構實現(xiàn) 1.5 倍的頻率提升和 1.5 倍的每瓦性能提升
使用臺積電的 N6 制程節(jié)點上進行制造

XeSS

XeSS 利用 Alchemist 的內(nèi)置 XMX AI 加速，帶來了一種可實現(xiàn)高性能和高保真視覺的全新升頻技術其使用深度學習來合成接近原生高分辨率渲染質(zhì)量的圖像英特爾表示，憑借 XeSS ，那些只能在低畫質(zhì)設置或低分辨率下玩的游戲也能在更高畫質(zhì)設置和分辨率下順利運行

XeSS 的工作原理是通過從相鄰像素，以及對前一幀進行運動補償，來重建子像素細節(jié)
重構由經(jīng)過訓練的神經(jīng)網(wǎng)絡執(zhí)行，可提供高性能和高畫質(zhì)，同時性能提升高達兩倍
XeSS 憑借 DP4a 指令，在包括集成顯卡在內(nèi)的各種硬件上提供基于 AI 的超級采樣
多家早期的游戲開發(fā)商已開始使用 XeSS，本月將向獨立軟件供應商提供 XMX 初始版本的 SDK，DP4a 版本將于今年晚些時候推出

數(shù)據(jù)中心

下一代英特爾至強可擴展處理器

Sapphire Rapids 的核心是一個分區(qū)塊，模塊化的 SoC 架構，采用英特爾的嵌入式多芯片互連橋接封裝技術，在保持單晶片 CPU 接口優(yōu)勢的同時，具有顯著的可擴展性Sapphire Rapids 提供了一個單一，平衡的統(tǒng)一內(nèi)存訪問架構，每個線程均可完全訪問緩存，內(nèi)存和 I/O 等所有單元上的全部資源，由此實現(xiàn)整個 SoC 具有一致的低時延和高橫向帶寬

Sapphire Rapids 基于 Intel 7 制程工藝技術，采用英特爾全新的性能核微架構。

Sapphire Rapids 提供數(shù)據(jù)中心相關加速器，包括新的指令集架構和集成 IP，以在各種客戶工作負載和使用中提升性能。新的內(nèi)置加速器引擎包括:

英特爾加速器接口架構指令集—— 支持對加速器和設備的有效調(diào)度，同步和信號傳遞
英特爾高級矩陣擴展——Sapphire Rapids 中引入的新加速引擎，可為深度學習算法核心的 Tensor 處理提供大幅加速其可以在每個周期內(nèi)進行 2000 次 INT8 運算和 1000 次 BFP16 運算，實現(xiàn)計算能力的大幅提升
英特爾數(shù)據(jù)流加速器—— 旨在卸載最常見的數(shù)據(jù)移動任務，這些任務會導致數(shù)據(jù)中心規(guī)模部署中的開銷。英特爾 DSA 改進了對這些開銷任務的處理，以提供更高的整體工作負載性能，并可以在 CPU，內(nèi)存和緩存以及所有附加的內(nèi)存，存儲和網(wǎng)絡設備之間移動數(shù)據(jù)

基礎設施處理器

IPU 是一種可編程的網(wǎng)絡設備，旨在使云和通信服務提供商減少在中央處理器方面的開銷英特爾推出了以下 IPU 家族的新成員

Mount Evans 是英特爾的首個 ASIC IPUMount Evans 是與一家云服務提供商共同設計和開發(fā)的

超大規(guī)模就緒，提供高性能網(wǎng)絡和存儲虛擬化卸載，同時保持高度控制
提供業(yè)界一流的可編程數(shù)據(jù)包處理引擎，支持防火墻和虛擬路由等用例
使用硬件加速的 NVMe 存儲接口，該接口擴展自英特爾傲騰技術，以模擬 NVMe 設備
采用英特爾高性能 Quick Assist 技術，部署高級加密和壓縮加速
可使用現(xiàn)有普遍部署的 DPDK，SPDK 等軟件環(huán)境進行編程，并且可以采用英特爾 Barefoot Switch 部門開創(chuàng)的 P4 編程語言來配置管線

Oak Springs Canyon 是一個 IPU 參考平臺，基于英特爾至強 D 處理器和英特爾 Agilex FPGA 構建:

卸載 Open Virtual Switch等網(wǎng)絡虛擬化功能以及 NVMe over Fabric 和 RoCE v2 等存儲功能，并提供硬化的加密模塊，提供 2x 100Gb 以太網(wǎng)網(wǎng)絡接口
能夠使用英特爾開放式 FPGA 開發(fā)堆棧定制其解決方案
使用現(xiàn)有普遍部署的軟件環(huán)境進行編程，包括已在 x86 上優(yōu)化的 DPDK 和 SPDK

IT之家了解到，英特爾 N6000 加速開發(fā)平臺，代號為Arrow Creek，是專為搭載至強服務器設計的 SmartNIC。其特性包括:

英特爾 Agilex FPGA。用于高性能的 100GB 網(wǎng)絡加速的英特爾以太網(wǎng) 800 系列控制器
支持多種基礎設施工作負載，使通信服務提供商能夠提供靈活的加速工作負載，如 Juniper Contrail，OVS 和 SRv6，它以英特爾 PAC—N3000 的成功為基礎

XeHPC 和 Ponte Vecchio

Ponte Vecchio 基于 XeHPC 微架構英特爾公布了 XeHPC 微架構的 IP 模塊信息，包括每個 Xe 核的 8 個矢量和矩陣引擎，切片和堆棧信息，以及包括計算，基礎和 XeLink 單元的處理節(jié)點的單元信息在架構日上，英特爾表示，早期的 Ponte Vecchio 芯片展示了領先的性能，在流行的 AI 基準測試中創(chuàng)造了推理和訓練吞吐量的行業(yè)記錄英特爾 A0 芯片性能提供了高于 45 TFLOPS 的 FP32 吞吐量，高于 5 TBps 的內(nèi)存結(jié)構帶寬，以及高于 2 TBps 的連接帶寬同時，英特爾分享了一段演示視頻，展示了 ResNet 推理性能超過 43，000 張圖像/秒和超過每秒 3400 張圖像/秒的 ResNet 訓練

Ponte Vecchio 由多個復雜的設計組成，這些設計以單元形式呈現(xiàn)，然后通過嵌入式多芯片互連橋接單元進行組裝，實現(xiàn)單元之間的低功耗，高速連接這些設計均被集成于 Foveros 封裝中，為提高功率和互連密度形成有源芯片的 3D 堆疊高速 MDFI 互連允許 1 到 2 個堆棧的擴展

計算單元是一個密集的多個 Xe 內(nèi)核，是 Ponte Vecchio 的核心。

一塊單元有 8 個 Xe 內(nèi)核，總共有 4MB 一級緩存，是提供高效計算的關鍵
基于臺積電先進的 N5 制程工藝技術
英特爾已通過設計基礎設施設置和工具流程以及方法，為測試和驗證該節(jié)點的單元鋪平了道路
該單元具有極其緊湊的 36 微米凸點間距，可與 Foveros 進行 3D 堆疊

基礎單元是 Ponte Vecchio 的連接組織它是基于 Intel 7 制程工藝的大型芯片，針對 Foveros 技術進行了優(yōu)化

基礎單元是所有復雜的 I/O 和高帶寬組件與 SoC 基礎設施 ——PCIe Gen5，HBM2e 內(nèi)存，連接不同單元 MDFI 鏈路和 EMIB 橋接
采用高 2D 互連的超高帶寬 3D 連接時延很低，使其成為一臺無限連接的機器
英特爾技術開發(fā)團隊致力于滿足帶寬，凸點間距和信號完整性方面的要求
Xe 鏈路單元提供了 GPU 之間的連接，支持每單元 8 個鏈路。
對 HPC 和 AI 計算的擴展至關重要
旨在實現(xiàn)支持高達 90G 的更高速 SerDes
該單元已被添加到極光百億億次級超級計算機的擴展解決方案中