欧美涩涩

2021英特爾架構日，英特爾公司高級副總裁，加速計算系統與圖形事業部總經理Raja Koduri攜手幾位英特爾架構師，全面介紹兩款全新x86內核架構的細節，英特爾首款性能混合架構，代號阿爾德萊克爾多，和智能英特爾注冊，硬件線程調度器，專為數據中心設計的下一代英特爾reg至強注冊，可擴展處理器藍寶石急流，基礎設施處理器，即將推出的顯卡架構包括Xe HPG微架構和Xe HPC微架構，煉金術士SoC，龐特Vecchio SoC。

這些新架構將為即將推出的高性能產品注入動力，為英特爾下一個創新時代奠定基礎，從而滿足全球對高計算能力日益增長的需求。

Raja Koduri強調了架構改進滿足這一需求的重要性:架構是硬件和軟件的現狀，煉金術它結合了特定計算引擎所需的先進晶體管，通過領先的封裝技術將它們連接起來，集成了高帶寬和低功耗緩存，并為封裝中的混合計算集群提供了高容量，高帶寬內存和低延遲的可擴展互連，同時確保了所有軟件的無縫加速伴隨著從桌面到數據中心的工作負載變得比以往任何時候都更加密集，復雜和多樣化，今年宣布的這些新突破也表明了該架構將如何滿足對更高計算性能的迫切需求

X86內核

能效核心

全新的英特爾高能效核心微架構，曾經代號Gracemont，旨在面對當今的多任務場景，提高吞吐量效率并提供可擴展的多線程性能這種高能效的x86微體系結構在有限的硅空間內實現了多核任務加載，頻率范圍廣該架構旨在通過低壓節能內核降低整體功耗，并為更高頻率的操作提供功率熱空間這也允許高能效核心提高其性能，以滿足更動態的任務負載

高能效內核可以利用各種技術進步，在不消耗處理器功率的情況下確定工作負載的優先級，并通過每周期指令數改進功能直接提高性能，包括:

公牛，具有5000個條目的分支目標緩沖區支持更精確的分支預測

公牛，64KB指令高速緩存，在不消耗內存子系統功率的情況下保存可用指令

公牛，英特爾首款按需指令長度解碼器可以生成預解碼信息

公牛，英特爾的集群無序執行解碼器在保持能效的同時，每個周期最多可解碼6條指令

公牛，寬后端有五組五寬分配和八組寬度撤回，256個無序窗口條目和17個執行端口

公牛，支持英特爾注冊，控制流實施技術和英特爾注冊，虛擬化技術重定向保護等功能

公牛，實現了支持整數人工智能運算的AVX指令集和新擴展

與英特爾最具生產力的CPU核心Skylake相比，在單線程性能下，高能效核心可以在相同功耗下實現40%的性能提升，或者在不到40%的功耗下提供相同的性能1 .與運行四個線程的兩個Skylake核心相比，四個高能效核心提供的吞吐性能可以在更低功耗的情況下同時提升80%的性能，在提供相同吞吐性能的情況下降低80%的功耗。一個

性能核心

英特爾全新的高性能核心微體系結構，曾經代號為黃金封面，旨在提高速度并突破低延遲和單線程應用程序性能的限制工作負載的代碼量不斷增加，這就需要更強的執行能力伴隨著數據帶寬需求的增加，數據集也在大幅增加英特爾新的性能核心微體系結構帶來了顯著的增長，同時更好地支持大代碼量的應用

性能核心具有更廣泛，更深入和更智能的體系結構:

公牛，更寬:解碼器從4增加到6，6微，Op緩存增加到8微米，Op，分配從5增加到6，執行端口從10增加到12

公牛，更深:更大的物理寄存器文件，512個條目的重新排序緩沖區

公牛，更智能:提高了分支預測的準確性，減少了有效的一級延遲，二級全寫pred

性能核心是英特爾有史以來構建的最高性能CPU核心，它通過以下功能突破了低延遲和單線程應用性能的限制:

公牛，與目前的第11代英特爾reg相比，核心貿易，處理器架構在一般性能1的ISO頻率下，對各種工作負載實現了約19%的平均改進

公牛，顯示更高的并行度和執行并行度的增加

公牛，配備英特爾注冊表，高級矩形擴展，內置下一代AI加速技術，用于學習推理和訓練。AMX包括專用硬件和新的指令集架構，以顯著改善矩陣乘法

公牛，減少時間延遲，并為具有大數據和大代碼量的應用程序提供更好的支持

客戶

阿爾德湖客戶端SoC

代號阿爾德萊克爾多，英特爾下一代客戶端架構是英特爾首款性能混合架構，首次集成了兩種核心類型:性能核心和能效核心，為所有工作負載類型帶來顯著的性能提升阿爾德湖基于英特爾7進程技術，支持最新內存和最快I/O

阿爾德湖將提供驚人的性能，支持從超便攜筆記本到發燒友再到商用臺式機的所有客戶端設備。它采用單一，高度可擴展的SoC架構，并提供三種產品設計

形態:

bull，高性能，雙芯片，插座式的臺式機處理器，具有領先性能和能效。支持高規格的內存和I/O

bull，高性能筆記本處理器，采用BGA 封裝，并加入圖像單元，更大的 Xe 顯卡和Thunderbolt 4 連接

bull，輕薄，低功耗的筆記本處理器，采用高密度的封裝，配置優化的I/O和電能傳輸

構建如此高度可擴展架構的挑戰，我們需要在不影響功率的情況下滿足計算和 I/O 代理對帶寬超乎尋常的需求為了解決這一挑戰，我們設計了三種獨立的內部總線，每一種都采用基于需求的實時啟發式后處理方式

bull，計算內部總線可支持高達1000GBpsmdash，mdash，即每個內核或每集群100GBps，通過最后一級緩存將內核和顯卡連接到內存

o具有高動態頻率范圍，并且能夠動態選擇數據路徑，根據實際總線結構負載而進行時延和帶寬優化

o根據利用率動態調整最后一級緩存策略mdash，mdash，也就是，包含，或，不包含，

bull，I/O內部總線支持可高達64 GBps，連接不同類型的I/O和內部設備，能在不干擾設備正常運行的情況下無縫改變速度，選擇內部總線速度來匹配所需的數據傳輸量

bull，內存結構可提供高達204 GBps的數據，并動態擴展其總線寬度和速度，以支持高帶寬，低時延或低功耗的多個操作點

英特爾硬件線程調度器

為使性能核和能效核與操作系統無縫協作，英特爾開發了一種改進的調度技術，稱之為，英特爾硬件線程調度器，硬件線程調度器直接內置于硬件中，可提供對內核狀態和線程指令混合比的低級遙測，讓操作系統能夠在恰當的時間將合適的線程放置在合適的內核上硬件線程調度器具有動態性和自適應性mdash，mdash，它會根據實時的計算需求調整調度決策mdash，mdash，而非一種簡單的，基于規則的靜態方法

傳統意義上，操作系統會根據有限的可用數據做出決策，如前臺和后臺任務。硬件線程調度器可通過以下方式增加新維度:

bull，使用硬件遙測工具將需要更高性能的線程引導到當時適合的性能核上

bull，更精細地監控指令組合，每內核當前狀態以及相關的微架構遙測，從而幫助操作系統做出更智能的調度決策

bull，通過與微軟合作，優化英特爾硬件線程調度器在Windows11上的極佳性能

bull，擴展PowerThrottling API，使得開發人員能夠為其線程明確指定服務質量屬性

bull，應用全新EcoQoS分類，該分類可讓調度程序獲悉線程是否更傾向于能效

Xe HPG微架構和Alchemist SoC

Xe HPG是一款全新的獨立顯卡微架構，專為游戲和創作工作負載提供發燒級的高性能Xe HPG微架構為Alchemist系列SoC提供動力，首批相關產品將于2022年第一季度上市，并采用新的品牌名mdash，mdash，英特爾銳炫trade， Xe HPG微架構采用全新的Xe內核，是一款聚焦計算，可編程且可擴展的元件

客戶端顯卡路線圖包括 Alchemist，Battlemage，Celestial和Druid SoC在演講中，英特爾展示了微架構細節，并分享了在試產階段的Alchemist SoC上運行的演示視頻，包括真實游戲展示，虛幻引擎5測試良好，全新的基于神經網絡的超取樣技術XeSS等

基于Xe HPG微架構的Alchemist SoC能夠提供出色的可擴展性和計算效率，并擁有以下關鍵架構特征:

bull，多達8個具有固定功能的渲染切片，專為DirectX 12 Ultimate設計

bull，全新Xe內核，擁有16個矢量引擎和16個矩陣引擎，高速緩存和共享內部顯存

bull，支持DirectX Raytracing和Vulkan Ray Tracing的新光線追蹤單元

bull，通過架構，邏輯設計，電路設計，制程工藝技術和軟件優化，相比Xe LP微架構實現1.5倍的頻率提升和1.5倍的每瓦性能提升1

bull，使用臺積電的N6制程節點上進行制造

英特爾顯卡設計的核心是軟件優先:

bull，我們正與開發人員密切合作進行Xe微架構的設計，力求與行業標準保持一致

bull，通過在一個統一的代碼庫中涵蓋集成和獨立顯卡產品的驅動設計，英特爾的第一款高性能游戲顯卡將性能和質量放在首位

bull，英特爾已完成了內核顯卡驅動程序組件的重新架構，特別是內存管理器和編譯器，從而使計算密集型游戲的吞吐量提高了15% ，游戲加載時間縮短了25%

XeSS

XeSS 利用Alchemist的內置XMX AI加速，帶來了一種可實現高性能和高保真視覺的全新升頻技術其使用深度學習來合成非常接近原生高分辨率渲染質量的圖像憑借XeSS ，那些只能在低畫質設置或低分辨率下玩的游戲也能在更高畫質設置和分辨率下順利運行

bull，XeSS的工作原理是通過從相鄰像素，以及對前一幀進行運動補償，來重建子像素細節

bull，重構由經過訓練的神經網絡執行，可提供高性能和高畫質，同時性能提升高達兩倍1

bull，XeSS憑借DP4a指令，在包括集成顯卡在內的各種硬件上提供基于AI的超級采樣

bull，多家早期的游戲開發商已開始使用XeSS，本月將向獨立軟件供應商提供XMX初始版本的SDK，DP4a版本將于今年晚些時候推出

數據中心

下一代英特爾至強可擴展處理器

Sapphire Rapids代表了業界在數據中心平臺上的一大進步該處理器可在不斷變化且要求日益增高的數據中心使用中提供可觀的計算性能，并對工作負載進行優化，以在云，微服務和AI等彈性計算模型上提供高性能

Sapphire Rapids的核心是一個分區塊，模塊化的SoC架構，采用英特爾的嵌入式多芯片互連橋接封裝技術，在保持單晶片CPU接口優勢的同時，具有顯著的可擴展性Sapphire Rapids提供了一個單一，平衡的統一內存訪問架構，每個線程均可完全訪問緩存，內存和I/O等所有單元上的全部資源，由此實現整個SoC具有一致的低時延和高橫向帶寬

Sapphire Rapids基于Intel 7制程工藝技術，采用英特爾全新的性能核微架構，該架構旨在提高速度，突破低時延和單線程應用性能的極限。

Sapphire Rapids提供業界廣泛的數據中心相關加速器，包括新的指令集架構和集成IP，以在各種客戶工作負載和使用中提升性能。新的內置加速器引擎包括:

bull，英特爾reg，加速器接口架構指令集mdash，mdash，支持對加速器和設備的有效調度，同步和信號傳遞

bull，英特爾reg，高級矩陣擴展mdash，mdash，Sapphire Rapids中引入的新加速引擎，可為深度學習算法核心的Tensor處理提供大幅加速其可以在每個周期內進行2000次 INT8運算和1000次 BFP16運算，實現計算能力的大幅提升

bull，英特爾reg，數據流加速器mdash，mdash，旨在卸載最常見的數據移動任務，這些任務會導致數據中心規模部署中的開銷。英特爾DSA改進了對這些開銷任務的處理，以提供更高的整體工作負載性能，并可以在CPU，內存和緩存以及所有附加的內存，存儲和網絡設備之間移動數據

這些架構上的改進使Sapphire Rapids能夠為云，數據中心，網絡和智能邊緣中廣泛的工作負載和部署模式提供開箱即用的性能該處理器旨在通過先進的內存和下一代I/O，包括PCIe 5.0，CXL 1.1，DDR5和HBM技術，來推動行業技術轉型

基礎設施處理器

IPU是一種可編程的網絡設備，旨在使云和通信服務提供商減少在中央處理器方面的開銷，并充分釋放性能價值。

英特爾基于IPU的架構有以下主要優勢:

bull，基礎設施功能和客戶工作負載的強分離使客戶能夠完全控制CPU

bull，云運營商可以將基礎設施任務卸載到IPU上，更大化實現CPU利用率和收益

bull，IPU可以管理存儲流量，減少時延，同時通過無磁盤服務器架構有效利用存儲容量。借助IPU，客戶可以通過一個安全，可編程，穩定的解決方案更好地利用資源，使其能夠平衡處理與存儲

英特爾認識到，單一產品無法滿足所有需求，，因此對其IPU架構進行了更深入的研究，并推出了以下IPU家族的新成員mdash，mdash，均為應對多樣化數據中心的復雜性而設計。

Mount Evans是英特爾的首個ASIC IPUMount Evans是與一家一流云服務提供商共同設計和開發的，它融合了多代FPGA SmartNIC的經驗

bull，超大規模就緒，提供高性能網絡和存儲虛擬化卸載，同時保持高度控制

bull，提供業界一流的可編程數據包處理引擎，支持防火墻和虛擬路由等用例

bull，使用硬件加速的NVMe存儲接口，該接口擴展自英特爾傲騰技術，以模擬NVMe設備

bull，采用英特爾reg，高性能Quick Assist技術，部署高級加密和壓縮加速

bull，可使用現有普遍部署的DPDK，SPDK等軟件環境進行編程，并且可以采用英特爾Barefoot Switch部門開創的P4編程語言來配置管線

Oak Springs Canyon是一個IPU參考平臺，基于英特爾reg，至強 D 處理器和擁有業界領先的功率，效率，性能的英特爾reg， Agilextrade， FPGA構建:

bull，卸載Open Virtual Switch等網絡虛擬化功能以及NVMe over Fabric和 RoCE v2等存儲功能，并提供硬化的加密模塊，提供更安全，高速的2x 100Gb以太網網絡接口

bull，讓英特爾的合作伙伴和客戶能夠使用英特爾reg，開放式FPGA開發堆棧定制其解決方案，這是一款可擴展，開源軟件和硬件基礎設施

bull，使用現有普遍部署的軟件環境進行編程，包括已在x86上優化的DPDK和SPDK

英特爾N6000加速開發平臺，代號為，Arrow Creek，，是專為搭載至強服務器設計的SmartNIC。其特性包括:

bull，在功耗，效率和性能方面處于行業領先地位的英特爾Agilex FPGA。用于高性能的100GB網絡加速的英特爾以太網800系列控制器

bull，支持多種基礎設施工作負載，使通信服務提供商能夠提供靈活的加速工作負載，如Juniper Contrail，OVS和SRv6，它以英特爾PAC—N3000的成功為基礎，該產品已在部分業界一流的CoSP中部署。

Xe HPC和Ponte Vecchio

Ponte Vecchio基于Xe HPC微架構，提供業界領先的每秒浮點運算次數和計算密度，以加速AI，HPC和高級分析工作負載英特爾公布了Xe HPC微架構的IP模塊信息，包括每個Xe核的8個矢量和矩陣引擎，切片和堆棧信息，以及包括計算，基礎和Xe Link單元的處理節點的單元信息在架構日上，英特爾表示，早期的 Ponte Vecchio 芯片展示了領先的性能，在流行的 AI 基準測試中創造了推理和訓練吞吐量的行業記錄1英特爾A0芯片性能提供了高于45 TFLOPS的FP32吞吐量，高于5 TBps的內存結構帶寬，以及高于2 TBps的連接帶寬同時，英特爾分享了一段演示視頻，展示了ResNet推理性能超過43，000張圖像/秒和超過每秒3400張圖像/秒的ResNet訓練，并且這兩項性能都有望實現行業領先

Ponte Vecchio由多個復雜的設計組成，這些設計以單元形式呈現，然后通過嵌入式多芯片互連橋接單元進行組裝，實現單元之間的低功耗，高速連接這些設計均被集成于Foveros封裝中，為提高功率和互連密度形成有源芯片的3D堆疊高速MDFI互連允許1到2個堆棧的擴展

計算單元是一個密集的多個Xe內核，是Ponte Vecchio的核心。

bull，一塊單元有8個Xe內核，總共有4MB一級緩存，是提供高效計算的關鍵

bull，基于臺積電先進的N5制程工藝技術

bull，英特爾已通過設計基礎設施設置和工具流程以及方法，為測試和驗證該節點的單元鋪平了道路

bull，該單元具有極其緊湊的36微米凸點間距，可與Foveros進行3D堆疊

基礎單元是Ponte Vecchio的連接組織它是基于Intel 7制程工藝的大型芯片，針對Foveros技術進行了優化

bull，基礎單元是所有復雜的 I/O 和高帶寬組件與 SoC 基礎設施mdash，mdash，PCIe Gen5，HBM2e 內存，連接不同單元MDFI鏈路和 EMIB橋接

bull，采用高2D互連的超高帶寬3D連接時延很低，使其成為一臺無限連接的機器

bull，英特爾技術開發團隊致力于滿足帶寬，凸點間距和信號完整性方面的要求

Xe 鏈路單元提供了GPU之間的連接，支持每單元8個鏈路。

bull，對HPC和AI計算的擴展至關重要

bull，旨在實現支持高達90G的更高速SerDes

bull，該單元已被添加到，極光，百億億次級超級計算機的擴展解決方案中

Ponte Vecchio已走下生產線進行上電驗證，并已開始向客戶提供限量樣品Ponte Vecchio預計將于2022年面向HPC和AI市場發布

oneAPI

oneAPI提供了一個開放，規范，跨架構和跨廠商的統一軟件棧，讓開發者能夠擺脫專有語言和編程模型的束縛目前，NVIDIA GPU，AMD GPU和Arm CPU均有Data Parallel C++和oneAPI庫oneAPI正在被獨立軟件提供商，操作系統供應商，終端用戶和學術界廣泛采用行業領導者正在協助發展該規范，以支持更多的用例和架構同時，英特爾還提供了商業產品，包括基本的oneAPI基礎工具包，它在規范語言和庫之外增加了編譯器，分析器，調試器和移植工具

oneAPI提供跨架構的兼容性，提高了開發人員的生產力和創新能力:

bull，英特爾的oneAPI工具包擁有超過20萬次單獨安裝

bull，市場上部署的300多個應用程序采用了 oneAPI的統一編程模型

bull，超過80個HPC和AI應用程序使用英特爾oneAPI工具包在Xe HPC微架構上運行

鄭重聲明：此文內容為本網站轉載企業宣傳資訊，目的在于傳播更多信息，與本站立場無關。僅供讀者參考，并請自行核實相關內容。

上一篇：法拉利再推一對一定制車型，預計會經歷很多變化

下一篇：最后一頁

欄目排行