一级A片线上/亚洲无人区电影完整版小视频/妻孝(改编版+续)/欧美涩涩

   中國金融網(wǎng) 加入收藏    設為首頁
首頁
國內(nèi)資訊社會財經(jīng)科技教育時尚娛樂房產(chǎn)家居汽車母嬰健康商業(yè)區(qū)塊鏈生活企業(yè)傳媒區(qū)域經(jīng)濟旅游體育
您現(xiàn)在的位置:首頁 > 財經(jīng) > 正文
采用英特爾全新的性能核微架構功耗降低80%
2021-08-20 06:24      來源:IT之家      編輯:葉子琪      閱讀量:10246   

IT之家2021年8月19日在英特爾架構日,英特爾公司高級副總裁,加速計算系統(tǒng)與圖形事業(yè)部總經(jīng)理Raja Koduri和幾位英特爾架構師介紹了兩款全新x86內(nèi)核架構的細節(jié)。

英特爾首款性能混合架構,代號Alder Lake,智能英特爾硬件線程調(diào)度器,藍寶石急流,專為數(shù)據(jù)中心設計的下一代英特爾至強可擴展處理器,基礎設施處理器,即將推出的顯卡架構包括XeHPG微架構和XeHPC微架構,Alchemist SoC和Ponte Vecchio SoC。

X86內(nèi)核

能效核心

全新英特爾能效核心微體系結(jié)構,以前代號為格雷斯蒙特。高能效內(nèi)核可以利用各種技術進步,在不消耗處理器功率的情況下確定工作負載的優(yōu)先級,并通過每周期指令數(shù)改進功能直接提高性能,包括:

具有5000個條目的分支目標緩沖區(qū)支持更精確的分支預測

64KB指令高速緩存,在不消耗內(nèi)存子系統(tǒng)功率的情況下保存可用指令

英特爾首款按需指令長度解碼器可以生成預解碼信息

英特爾的集群無序執(zhí)行解碼器在保持能效的同時,每個周期最多可解碼6條指令

寬后端有五組五寬分配和八組寬度撤回,256個無序窗口條目和17個執(zhí)行端口

支持英特爾控制流執(zhí)行技術和英特爾虛擬化技術重定向保護等功能

實現(xiàn)了支持整數(shù)人工智能運算的AVX指令集和新擴展

與英特爾最具生產(chǎn)力的CPU核心Skylake相比,在單線程性能下,高能效核心可以在相同功耗下實現(xiàn)40%的性能提升,或者以不到40%的功耗提供相同的性能與兩個運行四個線程的Skylake內(nèi)核相比,四個高能效內(nèi)核提供的吞吐性能可以以更低的功耗同時提升80%的性能,在提供相同吞吐性能的情況下,功耗降低80%

性能核心

英特爾新的性能核心微體系結(jié)構,曾被代號為黃金灣。性能核心具有更廣泛,更深入和更智能的體系結(jié)構:

更寬:解碼器從4增加到6,6Op緩存增加到8

更深:更大的物理寄存器文件,512個條目的重新排序緩沖區(qū)

更智能:提高分支預測的準確性,降低有效一級延遲,優(yōu)化二級全寫預測帶寬

性能核心是英特爾有史以來構建的最高性能CPU核心,它通過以下功能突破了低延遲和單線程應用性能的限制:

與當前的第11代英特爾酷睿處理器架構相比,在通用性能的ISO頻率下,它在各種工作負載下實現(xiàn)了約19%的平均改進

顯示更高的并行度和執(zhí)行并行度的增加

配備英特爾高級矩形擴展,內(nèi)置下一代AI加速技術,用于學習推理和訓練。AMX包括專用硬件和新的指令集架構,以顯著改善矩陣乘法

減少時間延遲,并為具有大數(shù)據(jù)和大代碼量的應用程序提供更好的支持

客戶

阿爾德湖客戶端SoC

英特爾下一代客戶端架構代號為Alder Lake,是英特爾首款性能混合架構,首次集成了性能核心和能效核心兩種核心類型阿爾德湖基于英特爾7進程技術,支持最新內(nèi)存和最快I/O

阿爾德湖支持所有客戶端設備,從超便攜筆記本到發(fā)燒友再到商用臺式機。它采用單一且高度可擴展的SoC架構,并提供三種類型的產(chǎn)品設計形式:

高性能,雙芯片,插座式臺式機處理器,具有領先的性能和能效支持高規(guī)格內(nèi)存和I/O

高性能筆記本處理器,BGA封裝,并增加影像單元,更大的Xe顯卡和Thunderbolt 4連接

輕薄低功耗筆記本處理器,采用高密度封裝,優(yōu)化了輸入/輸出和功率傳輸

英特爾需要在不影響功耗的情況下滿足計算和運算的要求

I/O 代理對帶寬的需求為了解決這一挑戰(zhàn),英特爾設計了三種獨立的內(nèi)部總線,每一種都采用基于需求的實時啟發(fā)式后處理方式

。計算內(nèi)部總線可支持高達 1000GBps—— 即每個內(nèi)核或每集群 100GBps,通過最后一級緩存將內(nèi)核和顯卡連接到內(nèi)存

  • 具有高動態(tài)頻率范圍,并且能夠動態(tài)選擇數(shù)據(jù)路徑,根據(jù)實際總線結(jié)構負載而進行時延和帶寬優(yōu)化

  • 根據(jù)利用率動態(tài)調(diào)整最后一級緩存策略 —— 也就是包含或不包含

。I/O 內(nèi)部總線支持可高達 64GBps,連接不同類型的 I/O 和內(nèi)部設備,能在不干擾設備正常運行的情況下無縫改變速度,選擇內(nèi)部總線速度來匹配所需的數(shù)據(jù)傳輸量

。內(nèi)存結(jié)構可提供高達 204GBps 的數(shù)據(jù),并動態(tài)擴展其總線寬度和速度,以支持高帶寬,低時延或低功耗的多個操作點

英特爾硬件線程調(diào)度器

為使性能核和能效核與操作系統(tǒng)無縫協(xié)作,英特爾開發(fā)了一種改進的調(diào)度技術,稱之為英特爾硬件線程調(diào)度器硬件線程調(diào)度器直接內(nèi)置于硬件中,可提供對內(nèi)核狀態(tài)和線程指令混合比的低級遙測,讓操作系統(tǒng)能夠在恰當?shù)臅r間將合適的線程放置在合適的內(nèi)核上硬件線程調(diào)度器具有動態(tài)性和自適應性 —— 它會根據(jù)實時的計算需求調(diào)整調(diào)度決策 —— 而非一種簡單的,基于規(guī)則的靜態(tài)方法

傳統(tǒng)意義上,操作系統(tǒng)會根據(jù)有限的可用數(shù)據(jù)做出決策,如前臺和后臺任務。硬件線程調(diào)度器可通過以下方式增加新維度:

  • 使用硬件遙測工具將需要更高性能的線程引導到當時適合的性能核上

  • 更精細地監(jiān)控指令組合,每內(nèi)核當前狀態(tài)以及相關的微架構遙測,從而幫助操作系統(tǒng)做出更智能的調(diào)度決策

  • 通過與微軟合作,優(yōu)化英特爾硬件線程調(diào)度器在 Windows11 上的性能

  • 擴展 PowerThrottling API,使得開發(fā)人員能夠為其線程明確指定服務質(zhì)量屬性

  • 應用全新 EcoQoS 分類,該分類可讓調(diào)度程序獲悉線程是否更傾向于能效

XeHPG 微架構和 Alchemist SoC

XeHPG 是一款全新的獨立顯卡微架構XeHPG 微架構為 Alchemist 系列 SoC 提供動力,首批相關產(chǎn)品將于 2022 年第一季度上市,并采用新的品牌名 —— 英特爾銳炫XeHPG 微架構采用全新的 Xe 內(nèi)核,是一款聚焦計算,可編程且可擴展的元件

客戶端顯卡路線圖包括 Alchemist,Battlemage,Celestial 和 Druid SoC在演講中,英特爾展示了微架構細節(jié),并分享了在試產(chǎn)階段的 Alchemist SoC 上運行的演示視頻,包括真實游戲展示,虛幻引擎 5 測試良好,全新的基于神經(jīng)網(wǎng)絡的超取樣技術 XeSS 等

基于 XeHPG 微架構的 Alchemist SoC 能夠提供可擴展性和計算效率,并擁有以下關鍵架構特征:

  • 多達 8 個具有固定功能的渲染切片,專為 DirectX 12 Ultimate 設計

  • 全新 Xe 內(nèi)核,擁有 16 個矢量引擎和 16 個矩陣引擎,高速緩存和共享內(nèi)部顯存

  • 支持 DirectX Raytracing和 Vulkan Ray Tracing 的新光線追蹤單元

  • 通過架構,邏輯設計,電路設計,制程工藝技術和軟件優(yōu)化,相比 XeLP 微架構實現(xiàn) 1.5 倍的頻率提升和 1.5 倍的每瓦性能提升

  • 使用臺積電的 N6 制程節(jié)點上進行制造

XeSS

XeSS 利用 Alchemist 的內(nèi)置 XMX AI 加速,帶來了一種可實現(xiàn)高性能和高保真視覺的全新升頻技術其使用深度學習來合成接近原生高分辨率渲染質(zhì)量的圖像英特爾表示,憑借 XeSS ,那些只能在低畫質(zhì)設置或低分辨率下玩的游戲也能在更高畫質(zhì)設置和分辨率下順利運行

  • XeSS 的工作原理是通過從相鄰像素,以及對前一幀進行運動補償,來重建子像素細節(jié)

  • 重構由經(jīng)過訓練的神經(jīng)網(wǎng)絡執(zhí)行,可提供高性能和高畫質(zhì),同時性能提升高達兩倍

  • XeSS 憑借 DP4a 指令,在包括集成顯卡在內(nèi)的各種硬件上提供基于 AI 的超級采樣

  • 多家早期的游戲開發(fā)商已開始使用 XeSS,本月將向獨立軟件供應商提供 XMX 初始版本的 SDK,DP4a 版本將于今年晚些時候推出

數(shù)據(jù)中心

下一代英特爾至強可擴展處理器

Sapphire Rapids 的核心是一個分區(qū)塊,模塊化的 SoC 架構,采用英特爾的嵌入式多芯片互連橋接封裝技術,在保持單晶片 CPU 接口優(yōu)勢的同時,具有顯著的可擴展性Sapphire Rapids 提供了一個單一,平衡的統(tǒng)一內(nèi)存訪問架構,每個線程均可完全訪問緩存,內(nèi)存和 I/O 等所有單元上的全部資源,由此實現(xiàn)整個 SoC 具有一致的低時延和高橫向帶寬

Sapphire Rapids 基于 Intel 7 制程工藝技術,采用英特爾全新的性能核微架構。

Sapphire Rapids 提供數(shù)據(jù)中心相關加速器,包括新的指令集架構和集成 IP,以在各種客戶工作負載和使用中提升性能。新的內(nèi)置加速器引擎包括:

  • 英特爾加速器接口架構指令集—— 支持對加速器和設備的有效調(diào)度,同步和信號傳遞

  • 英特爾高級矩陣擴展——Sapphire Rapids 中引入的新加速引擎,可為深度學習算法核心的 Tensor 處理提供大幅加速其可以在每個周期內(nèi)進行 2000 次 INT8 運算和 1000 次 BFP16 運算,實現(xiàn)計算能力的大幅提升

  • 英特爾數(shù)據(jù)流加速器—— 旨在卸載最常見的數(shù)據(jù)移動任務,這些任務會導致數(shù)據(jù)中心規(guī)模部署中的開銷。英特爾 DSA 改進了對這些開銷任務的處理,以提供更高的整體工作負載性能,并可以在 CPU,內(nèi)存和緩存以及所有附加的內(nèi)存,存儲和網(wǎng)絡設備之間移動數(shù)據(jù)

基礎設施處理器

IPU 是一種可編程的網(wǎng)絡設備,旨在使云和通信服務提供商減少在中央處理器方面的開銷英特爾推出了以下 IPU 家族的新成員

Mount Evans 是英特爾的首個 ASIC IPUMount Evans 是與一家云服務提供商共同設計和開發(fā)的

  • 超大規(guī)模就緒,提供高性能網(wǎng)絡和存儲虛擬化卸載,同時保持高度控制

  • 提供業(yè)界一流的可編程數(shù)據(jù)包處理引擎,支持防火墻和虛擬路由等用例

  • 使用硬件加速的 NVMe 存儲接口,該接口擴展自英特爾傲騰技術,以模擬 NVMe 設備

  • 采用英特爾高性能 Quick Assist 技術,部署高級加密和壓縮加速

  • 可使用現(xiàn)有普遍部署的 DPDK,SPDK 等軟件環(huán)境進行編程,并且可以采用英特爾 Barefoot Switch 部門開創(chuàng)的 P4 編程語言來配置管線

Oak Springs Canyon 是一個 IPU 參考平臺,基于英特爾至強 D 處理器和英特爾 Agilex FPGA 構建:

  • 卸載 Open Virtual Switch等網(wǎng)絡虛擬化功能以及 NVMe over Fabric 和 RoCE v2 等存儲功能,并提供硬化的加密模塊,提供 2x 100Gb 以太網(wǎng)網(wǎng)絡接口

  • 能夠使用英特爾開放式 FPGA 開發(fā)堆棧 定制其解決方案

  • 使用現(xiàn)有普遍部署的軟件環(huán)境進行編程,包括已在 x86 上優(yōu)化的 DPDK 和 SPDK

IT之家了解到,英特爾 N6000 加速開發(fā)平臺,代號為Arrow Creek,是專為搭載至強服務器設計的 SmartNIC。其特性包括:

  • 英特爾 Agilex FPGA。用于高性能的 100GB 網(wǎng)絡加速的英特爾以太網(wǎng) 800 系列控制器

  • 支持多種基礎設施工作負載,使通信服務提供商能夠提供靈活的加速工作負載,如 Juniper Contrail,OVS 和 SRv6,它以英特爾 PAC—N3000 的成功為基礎

XeHPC 和 Ponte Vecchio

Ponte Vecchio 基于 XeHPC 微架構英特爾公布了 XeHPC 微架構的 IP 模塊信息,包括每個 Xe 核的 8 個矢量和矩陣引擎,切片和堆棧信息,以及包括計算,基礎和 XeLink 單元的處理節(jié)點的單元信息在架構日上,英特爾表示,早期的 Ponte Vecchio 芯片展示了領先的性能,在流行的 AI 基準測試中創(chuàng)造了推理和訓練吞吐量的行業(yè)記錄英特爾 A0 芯片性能提供了高于 45 TFLOPS 的 FP32 吞吐量,高于 5 TBps 的內(nèi)存結(jié)構帶寬,以及高于 2 TBps 的連接帶寬同時,英特爾分享了一段演示視頻,展示了 ResNet 推理性能超過 43,000 張圖像/秒和超過每秒 3400 張圖像/秒的 ResNet 訓練

Ponte Vecchio 由多個復雜的設計組成,這些設計以單元形式呈現(xiàn),然后通過嵌入式多芯片互連橋接單元進行組裝,實現(xiàn)單元之間的低功耗,高速連接這些設計均被集成于 Foveros 封裝中,為提高功率和互連密度形成有源芯片的 3D 堆疊高速 MDFI 互連允許 1 到 2 個堆棧的擴展

計算單元是一個密集的多個 Xe 內(nèi)核,是 Ponte Vecchio 的核心。

  • 一塊單元有 8 個 Xe 內(nèi)核,總共有 4MB 一級緩存,是提供高效計算的關鍵

  • 基于臺積電先進的 N5 制程工藝技術

  • 英特爾已通過設計基礎設施設置和工具流程以及方法,為測試和驗證該節(jié)點的單元鋪平了道路

  • 該單元具有極其緊湊的 36 微米凸點間距,可與 Foveros 進行 3D 堆疊

基礎單元是 Ponte Vecchio 的連接組織它是基于 Intel 7 制程工藝的大型芯片,針對 Foveros 技術進行了優(yōu)化

  • 基礎單元是所有復雜的 I/O 和高帶寬組件與 SoC 基礎設施 ——PCIe Gen5,HBM2e 內(nèi)存,連接不同單元 MDFI 鏈路和 EMIB 橋接

  • 采用高 2D 互連的超高帶寬 3D 連接時延很低,使其成為一臺無限連接的機器

  • 英特爾技術開發(fā)團隊致力于滿足帶寬,凸點間距和信號完整性方面的要求

  • Xe 鏈路單元提供了 GPU 之間的連接,支持每單元 8 個鏈路。

  • 對 HPC 和 AI 計算的擴展至關重要

  • 旨在實現(xiàn)支持高達 90G 的更高速 SerDes

  • 該單元已被添加到極光百億億次級超級計算機的擴展解決方案中

Ponte Vecchio 已走下生產(chǎn)線進行上電驗證,并已開始向客戶提供限量樣品Ponte Vecchio 預計將于 2022 年面向 HPC 和 AI 市場發(fā)布

oneAPI

目前,NVIDIA GPU,AMD GPU 和 Arm CPU 均有 Data Parallel C++和 oneAPI 庫同時,英特爾還提供了商業(yè)產(chǎn)品,包括基本的 oneAPI 基礎工具包,它在規(guī)范語言和庫之外增加了編譯器,分析器,調(diào)試器和移植工具

  • 英特爾的 oneAPI 工具包擁有超過 20 萬次單獨安裝

  • 市場上部署的 300 多個應用程序采用了 oneAPI 的統(tǒng)一編程模型

  • 超過 80 個 HPC 和 AI 應用程序使用英特爾 oneAPI 工具包在 Xe HPC 微架構上運行

  • 5 月份發(fā)布的 1.1 版臨時規(guī)范為深度學習工作負載和高級光線追蹤庫添加了新的圖形接口,預計將在年底完成

鄭重聲明:此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)宣傳資訊,目的在于傳播更多信息,與本站立場無關。僅供讀者參考,并請自行核實相關內(nèi)容。

 
上一篇: 2700多萬的崗位要求哪一個適合你
下一篇:最后一頁
 
     欄目排行
  1. 2700多萬的崗位要求哪一個適合你
  2. 恒瑞醫(yī)藥發(fā)布2021年上半年業(yè)績報告
  3. 全國非稅收入18604億元同比增長14.
  4. 同比增長14.09%較2019年同期增長
  5. 1—7月累計印花稅為2630億元同比增長
  6. 專搞新奇的小巨人為何來鍛長板重點細分行業(yè)
  7. 吸引更多人參與潮流運動受眾群體不斷增加
  8. 龐特韋奇奧的第一個重大應用是英特爾為美國
  9. 賦予鄉(xiāng)村振興智慧和賦能讓村民搭上互聯(lián)網(wǎng)致
  10. 農(nóng)發(fā)行嘉祥縣支行:全力推進征信文化建設良
     欄目推薦
二手房“帶押過戶”啟動滿月 成功嘗鮮者寥寥無幾二手房“帶押過戶”啟動滿月 成功嘗鮮者寥寥無幾
2022年營收78.61億,湯臣倍健迎來VDS行業(yè)新2022年營收78.61億,湯臣倍健迎來VDS行業(yè)新周期
大興國際氫能示范區(qū)兼顧產(chǎn)業(yè)發(fā)展和配套服務打造員工理想大興國際氫能示范區(qū)兼顧產(chǎn)業(yè)發(fā)展和配套服務打造員工理想生活藍本
迪麗熱巴穿軍綠色也好美!和吳磊同框絲毫沒有年齡迪麗熱巴穿軍綠色也好美!和吳磊同框絲毫沒有年齡
綠色塞罕壩 不朽的奇跡綠色塞罕壩 不朽的奇跡