在2021年英特尔架构日上,英特尔公司高级副总裁兼加速计算系统和图形事业部总经理Raja Koduri携手多位英特尔架构师,全面介绍了两种全新x86内核架构的详情;英特尔首个性能混合架构,代号“Alder Lake”,以及智能的英特尔®硬件线程调度器;专为数据中心设计的下一代英特尔®至强®可扩展处理器Sapphire Rapids;基础设施处理器(IPU);即将推出的显卡架构,包括Xe HPG微架构和Xe HPC微架构,以及Alchemist SoC, Ponte Vecchio SoC。 这些新架构将为即将推出的高性能产品注入动力,并为英特尔的下一个创新时代奠定基础,以满足世界对高计算能力日益增长的需求。 Raja Koduri强调了架构提升对于满足这一需求的重要性:“架构是硬件和软件的‘炼金术’。它将特定计算引擎所需的先进的晶体管结合在一起,通过领先的封装技术将它们连接,集成高带宽和低功耗缓存,并在封装中为混合计算集群配备高容量、高带宽内存和低时延、可扩展互连,同时确保所有软件无缝加速。随着桌面到数据中心的工作负载变得前所未有的密集、复杂、且多样,今年公布的这些新突破也展示了架构将如何满足对于更高计算性能的迫切需求。” x86内核 能效核 全新的英特尔能效核微架构,曾用代号“Gracemont”,旨在面对当今多任务场景,提高吞吐量效率并提供可扩展多线程性能。此高能效x86微架构在有限的硅片空间实现多核任务负载,并具备宽泛的频率范围。该架构致力通过低电压能效核降低整体功率消耗,为更高频率运行提供功率热空间。这也让能效核提升性能,以满足更多动态任务负载。 能效核可以利用各种技术进步,在不耗费处理器功率的情况下对工作负载进行优先级排序,并通过每周期指令数(IPC)改进功能直接提高性能,这些功能包括: 拥有5000个条目的分支目标缓存区,实现更准确的分支预测 64KB指令缓存,在不耗费内存子系统功率的情况下保存可用指令 英特尔的首款按需指令长度解码器,可生成预解码信息 英特尔的簇乱序执行解码器,可在保持能效的同时,每周期解码多达6条指令 后端宽度(Wide Back End)具备5组宽度分配(Five-wide allocation)和8组宽度引退、256个乱序窗口入口和17个执行端口 支持英特尔®控制流强制技术和英特尔®虚拟化技术重定向保护等功能 实现了AVX指令集以及支持整数人工智能操作的新扩展 相比英特尔最多产的CPU内核Skylake,在单线程性能下,能效核能够在相同功耗下实现40%的性能提升,或在功耗不到40%的情况下提供同等性能1。与运行四个线程的两个Skylake内核相比,四个能效核所提供的吞吐量性能,能够在功耗更低的情况下同时带来80%的性能提升,而在提供相同吞吐量性能时,功耗减少80%。1 性能核 英特尔全新性能核微架构,曾用代号 “Golden Cove”, 旨在提高速度,突破低时延和单线程应用程序性能的限制。工作负载的代码体积正在不断增长,需要更强的执行能力。数据集也随着数据带宽的需求提升而大幅增加。英特尔全新性能核微架构带来了显著增速同时更好地支持代码体积较大的应用程序。 性能核拥有更宽、更深、更智能的架构: 更宽:解码器由4个增至6个,6µop 缓存增至8µop,分配由5路增至6路,执行端口由10个增至12个 更深:更大的物理寄存器文件(physical register files),拥有512条目的重排序缓冲区 更智能:提高了分支预测准确度,降低了有效的一级时延,优化了二级的全写入预测带宽 性能核是英特尔有史以来构建的性能最高的CPU内核,并通过以下功能突破了低时延和单线程应用程序性能的极限: 相比目前的第11代英特尔® 酷睿™ 处理器架构(Cypress Cove),在通用性能的ISO频率下,针对大范围的工作负载实现了平均约19%的改进1 呈现出更高的并行性和执行并行性的增加 搭载英特尔®高级矩形扩展(AMX),内置下一代AI加速提升技术,用于学习推理和训练。AMX包括专用硬件和新指令集架构,以明显提高矩阵乘法运算 减少时延,对大型数据和代码体积较大的应用程序提供更好的支持
|