英特尔依然是那个英特尔,且看英特尔的城防体系

admin 科技 2023-12-01 09:22:09 0 应用 处理 性能

数字时代带来的变化是深刻的。基于这一概念,我们不仅发明了一种新的应用形式,而且还规划了整个企业IT架构,以满足这种新的应用和业务需求。在这种新的IT架构中,传统的计算、存储、网络等资源将不再是用户关注的焦点,而是被人工智能、大数据、云计算、物联网等功能所取代。在整个IT行业的变化中,无数的新公司正在迅速崛起。其结果是,在短短几年内,几乎在IT的每个领域都出现了新概念,并得到了普及。新的人笑了,老的人哭了。新兴IT公司在开拓新市场和需求的同时,也在积极改变现有IT公司的生活方式。应用软件、数据库、中间件、管理软件和基础设施等各个领域的传统标签都或多或少地受到这种积极变化的影响。就像火一样,应用层面的变化不仅局限于应用层面,而是延伸到半导体领域的上游。那么,这种在应用领域引发无数“血腥”的变化,是否也会在上游半导体领域掀起同样的浪潮呢?半导体行业的传统巨头们,是否能够靠自己的力量适应和控制变化,我们在这里谈论的是英特尔。作为行业领导者,英特尔多年来一直以强大的产品和技术力量引领着整个行业。然而,在新时代,英特尔面临着许多层面的挑战。第一阶段:AMD

在卓越的架构性能的前提下,我们推出了EPYC系列处理器,以相同的价格提供更多内存通道和更多内核,并成功提高了我们产品在数据中心市场的份额。挑战2ARM

其优点是能够提供集成、可扩展性和更高的能源效率。一些冷存储、原生Android服务和无服务器计算已经在使用ARM处理器进行试验。3

以GPGPU为代表的多元化计算能力正在迅速崛起,受益于AI热潮。作为这一领域的领导者,NVIDIA正在迅速扩大其在数据中心市场的地位,并通过收购和合作来扩大其业务范围。此外,新的架构和新的指令集,包括Gen-Z和RISC-V,已经开始挑战英特尔主导的传统计算机架构,具有独特的优势。他的道路确是黑暗的。但是,十几年来平定四方、掌握主动权的英特尔,真的有这样的后起之秀、毫无防备的吗?在这里,我们不说剑,只说城墙。英特尔的城市国防近年来工艺技术进步缓慢英特尔,“挤牙膏”经常被消费市场用户嘲笑,但事实上,英特尔并不是真的无所事事。对于已经获得优势的英特尔来说,除了在新领域不断尝试之外,当然,我们还会投入大量精力,继续巩固我们在已经获得优势的领域的优势。这是一种符合商业逻辑的行为。

经过十多年的不懈努力,英特尔成功地构建了一个由六大技术支柱组成的坚固的城市防御圈。追求工艺和封装工艺和封装技术仍然是整个半导体行业不变的核心目标。就目前的产品线而言,英特尔的14纳米工艺并不是业界领先的。这是一个不争的事实。然而,在掌握现有流程方面,英特尔仍然是行业领导者。

在英特尔最新的第二代Xeon可伸缩处理器中,顶级Xeon Platinum9282处理器在单个处理器中提供56个物理内核和3.8GB Turbo频率,总TDP达到400瓦。该处理器由两个模具组成,每个模具面积约为694平方毫米。在商用产品中能够实现这样的频率、这样的核心面积、这样的功耗密度,足以表明英特尔精通14nm工艺及相关封装技术。即使是三星电子和台积电,它们在批量生产过程中领先了半步,也无法在7nm技术上生产出这样的产品。这个令人生畏的过程的成熟度意味着,基于Intel Xeon Platinum9282处理器的系统(目前仅在工厂生产)可以在两个插槽中提供112个物理内核,并在相同的机架空间中实现两倍的计算密度。5月下旬,采用10nm工艺的Ice Lake处理器终于推出,最终产品将于2019年底首次在笔记本电脑平台上上市。届时,英特尔将至少与业界领先的工艺技术水平相媲美,甚至在晶体管密度和成品性能方面再次领先行业。当然,根据以往的经验,新工艺下的数据中心产品将在消费类产品上市一年后上市。对于英特尔来说,重返行业之巅还需要时间,但这个目标已经提上了议事日程。

我想在这里再提一提。最新的英特尔Agilex FPGA采用10纳米工艺,并实现了3D封装。通过将具有多种不同功能、不同IP和不同工艺的模具堆叠成一个集成封装,Agilex在片上实现了更完整的功能、更好的集成性和更小的尺寸。这与手机领域中常见的“打包堆叠”原理相同,只是效率不一样。XPU架构针对不同的应用负载,计算能力的多样化已成为当前技术条件下公认的趋势。竞争对手使用GPU、ASIC、MIPS等处理器和芯片,与英特尔的通用处理器在特定应用领域相比,声称具有xx倍的优势,但坦率地说,将为特定计算类型或特定算法制造的处理器(芯片)与单一应用场景中的通用处理器进行比较是不合适的。面对计算能力多样化的趋势,英特尔有了自己的解决方案--XPU系统。虽然CISC指令架构强调在单个处理器内针对多种计算类型进行优化,以实现更好的应用程序编程和执行,但作为通用处理器,其核心目标是支持所有计算类型,而不仅仅限于特定的计算类型。一旦你掌握了这个想法,你就不难理解英特尔的XPU架构。

在CPU领域,第二代Xeon可扩展处理器内部集成了VNI深度学习加速指令集,可以加速当前主流的深度学习框架,如TensorFlow、Caffe、mxnet等。结合专用的OpenVINO工具包,开发人员可以深入优化他们的程序、算法和模型,在相应的处理器上实现更高的性能。与上一代Xeon Platinum8100系列处理器相比,具有VNI指令集的Platinum8200系列处理器在Caffe Resnet-50测试中可以达到约2.5倍的性能,而功能更强大的Platinum9200系列则可以达到5.2倍的性能。这种性能水平的提升对于基于AI算法的推理应用非常重要,它可以在不使用额外的协处理器或计算卡的情况下显著提高推理性能,降低AI应用的部署障碍,简化系统配置。在实际应用中,VNI指令集使京东云在文本检测应用中实现了2.4倍的性能;腾讯云在视频分析应用中实现了3.26倍的性能;微软在图像识别应用中实现了3.4倍的性能。阿里巴巴在8个不同的工作负载上实现了2-4倍的性能。与此同时,百度开发的PaddlePaddle框架,得益于VNI指令集,可以将推理应用性能提升2-3倍。

最右边的列都是负载优化的Xeon。当然,除了指令集的演进,以及针对不同的应用类型,英特尔也在Xeon产品框架内推出了更多负载优化产品。例如,适用于NFV领域的后缀N系列产品、适用于大型云基础设施的V后缀系列处理器、适用于搜索应用的S后缀系列、适用于物联网的T后缀系列、以及采用Speed Select技术的后缀Y后缀系列处理器此外,英特尔还推出了用于网络应用和网络边缘解决方案的至强D-1600处理器(支持各种配置文件,在BIOS中切换以优化相应的负载)基于此处理器,英特尔还推出了数据加密和压缩加速卡--QAT,用于CDN等领域。

除了这些CPU领域细分应用场景的产品外,英特尔还推出了用于大容量数据处理设备的FPGA、用于能效敏感应用的ATOM系列、专业神经网络加速芯片NERVANA等。它拥有一系列针对不同负载类型和应用场景的产品,如Movidius神经网络计算加速棒(U盘设计,无扇形),面向AI编程用户和学生。这些产品构成了英特尔的XPU架构。虽然这些产品不能完全覆盖所有计算领域和场景,但每个产品都包含一个目标设计,以满足不同类型用户的需求。除了以处理器为中心之外,冯·诺依曼计算机体系结构的最大特点是多级存储。根据性能的不同,计算机内部的存储组件大致可分为三层:它是性能最高的CPU内置缓存,性能第二高的系统内存,以及最差但容量最大的磁记录存储。通常情况下,存储层粒度越小,性能越平滑,计算机系统的整体运行效率越高。因此,如果从目前的角度来看传统计算机架构中的三级存储划分,就很容易看出内存和磁介质存储性能差距太大的不合理性。闪存媒体的出现在一定程度上可以通过在两者之间增加一层热数据,解决这个问题。使用“某种程度”一词的原因是,即使在具有更高带宽和更低延迟的NVMe协议下,当前的SSD产品通常也只能达到3xxx MB/s和ms级别的响应级别。因为从DDR4内存到CPU高速缓存的100,000MB/s带宽与以ns为单位的延迟之间仍存在很大的性能差距。

如果添加更多的层,操作系统和应用程序的挑战太大,很难在短时间内普及。因此,英特尔提供的解决方案是Opton数据中心级持久内存。简而言之,Opton内存中使用的3D Xpoint介质在延迟响应、传输速率和寿命方面远远超过了当前的NAND闪存,与DRAM颗粒相比,在非易失性和容量方面具有优势。通过在DIMM上混合DRAM,可以显著提高计算机性能,而不会给现有的计算机体系结构带来重大挑战(目前,性能提高的程度与使用方案密切相关)

第二代Xeon可扩展处理器完全支持Opton数据中心级的持久内存。目前,Opten持久内存有两种应用模式,一种是APP直接模式,另一种是内存模式。在APP直接模式下,DRAM和Opten持久内存同时出现在操作系统和应用程序之前,应用程序需要使用两种介质来区分这两种内存的性能特点。DRAM负责IO性能,而Opten持久存储器则取决于其容量和非易失性特性来提供容量和可靠性。当然,这需要对内存操作机制进行调整和有针对性的调整。目前,支持该模型的主要应用程序是SAP的HANA内存数据库和开源的Redis内存数据库。SAP HANA应用程序通过结合Opton持久内存和DRAM创造了9.1B IO性能的世界纪录,Redis通过使用Opton持久内存实现了高达8倍的性能提升。在记忆体模式下,Opten持久记忆体成为系统的主记忆体,DRAM从系统接口“消失”,因此只能以Opten记忆体的快取形式运作。在内存模式下,操作系统和应用程序不需要定制开发,这两种介质的具体操作完全由驱动程序完成。APP直接模式可以提供更好的性能,但是应用程序需要改变。虽然内存模式可以提供更大的系统内存容量,但性能的提高可能因人而异,但不需要更改操作系统或应用程序。两者都有优点和缺点,用户和软件开发人员可以自由选择。另一方面,由于3D Xpoint的非易失性,它也可以以Opton SSD的形式作为SSD介质上的单独存储层运行。

当然,英特尔本身也生产了各种型号的SSD产品,除了提供各种容量外,还提供PCI-E、SAS、U.2等接口。此外,英特尔还开发了一种新的“标尺”PCI-E x4固态硬盘,可在1U空间中实现576TB的容量和1000万IOPS。随着互联云基础设施的普及,集群内部和集群之间的连接效率比以往任何时候都更加重要。同时,随着网络复杂性的增加和用户网络管理需求的升级,网络设备不仅需要提供更高的带宽和更低的延迟,还需要提供更多的运行模式,以提高网络的可靠性、可管理性和传输效率。在这方面,英特尔的产品线包括两个主要系列:500、700和800系列以太网卡和Omni-Path高速网络解决方案。

以2019年发布的最新800系列以太网NIC为例,除了100Gb带宽外,它还支持英特尔应用队列(ADQ)技术、增强动态设备个性化(DDP)技术和RDMA技术。ADQ允许根据应用程序的重要性定义发送和接收数据包的优先级,从而实现面向应用程序和面向数据的网络可管理性。DDP允许应用程序或系统在不同的数据包中添加可定制的报头,允许不同的数据包使用不同的传输协议,从而最大限度地提高网络传输的效率并减少延迟。RDMA允许直接读写远程内存,无需CPU的额外干预,大大提高了大型集群和高负载应用的系统互连效率。通过结合这三种技术,800系列以太网卡可提供低延迟和高吞吐量。在支持这些技术的高级内存数据库应用环境(如Radis)中,800系列NIC可降低高达45%的延迟,并提高高达30%的吞吐量。英特尔Omni-Path高速互联网网络是一个完整的解决方案,包括光纤接口适配器和交换机。Omni-Path目前提供58Gb和100Gb规格,除了支持RDMA外,Omni-Path还采用了轻量级、简单的消息传递库,在建立连接时不需要在系统或进程中保留连接地址信息,因此Omni-Path是一种与Infiniand竞争的高性能、低延迟的网络体系结构,HPC、它的目标是AI和其他应用场景。软件硬件设计复杂性的增加以及指令集和功能的增加,对编程和应用效率构成了巨大挑战。另一方面,编程语言模式的更新也需要硬件产品设计中的充分考虑和支持。对于像英特尔这样的公司来说,它在许多产品上处于行业领先地位,仅仅更新设备驱动程序和固件以应对各种操作系统和安全威胁是一项艰巨的任务。同时,这些软件产品也会根据新应用的特点和硬件本身的架构进行支持和优化。这就是为什么英特尔是一家半导体/硬件公司,拥有超过15,000名软件工程师。与软件一样,在硬件、固件和驱动程序级别保护系统是非常重要的,也是一项非常繁重的工作。新的安全威胁和漏洞的出现,以及应用程序和系统的复杂性,使这项任务变得更加困难。如果bug或bug发生在硬件级别,英特尔将不得不计划在硬件级别修复它们的新步骤。当然,本着开放的态度,对于所有已知的错误,英特尔将在其官方网站上发布相关信息和预期修复的时间和格式,以帮助合作伙伴和最终用户了解并做好准备。用我的背景音乐打败我,这是个小概率事件。

英特尔以处理器及其背后的x86体系结构为中心,构建了一个大型系统,包括计算、存储、网络连接、软件驱动的固件、优化、硬件设计和制造标准,并在此系统的开发和维护过程中积累了丰富的经验、资源和生态系统合作伙伴。英特尔将该系统称为“以数据为中心”的产品架构。事实上,在数字时代,数据将成为用户业务增长的新燃料,而IT架构将成为使用这种燃料的引擎。为了理解和把握这一趋势,英特尔的愿景无疑是准确的。当巨人找到正确的方向并全速奔跑时,它的动能和势能不可低估。从整个产品生态系统的角度来看,英特尔目前面临的问题是,六大支柱中有一个与行业领先水平相比略有落后。显然,这种情况将在一定程度上动摇英特尔在行业中的领导地位,但这种动摇是轻微的,可控的。随着新工艺的推出,英特尔在这一领域的“落后”工艺将很快得到补充。到那时,喧嚣就会平息,英特尔仍然是我们所熟知的英特尔。当然,半导体工艺作为整个英特尔大楼的基础,这是一个非常明确的信号,代工厂已经超越了自身。他表示,英特尔在整个行业中的领先地位正在逼近,这表明粗心的人可能会在某些领域失去冠军头衔。但我们需要认识到,没有人能够在各个方面挑战甚至超越英特尔。这个人不会很快出现。在我看来,如果你想在英特尔主导的现有计算机架构中超越英特尔,那就不太可能发生。真正能够威胁英特尔的是系统之外的力量,而这些力量今天似乎很薄弱。他们创造的是一个全新的系统,一个全新的生态系统,当然,两个系统、两个生态系统之间的冲突何时以及以何种形式发生,还需要很长的时间。

分享: