GPU技术演进与AI加速

admin 2024年9月11日23:38:48评论63 views字数 5811阅读19分22秒阅读模式

01.

引言

GPU从诞生之日起就以超越摩尔定律的速度发展,运算能力不断提升。业界很多研究者注意到利用GPU进行计算的潜力,于2003年SIGGRAPH大会上提出了GPGPU(General Purpose computing on Graphics Processing Units)的概念。GPU逐渐从由若干固定功能单元组成的专用并行处理器向可编程(即GPU编程,区别于CPU编程)、通用计算AI加速的方向发展。

02.

GPU技术介绍

1、为什么要用GPU进行计算

GPU在并行处理能力存储器带宽上相对于CPU有明显优势,在成本和功耗上也不需要付出太大代价。由于图形渲染的高度并行性,使得GPU可以通过增加并行处理单元和存储器控制单元的方式提高处理能力和存储器带宽。GPU设计者将更多的晶体管用作执行单元,而不是像CPU那样将多数晶体管用作复杂的控制单元和缓存并以此来提高少量执行单元的执行效率。凭借强大的可编程流处理器阵容,GPU在单精度和双精度浮点运算方面将CPU远远甩在身后。

1. 在图形处理中,渲染一个场景可能需要对每个像素执行浮点运算来计算颜色和光照等。这些运算可以在多个核心上并行执行,以实现更快的渲染速度。

2. 在科学计算中,一个复杂的数学模型可能需要执行大量的浮点运算。通过将这些运算分配到多个处理器或计算节点上,可以同时进行计算,从而减少总体的计算时间。

并行化浮点计算的关键在于算法设计,需要将问题分解成可以独立计算的部分,并且设计有效的数据通信和同步机制,以确保计算的正确性和效率。

2、什么适合GPU进行计算

尽管GPU计算已经开始崭露头角,AI模型一般也更适合运行在GPU上,但GPU并不能完全替代CISC或RISC解决方案,操作系统和软件更多的还是运行在CPU上。一般而言适合GPU运算的应用有如下特征。

(1) 运算密集;

(2) 高度并行;

(3) 控制简单;

(4) 分多个阶段执行。

符合这些条件或者是可以改写成类似特征的应用程序,往往能够在GPU上获得更好的表现。

3、GPU技术演进

1999年8月,NVIDIA正式发表了具有跨世纪意义的产品NV10——GeForce 256。GeForce 256是业界第一款256bit的GPU,也是全球第一个集成T&L(Transforming&Lighting几何光照转换)、动态光影、三角形剪辑和四像素渲染等3D加速功能的图形引擎。通过T&L技术,显卡不再是简单像素填充机以及多边形生成器,还参与图形的几何计算,从而将CPU从繁重的3D管道几何运算中解放出来。从某种意义上说,GeForce 256开创了一个全新的3D图形时代。

2001年推出的GeForce 3开始引入可编程特性,能将图形硬件的流水线作为流处理器来解释,基于GPU的通用计算开始出现。GeForce 3被用于实现矩阵乘法运算和求解数学上的扩散方程,这是GPU通用计算的早期应用。

2006年11月,NVIDIA推出了CUDA(Compute Unified Device Architecture,统一计算设备架构)技术。CUDA是一种将GPU作为数据并行计算设备的软硬件体系。CUDA的出现极大地推动了AI加速领域的发展。硬件上NVIDIA GeForce 8系列以后的GPU(包括GeForce、Quadro、Tesla系列)已经采用CUDA技术,且在2010年推出的Fermi架构中开始引入CUDA核的概念。软件开发包上CUDA也已经更新到CUDA 12.6(截止到2024年9月),支持Windows、Linux、Mac OSX三种主流操作系统。CUDA采用比较容易掌握的类C语言进行开发,同时支持适用于科学计算的Fortran语言。在此之前,GPU通用计算受硬件可编程性和开发方式的制约,开发难度较大。

GPU技术演进与AI加速

图1 NVIDA Fermi架构图(图片来源于网络)

GPU技术演进与AI加速

图2 NVIDA GPU架构演进图

CUDA不断发展,其他的GPU通用计算内核和编程框架也被相继提出。国外市场,如Apple提出并由Khronos Group最终发布的OpenCL(开放计算语言,旨在为异构计算提供一个基准,突破NVIDIA GPU的限制);AMD推出的RDNA架构和ROCm开发平台。国内市场,如摩尔线程推出了MUSA架构和开发平台;壁仞科技也于2022年9月推出了基于原创GPU架构的BR100系列芯片;海光信息的DCU 系列产品兼容CUDA生态等。

4、异构计算

实际使用中,GPU通用计算通常采用CPU+GPU异构模式,由CPU负责执行复杂逻辑处理和事务处理等不适合数据并行的计算,由GPU负责计算密集型的大规模数据并行计算。这种利用GPU强大处理能力和高带宽弥补CPU性能不足的计算方式在发掘计算机潜在性能,在成本和性价比方面有显著的优势。

03.

AI加速芯片对比

1、GPU和CPU的架构比较

超级计算机先驱西摩·克雷(Seymour Cray)提出过一个问题:如果你在耕地,你更愿意使用哪个?两只壮牛还是1024只鸡?用来说明在某些情况下,数量并不总是代表质量或效率。在这个问题中,虽然1024只鸡在数量上远远超过两只壮牛,但在耕地这个特定任务上,两只壮牛能够提供的力量和效率是1024只鸡无法比拟的。

GPU在相同的价格和功率范围内提供比CPU高得多的指令吞吐量和内存带宽。许多应用程序利用这些更高的功能在GPU上比在CPU上运行得更快。

GPU和CPU之间的这种能力差异的存在是因为它们在设计时考虑了不同的使用场景。CPU被设计成擅长于尽可能快地执行一系列被称为线程的操作,并且可以并行执行几十个线程,而GPU被设计成擅长于并行执行数千个线程(摊销较慢的单线程性能以获得更大的吞吐量)。

CPU相较于GPU有更复杂的指令集和ALU(算术逻辑单元)、更好的分支预测、更低的延迟以及更好的虚拟化支持。GPU专门用于高度并行计算,因此设计了更多的晶体管用于数据处理,而不是数据缓存和流控制。下图显示了GPU与CPU的芯片资源分布示例。

GPU技术演进与AI加速

图3 GPU和CPU芯片结构原理图(图片来源于网络)

将更多的晶体管用于数据处理,例如浮点计算,有利于高度并行计算,GPU可以通过计算隐藏内存访问延迟,而不是依赖于大型数据缓存和复杂的流控制来避免长内存访问延迟,这两者在晶体管方面都是昂贵的。

一般来说,应用程序混合了并行部分和顺序部分,因此系统被设计为混合使用GPU和CPU,以最大限度地提高整体性能。具有高度并行性的应用程序可以大量利用这一特性。

目前,一方面CPU进一步强化处理数据块的能力,另一方面GPU也可以承担更复杂的指令,GPU与CPU间的分工虽然还是大有不同,但彼此间的交集无疑会更多。

2、GPU、ASIC和FPGA的架构比较

GPU擅长通用场景下大量重复计算,由数以千计的更小、更高效的核心组成大规模并行架构,配备GPU的服务器可取代数百台通用CPU服务器进行AI训练。

ASIC专用性强,开发周期长且难度高,但支持AI特定场景量身定制,可以在架构层面针对特定任务进行优化。适合市场需求量大的领域。与FPGA相比,ASIC芯片功耗更低、性能更强。

FPGA是一种半定制芯片,灵活性强、集成度高、设计周期短,但量产成本高。适用于算法更新频繁或市场规模小的专用领域。

综上,编程灵活性和通用性:GPU>FPGA>ASIC,计算效率:GPU<FPGA<ASIC。

3、GPU的CPU替代

GPU的并行处理能力和带宽优势使得其天生更适合AI模型的训练。后来GPU的更新路线也不断适应了AI的发展,AI也促生了更强大的GPU产品,可以说GPU的繁荣和AI热潮相辅相成。

一个人工智能模型通常会经过两个阶段,AI训练和AI推理。AI训练阶段需要更多的参数和更强的算力,AI推理对算力的要求相对较小,是对训练好的模型的使用。从持续时间上看,训练一般有一个周期,几周或几个月,但是推理阶段可能长时间持续运行(非单次运行时间),比如某个成熟产品中使用到的AI模型。因此在AI推理阶段更看重TCO。

如果只是将CPU进行堆砌,以达到和GPU相同的核心或其他配置,无疑不是最优解。因为虽然GPU的并发能力更强,但是CPU的单核能力是GPU无法比拟的。如果在核心数上将CPU和GPU对齐,TCO会高出很多。

对于针对AI加速和GPU替代做过优化的CPU或许可以考虑。目前市场上已经有走这条路线的GPU替代产品,如AMD的EPYC 9654,主要有以下针对优化。

(1) 核心数为96核,最多支持到128核;

(2) PCIe 5总线达到128条;

(3) 最多支持12条通道的DDR5内存;

(4) 支持AI优化指令集,优化并行计算能力;

(5) 支持BF16浮点精度格式,减少计算开销;

(6) 提供AOCL和ZenDNN等CPU AI库支持(可以将GPU指令运算转换为CPU执行运算)。

04.

GPU禁售情况

1、临时最终规则

2023年美国政府在2022年的对华限制措施之后又宣布了新的限制措施,下图摘自NVIDIA公司2023年10月公开透漏的SEC(Securities and Exchange Commission,美国证券交易委员会)文件。

GPU技术演进与AI加速

图4 NVIDIA公司2023年10月SEC文件(部分)

2023年10月17日,美国政府(USG)宣布提交了《临时最终规则》,针对某些先进计算机项目、超级计算机和半导体终端用途实施额外出口管制。该临时最终规则公布在联邦公报上。

临时最终规则修订了ECCN 3A090和4A090,并对出口到中国和D1、D4和D5国家组(包括但不限于沙特阿拉伯、阿拉伯联合酋长国和越南,但不包括以色列)的公司超过某些性能阈值的集成电路(包括但不限于A100、A800、H100、H800、L40、L40S和RTX4090)施加了额外的许可要求。任何包含一个或多个涵盖集成电路的系统(包括但不限于NVIDIA DGX和HGX系统)适用于新的许可要求。即未来的NVIDIA集成电路、电路板或ECCN 3A090或4A090分类的系统,达到一定的总处理性能和或性能密度的适用于此许可要求。

《临时最终规则》中写到具体的限制条款如下:

3A090a:针对最高性能芯片

(1)TPP达到4800

(2)TPP达到1600且PD达到5.92

3A090b:针对次高性能芯片

(1)TPP达到2400但低于4800,且PD达到1.6但低于5.92

(2)TPP达到1600,且PD达到3.2但低于5.92

TPP:Total Processing Performance,即总计算性能,等于算力乘位宽。

PD:Performance Density,即性能密度,等于TPP除以芯片面积。

2、国内外GPU现状

本小节对国外的NVIDIA公司和国内寒武纪、隧原、华为、昆仑芯、天数智信和曙光公司在售的主流GPU型号进行对比,如下表所示。

GPU技术演进与AI加速
GPU技术演进与AI加速
GPU技术演进与AI加速

左右滑动,查看更多

NVIDIA公司以其CUDA生态闻名,产品线覆盖从个人消费级(如GeForce RTX 3060、GeForce RTX 4090)、高性能计算(如Quadro系列、Tesla系列)、数据中心级GPU(如A100、H100、H200),提供强大的单精度、双精度浮点计算性能,同时可支持Tensor Core加速,是目前AI大模型训练和超高性能计算领域的领导者。

AMD公司的Radeon系列GPU在游戏市场与英伟达竞争激烈,在数据中心领域,也推出了Instinct系列加速卡,具备出色的计算能力和能耗比,以应对AI大模型训练。Intel公司近年来除了集成GPU外,也开始在独立GPU市场发力,推出了基于Xe微架构的高性能GPU产品(如锐炫、Data Center GPU),意图在专业图形和数据中心市场分一杯羹。

国产GPU厂商在技术层面取得了一定进展,但在性能指标、市场份额、生态建设等方面尚需继续努力,以缩小与国际领先企业的差距。随着国家政策扶持和市场需求的增长,国产GPU产业有望在未来进一步突破关键技术瓶颈,提升自主创新能力,并在特定领域形成竞争优势。

在国内,主流的算力系统主要涵盖了多种类型的计算资源,包括但不限于CPU、GPU和ASIC以及其他类型加速器,他们构成了支撑各种计算密集型任务的核心基础设施。以下是对国内主流算力系统的代表公司分析。

1.CPU算力系统:海光信息作为国内领先的CPU制造商,海光CPU产品已经达到了国际主流高端处理器的性能水平,其7000、5000、3000系列覆盖了高中低端市场的多样化需求,为数据中心、云计算和高性能计算提供强大算力。

2.GPU算力系统:景嘉微、壁仞科技等公司在GPU领域积极布局,研发国产GPU产品,以满足国内对于高性能计算和AI计算的需求。

3.ASIC算力系统:华为海思、阿里平头哥等企业研发了针对AI推理和训练优化的ASIC芯片,如华为昇腾系列和阿里含光系列,这类芯片在特定应用场景下能够提供更高效的算力支持。

此外,华为系、中科院系(中科曙光为代表)以及其他国内IT巨头如浪潮、联想等,都在数据中心建设、服务器生产和算力资源整合方面发挥了重要作用。他们的服务器产品集成了先进的计算单元,并通过云计算、边缘计算等方式提供综合算力服务。

国内主流算力系统正在不断完善和发展,不仅注重提升单体设备的计算性能,还在算力分布、资源调度、节能降耗、生态建设等方面加强投入,以满足不断增长的数字经济、人工智能、科学研究等领域对强大且可持续算力的需求。同时,政府主导的“东数西算”工程也在推进跨区域算力资源调度和优化配置,促进了国内算力基础设施的均衡发展。

05.

结语

2024年,随着AIGC(AI-generated content,AI生成内容)技术的持续突破与广泛应用,其背后的超大规模预训练模型将进一步升级,对算力的需求预计将达到空前水平。

由于AIGC涉及图像、文本、音频、视频等多种媒体形式的大规模数据处理与创作,尤其在生成高精度、高分辨率的内容时,将显著推高对超高性能GPU计算资源的需求。

同时,考虑到模型压缩、分布式训练、异构计算等技术的发展,虽能在一定程度上缓解单点算力压力,但整体算力规模仍可能呈指数级增长。因此,未来几年,全球算力基础设施的建设与优化将是支撑AIGC繁荣发展的关键因素之一。

GPU技术演进与AI加速

文章作者李许飞

原文始发于微信公众号(EBCloud):GPU技术演进与AI加速

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2024年9月11日23:38:48
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   GPU技术演进与AI加速https://cn-sec.com/archives/3154265.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息