FPGA和CPU、GPU有什么区别？为什么越来越重要？

1.为什么会有这么多的“X”PU？——“配角们”的时代

近年来，诸如 TPU、MPU、DPU等的”X”PU们似乎层出不穷，市场经常会对这些新创造出的名词感到困惑：为什么会出现这么多的单元？本质上是由于CPU的算力到达瓶颈了，背后是通用计算时代的终结。从发明以来，CPU算力的提升主要依靠两大法宝：一是提高时钟频率，但时钟频率提升面临瓶颈了。因为越高的时钟频率，意味着每秒可执行的运算次数越高，但随着电压下降到0.6v的“底限”，Dennard缩放定律(DennardScaling)在05年开始崩溃，再提高时钟频率就会使得功耗以指数级别增长，因此我们在05年后遇到了频率墙；二是增加处理器内核数，换取频率降低带来的功耗预算，但由于核间调度同样需要时延和功耗花销，很快，核数的增长又遇到了瓶颈，由于数据中心的散热技术约束了功率增长，导致处理器上许多核无法同时工作，这就是暗硅效应。因此，人们开始放弃使用一个超强的CPU完成所有事情，而是对某些重复的场景，卸载到专用的加速器，以达到新一阶段的降低功耗，提升性能的目的，这就是“XPU”等加速器兴起的原因。

图1：CPU面临算力瓶颈的原因

同时，自2010年AI兴起，AI模型的训练所需的算力是爆发式的增长，且“加&乘”的本质使得算力要求愈发偏向高并行而不是高串行。CPU越来越难以胜任高算力的场景，，将需要大规模、高密度的计算任务卸载到在某一方向做了优化的专用处理器，就产生了这些不同的“X”PU，他们之间区别在于在某些场景的专用性。

图2：2010年兴起以来，AI模型对算力的要求呈现爆发式增长，速度远超摩尔定律

通用计算时代终结，数据中心走向加速器时代。未来10年，FPGA的重要性不断上升。随着CPU算力逐渐

达到瓶颈，越来越无法满足神经网络指数级增长的算力需求。在数据中心这一人类算力需求最高的设施中，

算力发展的方向愈发转向专用性，以寻求更高的性能、更低的能耗和成本。我们看到，未来10年，在数据

中心高性能计算及AI训练中，CPU这一“主角”的重要性下降，而以往的“配角们”，即GPU、FPGA、

TPU、DPU等的加速器的重要性在上升。

图3：MLP网络本质是并行的乘法和累加，非常适合在FPGA中实现

因此，从2017年开始，越来越多的大型公有云开始正式使用FPGA、GPU作为加速器，以获得数百倍于CPU的性能提升。例如，微软的Catapult项目就使用了FPGA以加速Bing的搜索速度，AWS的F1Instances 将FPGA的算力作为服务提供给客户，阿里云使用了FPGA为其“双十一”进行了零售交易系统的加速。

图4：微软的Azure使用FPGA加速Bing搜索，网络吞吐量大幅上升，时延下降了 80%

2.相比CPU，FPGA的并行性和灵活性更高，能提供确定性的时延

处理器负责对外界输入的数据进行处理，CPU、GPU、FPGA等处理器的区别在于处理流程，CPU的处理流程使其擅长串行计算，以复杂的控制为特征，GPU和FPGA的则更擅长大规模的并行计算：

CPU是冯诺依曼架构下的处理器，遵循“Fetch (取指)-Decode (译码)-Execute (执行)-MemoryAccess (访存)-Write Back (写回)”的处理流程，数据要先通过控制单元获取存在RAM中的指令，再解码得知用户需要对数据做何种运算，然后再将数据送到ALU进行对应的处理，结束运算后存回RAM，再获取下一个指令。这一处理流程，即SISD (SingleInstruction Single Data)，决定了CPU擅长决策和控制，但在多数据处理任务中效率较低。现代的CPU可以同时做到SISD和SIMD的处理，但在并行规模上依然不如GPU和FPGA。

GPU遵循的是SIMD (SingleInstructionMultipleData)的处理方式，通过在多个线程上运行统一的处

理方式，即Kernel，来达到将CPU发送过来的数据做高并行处理的目的。由于去除了现代CPU中分支预测、乱序执行、存储预取等模块，也减少了许多cache的空间，GPU中经过简化后的“核”能实现非常大规模的并行运算，并且节省了大部分 CPU需要花费在分支预测、重排的时间，但缺点是需要数据适应GPU的处理框架，例如需要数据做批次对准，因此依然无法达到最大的实时性。

FPGA则是由用户自定义处理流程，可以直接决定片上的CLB是如何相连的，数十万个CLB可以独立

运算，即SIMD、MISD(MultipleInstructionSingleData)和MIMD(MultipleInstruction Multiple Data)的处理都可以在FPGA实现，由于处理流程已经映射到硬件上，不需要再额外花费时间获取和编译指令，同样不需要像CPU一样花费时间在乱序执行等步骤，这使得FPGA在数据处理中具有非常高的实时性。

图5：FPGA能完成SIMD、MISD和MIMD的处理，特别适合并行计算

因此，GPU和FPGA都是作为CPU的任务卸载单元，在并行计算的效率都高于CPU。在数据中心高性能计算的场景中，GPU和FPGA往往以分立的加速卡形式存在，即CPU将部分密集计算的任务“卸载”到GPU或者FPGA，这些“器件”通过PCIe和CPU互联，以完成高并行的计算加速。

图6：将CPU的核心简化以加快执行速度，是GPU设计的思想

FPGA相比CPU的巨大优势在于确定性的低时延，这是架构差异造成的。CPU的时延是不确定的，当利用率升高时，CPU需要处理更多的任务，这就需要CPU进行任务调度重排，因此造成处理时延往往是不可控制地变大，即任务越多算得越慢。而 FPGA的时延之所以是确定的，是因为在布局布线阶段，设计工具就已经确保能够让最差路径满足时序要求，不需要再花费时间在获取指令、解码指令等通用处理器需要的步骤，也避免了随之而来的重排执行顺序、指令调度等待的问题。

图7：FPGA的时延远低于CPU，是因为其架构不需要在获取指令、编译指令、分支预测等方面花费时间

CPU的利用率越高，处理时延便越大，而FPGA无论利用率大小，其处理时延是稳定的。FPGA可以提供

纳秒级的处理时延，而CPU通常在毫秒级。例如，在自动驾驶系统中，将摄像头的数据直接传输到FPGA

的MIPI接口中，其最好和最差情况下的处理时延差距仅为22ns，而在有CPU参与数据传输的情况下，这

一差距在23ms以上，相当于CPU在繁忙情况下时延翻倍。此外，当利用率上升到90%时，CPU的处理时

图8：FPGA确定性的低时延，使其在工业和汽车上具有非常大的优势

间长达46ms，对于以100km/h的速度行驶的汽车，46ms意味着摄像头从看到障碍物，到汽车系统采取制动措施时，车子已经开出了至少1.28 米的距离，而FPGA仅有3米，即可以等同为瞬间就能反应，省去的这1.28m的距离，就可能减少许多碰撞事故的发生概率。因此，在汽车和工业这些需要确定低时延的场景，FPGA具有非常大的优势。

FPGA相比CPU，具有更高的灵活性。在工业现场往往有许多需要细微调整，例如，根据传送带磨损情况对马达进行细微的控制调整，为设备更新新的协议等等，CPU往往难以做到，由于 FPGA是动态可重构的，可以在使用现场调整，随时适应新的变化。此外，FPGA还可以同时融合工业现场的PLC、网关、传感器、马达、HMI等设备，实现不同设备的实时控制和通信。

3.相比GPU，FPGA的时延和功耗更有优势

GPU的功耗非常高，因为其无法很好地利用片上内存，需要频繁读取片外的DRAM。尽管在吞吐量上的优势使得GPU几乎垄断了深度学习领域，但 GPU依赖片外存储的处理流程，使其在功耗和时延上对比FPGA有非常大的弱势。以英伟达的 GPU为例，使用 CUDA进行训练，主要有四个步骤：1)将数据从CPU的外部存储(DRAM)复制到GPU的存储中；2)CPU加载(Lauch)需要进行的计算，即 Kernel到GPU中；3)GPU执行CPU发送过来的指令；4)GPU将结果最终存回CPU的DRAM中，再进行下一个Kernel的计算。因此，CUDA涉及了两次存储读写。而FPGA可以将第一个Kernel的结果缓存到片上星罗棋布的BRAM中，完全可以不需要读写外部存储就能完成整个算法。由于读取DRAM所消耗的能量是SRAM的100倍以上，是加法的6400倍，GPU这一需要频繁读取DRAM的处理，使其功耗远高于FPGA，而且DRAM的带宽往往成为了性能的瓶颈。一片FPGA的典型功耗通常是30W~ 50W，而单片GPU功耗就可以高达

图9：FPGA可以灵活利用片上内存，不需要像CUDA一样从DRAM来回读写数据

250W~ 400W，使得单机柜的功率密度可能高达28kw，这对数据中心的现有的散热造成了巨大压力，往往需要专门更改制冷和供电系统，以适应单柜 15kw以上的功率密度，而 FPGA数十瓦的功耗可以和现有数据中心散热兼容，不需要额外改造。

FPGA可以灵活运用片上存储，因此功耗远低于GPU。FPGA完全可以不需要读DRAM，整个算法在片上完成。例如，深鉴科技利用FPGA做出了ESE的模型并在不同的处理器(CPU/GPU/FPGA)上运行，发现FPGA上训练时长最短，能耗最小。在能耗上，CPUDense 耗能11W、CPUSparse 耗能38W、GPUDense 耗能202W，这是耗能最大的一种情况、GPUSpare 耗能136W，相比之下FPGA仅需41W；在训练时延上，FPGA用时82.7μs，远小于CPU的6017.3μs，也仅为GPU训练时长的三分之一。

图10：FPGA仅用200MHz，就可以实现比CPU快43倍、比GPU快3倍的效果，而且功耗仅为GPU的20%

FPGA“无批次(Batch-less)“的架构，使其在 AI推理中具有非常强的时延优势。受限于网络条件和时延，许多决策来不及上传云端，只能本地执行，这就是边缘计算。边缘计算通常面临时延和功耗两大约束。GPU需要等待批次的特点，使其时延要高于FPGA。GPU通常需要将不同的训练样本划分成固定大小的“Batch(批次)”，为了最大化达到并行性，需要将数个Batch都集齐，再统一进行处理，每个Batch的数据一般有近百个。这使得GPU在训练大型样本时非常有优势，但在做涉及小样本的推理时，这一优点成为了劣势，因为推理通常只需要很小的输入数据，而GPU的架构额外引入了时延。FPGA的架构是无批次(Batch-less)的，可以根据数据特点确定处理方式，不需要像GPU一样将输入的数据划分成Batch，因此可以做到最低的时延，使得FPGA在进行AI推理时具有非常大的优势。

FPGA在接口灵活性上具有无可比拟的优势，特别适合工业场景。工业实质是高度分散的小批量场景，存在大量的非标准的接口，例如，工业的图像传感器的LVDS编码格式往往没有统一的标准，工程师很难找到对应的专用芯片去对接。GPU的接口单一，只有 PCIe一种，而FPGA的可编程性使其能与任何的器件进行通信，能够适应任何的标准和非标准的接口，这种硬件可编程带来的高度灵活性是FPGA在工业场景的优势。

目前，阻碍FPGA市场进一步扩大的原因是其较高的使用门槛，正通过HLS等工具解决。CPU使用人员更多是软件工程师，语言基本为C/C++等编程语言，GPU亦有CUDA等非常完善的开发框架，而 FPGA的使用者更多像是硬件工程师，需要自行定义电路功能、进行时序优化等步骤，语言基本为Verilog/VHDL 这两种

图11： FPGA的时延低于GPU，无批次的结构，使其在AI推理特别有优势

硬件描述语言，需要使用者精通软件和硬件，难度因此更大。因此，为了降低使用门槛，FPGA学界和业内合作推出了HLS (High-levelSynthesis，高层次综合)的工具，可以通过C/C++语言直接生成能供FPGA使用的RTL网表，跳过中间的硬件描述环节，让工程师更加专注AI算法的开发和迭代。

图12：FPGA更适合AI推理，在低时延、非标准化的场景非常有优势

4.FPGA的战略意义：AI&Space

为什么FPGA是战略芯片？我们认为，未来科技发展有两个领域处于战略地位：一是 AI，二是太空。AI代表人类更高级别的生产力工具，而太空是可供人类开发探索的广阔而未知领域。FPGA凭借其架构带来的时延和功耗优势，在AI推理中具有非常大的优势。同样， FPGA独特的优势使其在航空航天领域有非常广泛的应用。

全球地缘政治紧张下，各国自有卫星星座需求激增，太空活动进入新活跃期。上一个太空发射活跃期在1957-1977 年，美苏在太空领域展开激烈竞争，两国年平均发射活动均超40次。随着美苏太空竞赛结束，20年间太空发射数大幅回落。而在近年地缘政治紧张态势下，各国部署自有通信卫星星座需求激增。中美两国在近3年的太空发射活动剧升，仅去年全年，中美发射次数合计占全球76%。由于频段和低轨空间是不可再生资源，各国的低轨卫星计划实际承担“占频保轨”的任务。随着大批的低轨卫星计划在未来4-5年内完成发射组网，太空活动实际已进入新的活跃期。

图13：近5年来，在地缘政治紧张的态势下，中美两国太空发射次数迅速增长

目前，我们看到太空活动发生了三大新变化，背后反映的是太空不断增长的算力需求。美国 JPL (JetPropulsion Laboratory，喷气推进实验室)是美国国家航空航天局(NASA)负责无人太空探测的机构，我们统计了JPL 目前的所有任务目标，发现了以下三大变化：1)地球观测、探火活动在增加。以地球为目标的太空活动占比35%，目的主要有气象和环境观测，构建与外太空交流的深太空网络(DSN)，利用合成孔径雷达对地面进行高精度观测等，主要是出于军事及科研目的；而火星相关的活动占比高达15%，是因为火星是与地球最相似的行星，了解火星表面的岩石、气候，目的是了解火星在过去是否有生命存在，可以为人类探索和开发火星做准备。

2)寻求扩大AI在太空的应用，以及宽带卫星通信的快速增长，提高了算力要求。以观测卫星为例，地球60%

图14：美国太空活动的新变化，反映出航空航天领域不断增长的算力需求

以上的面积常年被云层覆盖，只有 10%的区域是晴空无云的状态，以往观察卫星都是不加甄别，将拍摄的照片全部回传地面处理。如今，在观察卫星上使用 AI识别出含有云层的照片并丢弃，只回传清晰的照片，可以节省本就有限的星地通信的带宽。除此之外，宽带卫星通信要求卫星具备星上处理和转发数据的能力，以降低时延，减少对地面站的依赖；

3)航天级器件的代际差在缩小，处理能力越来越接近目前最高水平。过去，航天级FPGA的推出时间一般晚于对应商业级器件3-5年，长期落后于当时最领先的器件1-2个代际，10-15年前的FPGA依然在航天器上广泛使用。然而，近两年来，我们看到FPGA 龙头赛灵思加快了宇航级FPGA 的推出。目前，赛灵思最先进的FPGA产品是19年推出的Versal(7nm)，而赛灵思在21年初就推出了宇航级的VersalXQR，做到了和商业级同代际。VersalXQR不仅逻辑单元数相比往代大幅增加，还嵌入了AI处理单元、高速的收发器等，大幅提高了低轨卫星的处理能力和反应时间。

图15：FPGA在航天项目的参与度非常高

#AI#GPU#FPGA#CPU#Niusousou

展开阅读全文

页面更新：2024-03-29

标签：火星功耗数据中心指令架构太空处理器场景优势数据

1 2 3 4 5

FPGA和CPU、GPU有什么区别？为什么越来越重要？

厦门4家企业登上国家级榜单

竞业达怀来科技产业园揭牌

不交钱新闻联播都没法看？人民日报发文，揭开了电视厂商遮羞布

回不去的刘强东：为老家豪捐161亿，祖宅为何深夜被泼油漆？

世卫组织提醒：新冠变异株EG.5“需要留意”！会出现“三阳”吗？专家研判！

三星Galaxy S24系列屏幕细节曝光：有望首发M13屏幕

消息称三星Galaxy S24 Ultra手机将采用直屏设计

明明网速那么慢，为何欧美国家还不和华为合作，不引进中国基站？

Redmi K60至尊版性能评测 - 天玑9200+表现平平，但X7独显表现拔群

「后端」万字图文从零开始搭建公司后台技术栈，这套架构值得拥有

居然赚了我们这么多钱？怪不得年入数千亿！微信、支付宝藏得真深

变革后的第一份考试，淘天拿下“全A”

大瓜！王思聪嘲讽章泽天：她就是个“睡二代”，丢尽了清华的脸？

您能想到吗？我国竟然从最大的稀土矿出口国，沦为靠进口才能活！

上海推进5G网络近海覆盖和融合应用

「后端」万字图文从零开始搭建公司后台技术栈，这套架构

2023年山东省大数据科普知识竞赛来啦，倒计时3天！

追踪过万名儿童个案！中国首个自闭症康复数据大模型在深

贝恩资本高价拿下秦淮数据，是要做大数据中心业务还是赚

收评：沪指探底回升跌0.34%，创业板指跌超1%，数据要素概念

摒弃复杂的数据线，无线充电器是如何做到，功率传输效率与

大模型语料数据联盟开源发布高质量多模态语料“书生·

传音首款竖向折叠屏手机渲染图曝光：圆形背屏，天玑8050处

14代酷睿最良心！i7-14700K多核性能大涨20％功耗只高30W

2023东湖算力与大数据创新大会举行