后摩尔定律时代下的AI算力增长与挑战

随着科技的发展，人工智能（AI）已经逐渐渗透到我们生活的方方面面。从先进的AI游戏到元宇宙的构建，从自动驾驶的实现到大数据中心的智能化运营，再到像ChatGPT这样的大型语言模型的训练和AI generated content（AIGC）的应用，AI的应用场景正在以前所未有的速度和广度拓展开来。然而，这些应用的实现，都离不开强大的算力支持。

在PC时代，提升算力的的重点是提高CPU的主频，于是双核、多核异构开始流行。从PC时代进入到手机、平板等移动终端时代，开始对于多媒体、图形渲染提出了更高要求，于是GPU变得越来越重要。而相较于CPU，GPU的浮点运算方式更加适合AI算法模型的计算。事实上，很多的AI应用在早期的硬件基础都是GPU，通过GPU来运行多种通用的AI算法。

在早期的摩尔定律时代，AI普遍采用计算和存储分离的冯诺依曼架构，特点是低算力、低能耗比。那时英特尔、AMD、 ARM为代表的CPU芯片是集成电路皇冠上的明珠。随着GPU、AI加速芯片如NPU等处理器的出现，后摩尔时代来临，算力开始大幅度提升，但能耗比仍然较低。比如区块链、数字货币的挖矿需求促进了单一硬件加速器替代GPU。而到了今天，不管是自动驾驶、元宇宙还是AIGC类应用，使用GPU的成本已经太高。AI厂商更倾向于自己设计ASIC芯片，采用专用的计算架构，可以带来几倍，甚至几十倍数量级别的能耗比。

AI中的深度学习需强大的并行处理能力，因此，AI处理器主要集中在GPU、FPGA、ASIC和NPU等，厂商也都在研发和升级这些处理器应对挑战。其中，GPU是当前最主要的AI处理器。2021年上半年，中国AI芯片市场中，GPU占90%以上份额，ASIC、FPGA、NPU等占近10%，预计2025年占比会超过20%。

AI的应用场景多种多样，比如元宇宙、自动驾驶以及AIGC等，针对不同的应用需求，对于算力的需求也有所不同。

元宇宙中的GPU算力需求

作为一个虚拟的并行世界，元宇宙需要大量的算力来模拟现实世界的一切，包括环境、物体和人物等。AI技术能够帮助元宇宙更加真实、智能地模拟现实，从而为用户带来更加沉浸式的体验。在元宇宙中，算力需求主要体现在图形渲染、物理模拟、虚拟角色行为智能等方面。

元宇宙作为一种全新的虚拟世界，对算力的需求极高。从环境建设到角色交互，再到持续的世界运转，都需要强大的计算能力。有观点认为，元宇宙的最终理想形态，对算力资源的需求是近乎无限的。中国信息通信研究院云计算与大数据研究所所长何宝宏就指出，元宇宙迈入虚拟和现实融合的3D互联网时代，算力需求呈现指数级提升。相关预测显示，按照元宇宙的构想，至少需要现在算力的10的6次方倍。

元宇宙相关应用有三大需求：渲染、物理特性计算与AI。GPU最初为图形渲染设计，后发展为承担科学计算和AI计算。GPU是元宇宙不可或缺的核心工具，需有巨大进步才能实现真实、受欢迎的体验。英特尔首席架构师Raja Koduri曾强调，计算能力需增加1000倍才能满足元宇宙的需求。在2025年下一个十年，来自元宇宙的需求将推动GPU在图形+计算+AI+物理模拟方面的进一步发展。GPU在元宇宙中将面临更大爆发，市场相较十年前将呈百倍万倍增长。

自动驾驶进入2000TOPS内卷时代

自动驾驶算是目前比较成熟的商用落地AI应用了。自动驾驶技术的发展离不开高性能的计算能力，需要处理大量的传感器数据，如激光雷达、摄像头和雷达等，实现实时的目标检测、跟踪和路径规划。此外，自动驾驶还需要进行实时的高精度地图匹配、车辆控制和决策。这些应用场景对算力的需求极高，以确保自动驾驶系统的安全性和稳定性。

自动驾驶芯片已成为智能汽车核心，随着自动驾驶级别逐步提升和应用功能的丰富，对芯片算力的要求也越来越高。目前，市场上主流自动驾驶芯片多为SoC，架构分为CPU＋GPU＋ASIC、CPU＋FPGA和CPU＋ASIC。长期来看，定制化的低功耗、低成本ASIC将逐渐取代高功耗GPU。由于自动驾驶算法广泛运用深度学习等AI算法，车端需要能进行推理的AI芯片，云端需进行大量数据训练的服务器芯片。目前，Mobileye、英伟达、特斯拉、高通等厂商在车载计算芯片方面居于市场前列，产品已广泛应用于中高端和新势力车型。

曾几何时，超过100TOPS的算力已经算是比较高端的芯片了。而在英伟达和高通的“PPT”大战下，整个自动驾驶芯片行业正在加速内卷，算力门槛一再飙升。目前，英伟达、高通发布算力超1000TOPS的 SoC，主用于自动驾驶。英伟达推出1000TOPS DRIVE Atlan，后发展至2000TOPS Thor。高通推出Snapdragon Ride Flex，最高级版本算力达2000TOPS。异构计算提高计算并行度和效率，典型代表为SoC芯片，如英伟达Thor，其高算力得益于Hopper GPU、Next-Gen GPU Ada Lovelace和Grace CPU。

在这么卷的情况下，也开始有不少厂商出来给这场算力竞争降降温了。在行业玩家都纷纷追求高算力的2022年，Mobileye今年推出的旗舰产品EyeQ Ultra却只有176TOPS。Mobileye的CEO Ammon Shashua表示，“我们非常坦率地认为TOPS是一个非常不充分的计算能力指标，集成在EyeQ芯片中的计算模型非常复杂，远不是单一指标能够量化的”。

另如Tesla的FSD芯片，也还保持在144 TOPS的算力，但自动驾驶的体验目前是业内公认的头部位置。

国内的自动驾驶芯片代表厂商地平线也认为，应该更强调芯片的有效利用率而非只关注算力。地平线认为，尽管竞品的AI芯片算力更高，但其算力的有效利用率上却打了很大折扣，不同模型算法的有效利用率有很大差异。实际使用时就会有个很奇怪的现象，虽然芯片的TOPS很高，但实际模型跑在芯片上的效果并不好，这正是芯片有效利用率低的表现。

【广告】

AIGC引发的算力需求激增

AIGC（AI generated content）即人工智能生成内容，又称为生成式AI。指利用人工智能技术来生成内容, 其中包括文字、语音、代码、图像、视频、机器人动作等等。目前最火的AIGC应用就是ChatGPT等大型语言模型，这类模型的训练和推理需要大量的计算资源，尤其是在训练阶段，对GPU和其他高性能计算设备的需求极大。

ChatGPT火爆，标志AIGC商业化启动，基于大型神经网络推动AI深度发展，算力需求也同步激增。模型训练是核心挑战，算法模型复杂度指数级增长。以GPT3为例，1750亿参数、1000亿词汇语料库训练，需1000块英伟达A100 GPU训练1个月。不到一年，万亿参数语言模型Switch Transformer问世。人工智能算力每两个月翻倍，供给水平影响AI创新及产业应用落地。AI模型进入万亿级时代，深度学习进入大模型、大数据阶段，算力需求每2年超过实际增长速度375倍。

有报告称，OpenAI为ChatGPT提供服务需要每天694444美元的运营成本和约3617台HGX A100服务器。

ChatGPT基于Transformer技术，运行需要大规模预训练和大量算力。这不仅推动了AI底层芯片的需求，也拉动了高端芯片的需求。随着ChatGPT在各领域应用的普及，如智能音箱、游戏NPC等，以及使用频率的提高，对AI服务器的需求也在剧增。预计全球AI服务器市场将在2025年达到288亿美元。

AI服务器主要为CPU+GPU形式，支持大规模神经网络模型，我国服务器厂商处于全球领先地位，市场规模增长空间广阔。近五年，国内算力产业增速超30%，排名全球第二。已进入超过1000TOPS算力时代，数据中心和超算是典型场景。《新型数据中心发展三年行动计划》指明，2023年底总算力规模将超200 EFLOPS，2025年超300 EFLOPS。超算中心正向Z级算力发展，E级计算是全球顶尖超算目标。以美国橡树岭实验室Frontier超算中心为例，其双精度浮点算力达到1.1 EOPS。

除了CPU+GPU的形式，由于FPGA具有灵活性高、开发周期短等特点，而ASIC则具有体积小、功耗低等优点，它们同样被应用于AI服务器。特别是在机器学习、边缘计算等领域，ASIC被广泛关注。谷歌的TPU v4和百度的昆仑2代AI芯片都在此方向取得了显著成果。

值得注意的是，随着云端芯片处理需求的增加，云端压力不断增大，推动了AI处理向边缘转移的趋势。由此带来的用户需求的变化也在推动AI芯片分工方式的变化，一方面希望保护数据隐私，一方面需要及时处理结果，因此AI处理的重心正在加快向边缘转移。

总结：后摩尔定律时代下的

AI算力增长与挑战

在以往，芯片算力由数据互连、单位晶体管算力、晶体管密度和芯片面积决定。所以要提高芯片算力，主要通过提升系统架构，采用更先进的工艺提高晶体管密度，采用分布式运算和异构计算，以及采用新的Chiplet封装等等方式来实现。

不过，摩尔定律近年来已经趋于饱和，无法维持如此高速的增长。在此背景下，智能计算的算力需求却在7年间提升了6倍。以图像识别和自然语言处理为例，其性能的提升背后是对算力的指数级增长需求。这种需求爆炸式增长的例证就是GPT系列模型，从GPT-1到GPT-4，在短短5年内算力增长了几千倍。

在后摩尔定律时代，AI算力的增长不仅依赖于硬件的改进，如摩尔定律所描述的，而且还依赖于软件和算法的优化，数据传输速率也成为算力瓶颈。算法的效率和计算架构的有效利用率在实现性能提升中的关键作用。

AI处理器的计算架构需要随着时代的发展进行变革，以适应不断发展的需求。未来的AI处理器不仅需要提供强大的计算能力，还需要考虑功耗、体积和成本等因素。同时，软件和硬件的协同优化，也将成为提升AI性能的关键。

总的来说，AI的发展已经深入到我们生活的各个领域，对算力的需求也在不断增长。未来，包括GPU、NPU和ASIC在内的AI处理器，我们将会看到更多的创新，以满足这种需求的增长，并推动AI技术的进一步发展。

活动预告

· 8月深圳国际GPU技术大会

随着AI应用的深入和下沉，围绕算力需求和相关处理器技术的讨论也将持续进行。8月23日，elexcon深圳国际电子展在深圳会展中心（福田）将召开2023年深圳国际GPU技术大会，以“AIGC、元宇宙”为主题，聚焦GPU领域的多个热门领域，汇聚优质企业及知名专家学者，提供全球嵌入式技术的行业交流平台。

会议将包括专家论坛和产业论坛，几十场技术报告。本次大会录用的技术报告，将采用公开征询择优遴选方式，由大会专家委员会审核选定，2个分论坛专题如下：

GPU技术论坛
NPU技术论坛
前沿论坛：探讨AIGC、元宇宙等多个热门领域的GPU应用

大会专家委员：（以姓氏笔画为序）

何虎——清华大学集成电路学院副教授、博士生导师李彬——燧原科技首席软件战略官
景乃锋——上海交通大学电子信息与电气工程学院副研究员、博士生导师
熊庭刚——中国船舶集团公司第709研究所首席技术专家
孙毓忠——中科院计算所研究员
赵地——凌久微电子有限公司

大会时间：2023年8月23日

大会地点：深圳会展中心（福田）

· 8月同期嵌入式与AIoT展

2023年深圳国际GPU技术大会现场，还将举办elexcon 2023深圳国际电子展暨嵌入式与AIoT展，以“算力持续增长，洞悉边缘计算如何为社会智能化生态赋能！”为展示主题，届时将汇聚众多嵌入式领域优质企业及专业观众参与。同期还将举行GPU、物联网、嵌入式、FPGA、AI、云计算、大数据、射频芯片、AR/VR、TSN与工业数智化等主题论坛活动，提供全球嵌入式技术的专业交流平台。

展示范围：

AI与算力