后摩尔定律时代下的AI算力增长与挑战
首页 > 行业 >
后摩尔定律时代下的AI算力增长与挑战
返回
后摩尔定律时代下的AI算力增长与挑战
发布时间: 2023-05-19
浏览次数: 1111

图片


随着科技的发展,人工智能(AI)已经逐渐渗透到我们生活的方方面面。从先进的AI游戏到元宇宙的构建,从自动驾驶的实现到大数据中心的智能化运营,再到像ChatGPT这样的大型语言模型的训练和AI generated content(AIGC)的应用,AI的应用场景正在以前所未有的速度和广度拓展开来。然而,这些应用的实现,都离不开强大的算力支持。


在PC时代,提升算力的的重点是提高CPU的主频,于是双核、多核异构开始流行。从PC时代进入到手机、平板等移动终端时代,开始对于多媒体、图形渲染提出了更高要求,于是GPU变得越来越重要。而相较于CPU,GPU的浮点运算方式更加适合AI算法模型的计算。事实上,很多的AI应用在早期的硬件基础都是GPU,通过GPU来运行多种通用的AI算法。


图片


在早期的摩尔定律时代,AI普遍采用计算和存储分离的冯诺依曼架构,特点是低算力、低能耗比。那时英特尔、AMD、 ARM为代表的CPU芯片是集成电路皇冠上的明珠。随着GPU、AI加速芯片如NPU等处理器的出现,后摩尔时代来临,算力开始大幅度提升,但能耗比仍然较低。比如区块链、数字货币的挖矿需求促进了单一硬件加速器替代GPU。而到了今天,不管是自动驾驶、元宇宙还是AIGC类应用,使用GPU的成本已经太高。AI厂商更倾向于自己设计ASIC芯片,采用专用的计算架构,可以带来几倍,甚至几十倍数量级别的能耗比。


AI中的深度学习需强大的并行处理能力,因此,AI处理器主要集中在GPU、FPGA、ASIC和NPU等,厂商也都在研发和升级这些处理器应对挑战。其中,GPU是当前最主要的AI处理器。2021年上半年,中国AI芯片市场中,GPU占90%以上份额,ASIC、FPGA、NPU等占近10%,预计2025年占比会超过20%。


AI的应用场景多种多样,比如元宇宙、自动驾驶以及AIGC等,针对不同的应用需求,对于算力的需求也有所不同。



01

元宇宙中的GPU算力需求



作为一个虚拟的并行世界,元宇宙需要大量的算力来模拟现实世界的一切,包括环境、物体和人物等。AI技术能够帮助元宇宙更加真实、智能地模拟现实,从而为用户带来更加沉浸式的体验。在元宇宙中,算力需求主要体现在图形渲染、物理模拟、虚拟角色行为智能等方面。


图片


元宇宙作为一种全新的虚拟世界,对算力的需求极高。从环境建设到角色交互,再到持续的世界运转,都需要强大的计算能力。有观点认为,元宇宙的最终理想形态,对算力资源的需求是近乎无限的。中国信息通信研究院云计算与大数据研究所所长何宝宏就指出,元宇宙迈入虚拟和现实融合的3D互联网时代,算力需求呈现指数级提升。相关预测显示,按照元宇宙的构想,至少需要现在算力的10的6次方倍。


元宇宙相关应用有三大需求:渲染、物理特性计算与AI。GPU最初为图形渲染设计,后发展为承担科学计算和AI计算。GPU是元宇宙不可或缺的核心工具,需有巨大进步才能实现真实、受欢迎的体验。英特尔首席架构师Raja Koduri曾强调,计算能力需增加1000倍才能满足元宇宙的需求。在2025年下一个十年,来自元宇宙的需求将推动GPU在图形+计算+AI+物理模拟方面的进一步发展。GPU在元宇宙中将面临更大爆发,市场相较十年前将呈百倍万倍增长。



02

自动驾驶进入2000TOPS内卷时代



自动驾驶算是目前比较成熟的商用落地AI应用了。自动驾驶技术的发展离不开高性能的计算能力,需要处理大量的传感器数据,如激光雷达、摄像头和雷达等,实现实时的目标检测、跟踪和路径规划。此外,自动驾驶还需要进行实时的高精度地图匹配、车辆控制和决策。这些应用场景对算力的需求极高,以确保自动驾驶系统的安全性和稳定性。


图片


自动驾驶芯片已成为智能汽车核心,随着自动驾驶级别逐步提升和应用功能的丰富,对芯片算力的要求也越来越高。目前,市场上主流自动驾驶芯片多为SoC,架构分为CPU+GPU+ASIC、CPU+FPGA和CPU+ASIC。长期来看,定制化的低功耗、低成本ASIC将逐渐取代高功耗GPU。由于自动驾驶算法广泛运用深度学习等AI算法,车端需要能进行推理的AI芯片,云端需进行大量数据训练的服务器芯片。目前,Mobileye、英伟达、特斯拉、高通等厂商在车载计算芯片方面居于市场前列,产品已广泛应用于中高端和新势力车型。


曾几何时,超过100TOPS的算力已经算是比较高端的芯片了。而在英伟达和高通的“PPT”大战下,整个自动驾驶芯片行业正在加速内卷,算力门槛一再飙升。目前,英伟达、高通发布算力超1000TOPS的 SoC,主用于自动驾驶。英伟达推出1000TOPS DRIVE Atlan,后发展至2000TOPS Thor。高通推出Snapdragon Ride Flex,最高级版本算力达2000TOPS。异构计算提高计算并行度和效率,典型代表为SoC芯片,如英伟达Thor,其高算力得益于Hopper GPU、Next-Gen GPU Ada Lovelace和Grace CPU。


在这么卷的情况下,也开始有不少厂商出来给这场算力竞争降降温了。在行业玩家都纷纷追求高算力的2022年,Mobileye今年推出的旗舰产品EyeQ Ultra却只有176TOPS。Mobileye的CEO Ammon Shashua表示,“我们非常坦率地认为TOPS是一个非常不充分的计算能力指标,集成在EyeQ芯片中的计算模型非常复杂,远不是单一指标能够量化的”。


另如Tesla的FSD芯片,也还保持在144 TOPS的算力,但自动驾驶的体验目前是业内公认的头部位置


国内的自动驾驶芯片代表厂商地平线也认为,应该更强调芯片的有效利用率而非只关注算力。地平线认为,尽管竞品的AI芯片算力更高,但其算力的有效利用率上却打了很大折扣,不同模型算法的有效利用率有很大差异。实际使用时就会有个很奇怪的现象,虽然芯片的TOPS很高,但实际模型跑在芯片上的效果并不好,这正是芯片有效利用率低的表现。


【广告】

图片



03

AIGC引发的算力需求激增



AIGC(AI generated content)即人工智能生成内容,又称为生成式AI。指利用人工智能技术来生成内容, 其中包括文字、语音、代码、图像、视频、机器人动作等等。目前最火的AIGC应用就是ChatGPT等大型语言模型,这类模型的训练和推理需要大量的计算资源,尤其是在训练阶段,对GPU和其他高性能计算设备的需求极大。


图片


ChatGPT火爆,标志AIGC商业化启动,基于大型神经网络推动AI深度发展,算力需求也同步激增。模型训练是核心挑战,算法模型复杂度指数级增长。以GPT3为例,1750亿参数、1000亿词汇语料库训练,需1000块英伟达A100 GPU训练1个月。不到一年,万亿参数语言模型Switch Transformer问世。人工智能算力每两个月翻倍,供给水平影响AI创新及产业应用落地。AI模型进入万亿级时代,深度学习进入大模型、大数据阶段,算力需求每2年超过实际增长速度375倍。


有报告称,OpenAI为ChatGPT提供服务需要每天694444美元的运营成本和约3617台HGX A100服务器。


ChatGPT基于Transformer技术,运行需要大规模预训练和大量算力。这不仅推动了AI底层芯片的需求,也拉动了高端芯片的需求。随着ChatGPT在各领域应用的普及,如智能音箱、游戏NPC等,以及使用频率的提高,对AI服务器的需求也在剧增。预计全球AI服务器市场将在2025年达到288亿美元。


AI服务器主要为CPU+GPU形式,支持大规模神经网络模型,我国服务器厂商处于全球领先地位,市场规模增长空间广阔。近五年,国内算力产业增速超30%,排名全球第二。已进入超过1000TOPS算力时代,数据中心和超算是典型场景。《新型数据中心发展三年行动计划》指明,2023年底总算力规模将超200 EFLOPS,2025年超300 EFLOPS。超算中心正向Z级算力发展,E级计算是全球顶尖超算目标。以美国橡树岭实验室Frontier超算中心为例,其双精度浮点算力达到1.1 EOPS。


除了CPU+GPU的形式,由于FPGA具有灵活性高、开发周期短等特点,而ASIC则具有体积小、功耗低等优点,它们同样被应用于AI服务器。特别是在机器学习、边缘计算等领域,ASIC被广泛关注。谷歌的TPU v4和百度的昆仑2代AI芯片都在此方向取得了显著成果。


值得注意的是,随着云端芯片处理需求的增加,云端压力不断增大,推动了AI处理向边缘转移的趋势。由此带来的用户需求的变化也在推动AI芯片分工方式的变化,一方面希望保护数据隐私,一方面需要及时处理结果,因此AI处理的重心正在加快向边缘转移。



04

总结:后摩尔定律时代下的

AI算力增长与挑战



在以往,芯片算力由数据互连、单位晶体管算力、晶体管密度和芯片面积决定。所以要提高芯片算力,主要通过提升系统架构,采用更先进的工艺提高晶体管密度,采用分布式运算和异构计算,以及采用新的Chiplet封装等等方式来实现。


不过,摩尔定律近年来已经趋于饱和,无法维持如此高速的增长。在此背景下,智能计算的算力需求却在7年间提升了6倍。以图像识别和自然语言处理为例,其性能的提升背后是对算力的指数级增长需求。这种需求爆炸式增长的例证就是GPT系列模型,从GPT-1到GPT-4,在短短5年内算力增长了几千倍。


在后摩尔定律时代,AI算力的增长不仅依赖于硬件的改进,如摩尔定律所描述的,而且还依赖于软件和算法的优化,数据传输速率也成为算力瓶颈。算法的效率和计算架构的有效利用率在实现性能提升中的关键作用。


AI处理器的计算架构需要随着时代的发展进行变革,以适应不断发展的需求。未来的AI处理器不仅需要提供强大的计算能力,还需要考虑功耗、体积和成本等因素。同时,软件和硬件的协同优化,也将成为提升AI性能的关键。


总的来说,AI的发展已经深入到我们生活的各个领域,对算力的需求也在不断增长。未来,包括GPU、NPU和ASIC在内的AI处理器,我们将会看到更多的创新,以满足这种需求的增长,并推动AI技术的进一步发展。



05

活动预告



· 8月 深圳国际GPU技术大会

随着AI应用的深入和下沉,围绕算力需求和相关处理器技术的讨论也将持续进行。8月23日,elexcon深圳国际电子展在深圳会展中心(福田)将召开2023年深圳国际GPU技术大会,以“AIGC、元宇宙”为主题,聚焦GPU领域的多个热门领域,汇聚优质企业及知名专家学者,提供全球嵌入式技术的行业交流平台。

图片


会议将包括专家论坛和产业论坛,几十场技术报告。本次大会录用的技术报告,将采用公开征询择优遴选方式,由大会专家委员会审核选定,2个分论坛专题如下:


  • GPU技术论坛

  • NPU技术论坛

  • 前沿论坛:探讨AIGC、元宇宙等多个热门领域的GPU应用


大会专家委员:(以姓氏笔画为序)

  • 何虎——清华大学集成电路学院副教授、博士生导师李彬——燧原科技首席软件战略官

  • 景乃锋——上海交通大学电子信息与电气工程学院副研究员、博士生导师

  • 熊庭刚——中国船舶集团公司第709研究所首席技术专家

  • 孙毓忠——中科院计算所研究员

  • 赵地——凌久微电子有限公司


大会时间:2023年8月23日

大会地点:深圳会展中心(福田)



图片


· 8月同期 嵌入式与AIoT展

2023年深圳国际GPU技术大会现场,还将举办elexcon 2023深圳国际电子展暨嵌入式与AIoT展,以“算力持续增长,洞悉边缘计算如何为社会智能化生态赋能!”为展示主题,届时将汇聚众多嵌入式领域优质企业及专业观众参与。同期还将举行GPU、物联网、嵌入式、FPGA、AI、云计算、大数据、射频芯片、AR/VR、TSN与工业数智化等主题论坛活动,提供全球嵌入式技术的专业交流平台。


图片


展示范围:

  • AI与算力