华泰证券发布最新研报,认为将带动算力需求,核心环节有望率先受益。
研报中具体观点认为:
从需求端来看,大模型训练带来高算力需求。
大算力消耗带来训练成本上升。训练需要使用大量算力资源。据微软官网,微软Azure为开发的超级计算机是一个单一系统,具有超过28.5万个CPU核心、1万个GPU和400GB/s的GPU服务器网络传输带宽。据英伟达,使用单个Tesla架构的对1746亿参数的GPT-3模型进行一次训练,需要用288年时间。此外,算力资源的大量消耗,必然伴随着算力成本的上升,据,使用训练一次1746亿参数的GPT-3模型所需花费的算力成本超过460万美元。虽然GPT-3.5在模型参数量上有了明显下降,但考虑到GPT-3、GPT-3.5均为独家拥有,其他厂商复刻难度较高,巨量参数或仍将是模型开发过程的必经之路,我们预计未来大模型开发的算力成本仍将较高。
模型算力需求增速超越芯片性能增速,算力霸权时代或将到来。据测算,自2012年以来,全球头部AI模型训练算力需求3-4个月翻一番,每年头部训练模型所需算力增长幅度高达10倍。而摩尔定律认为,芯片计算性能大约每18-24个月翻一番。因此,AI训练模型算力需求增长与芯片计算性能增长之间的不匹配,或将带来对算力基础设施供给需求的快速增长。我们认为,考虑到算力对于AI模型训练效果的关键性作用,拥有更丰富算力资源的模型开发者,或将能够训练出更优秀的AI模型,算力霸权时代或将开启。
具体来看,AI大模型对于算力资源的需求主要体现在以下三类场景:
1、模型预训练带来的算力需求
模型预训练过程是消耗算力的最主要场景。采用预训练语言模型,核心思想是在利用标注数据之前,先利用无标注的数据,即纯文本数据训练模型,从而使模型能够学到一些潜在的跟标注无关的知识,最终在具体的任务上,预训练模型就可以利用大量的无标注数据知识。在的模型架构下,语言预训练过程可以根据上下文一次处理所有输入,实现大规模并行计算。通过堆叠多个解码模块,模型的层数规模也会随着提升,可承载的参数量同步增长。与之相对应的,模型训练所需要消耗的算力也就越大。
华泰证券预计,训练一次模型需要的算力约27./s-day。据团队发表于2020年的论文《 are Few-Shot 》,训练一次13亿参数的GPT-3 XL模型需要的全部算力约为27./s-day,训练一次1746亿参数的GPT-3模型需要的算力约为3640 PFlop/s-day。考虑到训练所用的模型是基于13亿参数的GPT-3.5模型微调而来,参数量与GPT-3 XL模型接近,因此我们预计训练所需算力约27./s-day,即以1万亿次每秒的速度进行计算,需要耗时27.5天。
此外,预训练过程还存在几个可能的算力需求点:
1)模型开发过程很难一次取得成功,整个开发阶段可能需要进行多次预训练过程;
2)随着国内外厂商相继入局研发类似模型,参与者数量增加同样带来训练算力需求;
3)从基础大模型向特定场景迁移的过程,如基于构建医疗AI大模型,需要使用特定领域数据进行模型二次训练。
同时,日常运营带来的算力需求旺盛。
预计单月运营需要算力约4874./s-day,对应成本约616万美元。在完成模型预训练之后,对于底层算力的需求并未结束,日常运营过程中,用户交互带来的数据处理需求同样也是一笔不小的算力开支。据数据,2023年1月官网总访问量为6.16亿次。据杂志,每次用户与互动,产生的算力云服务成本约0.01美元。基于此,我们测算得2023年1月为支付的运营算力成本约616万美元。据上文,我们已知训练一次1746亿参数的GPT-3模型需要3640 PFlop/s-day的算力及460万美元的成本,假设单位算力成本固定,测算得单月运营所需算力约4874./s-day。
从模型迭代的角度来看,模型并不是静态的,而是需要不断进行模型调优,以确保模型处于最佳应用状态。这一过程中,一方面是需要开发者对模型参数进行调整,确保输出内容不是有害和失真的;另一方面,需要基于用户反馈和PPO策略,对模型进行大规模或小规模的迭代训练。因此,模型调优同样会为带来算力成本,具体算力需求和成本金额取决于模型的迭代速度。
从供给端来看,核心环节有望率先受益。
算力芯片:AI算力基石,需求有望大规模扩张
GPU架构更适合进行大规模AI并行计算,需求有望大规模扩张。从模型计算方式来看,主要特征是采用了并行计算。对比上一代深度学习模型RNN来看,架构下,AI模型可以为输入序列中的任何字符提供上下文,因此可以一次处理所有输入,而不是一次只处理一个词,从而使得更大规模的参数计算成为可能。而从GPU的计算方式来看,由于GPU采用了数量众多的计算单元和超长的流水线,因此其架构设计较CPU而言,更适合进行大吞吐量的AI并行计算。基于此,随着大模型训练需求逐步增长,下游厂商对于GPU先进算力及芯片数量的需求均有望提升。
服务器:AI服务器有望持续放量
主要进行矩阵向量计算,AI服务器处理效率更高。从模型结构来看,基于架构,模型采用注意力机制进行文本单词权重赋值,并向前馈神经网络输出数值结果,这一过程需要进行大量向量及张量运算。而AI服务器中往往集成多个AI GPU,AI GPU通常支持多重矩阵运算,例如卷积、池化和激活函数,以加速深度学习算法的运算。因此在人工智能场景下,AI服务器往往较GPU服务器计算效率更高,具备一定应用优势。
以浪潮信息目前算力最强的服务器产品之一—浪潮为例。是浪潮为超大规模数据中心研发的 AI服务器,支持2颗Intel最新的Ice Lake CPU和8颗最新的全互联,单机可提供的AI计算性能。
再以联想为例,其服务器SR670 V2 3U,也释放了新的算力。R670 V2是一款GPU丰富的3U机架式服务器,支持8个双宽GPU,包括 A 100和A40 Core GPU,以及配备和 混合液体的 HGX A100-GPU型号到空气冷却。SR670 V2为各行各业的AI、高性能计算(HPC)和图形工作负载提供最佳性能。无论是零售、制造、金融服务和医疗保健行业,都可以利用其GPU的处理能力来提取更重要的见解并利用机器学习(ML)和深度学习(DL)推动创新。一个由13个SR670 V2组成的机架可以产生多大两个的计算能力,为AI和HPC工作负载提供优化的加速性能。
此外,联想服务器产品市场份额位居全球第三;在高性能计算领域,联想多年在全球和中国市场排名第一;在基础型存储市场份额全球第一;在中国,联想在中小企业服务器市场份额排名第一、基础型存储市场份额排名第三。
数据中心:核心城市集中算力缺口或将加剧
IDC算力服务是承接AI计算需求的直接形式。的模型计算主要基于微软的Azure云服务进行,本质上是借助微软自有的IDC资源,在云端完成计算过程后,再将结果返回给。可见,IDC是承接人工智能计算任务的重要算力基础设施之一,但并不是所有企业都需要自行搭建算力设施。从国内数据中心的业务形态来看,按照机房产权归属及建设方式的角度,可分为自建机房、租赁机房、承接大客户定制化需求以及轻资产衍生模式四种。
若使用商汤智算中心全部算力,可在11分钟完成一次模型训练。以亚洲最大的人工智能计算中心之一—商汤智算中心为例。据商汤科技官网,商汤智算中心于2022年1月启动运营,峰值算力高达3740 。
本文源自:南早网
发表回复