集微网消息:“英伟达是否低估了芯片危机?”

2022年9月,《经济学人》杂志向黄仁勋发出了这样的质疑,彼时的英伟达,正被加密货币泡沫破裂、高端GPU出口遭限等事件连番打击,股价创下两年新低,市值距离2021年末的高点已蒸发逾60%。

杂志记者略显刻薄地评论道:“当他透过眼镜打量他觉得会改变AI面貌的花哨新模型,以及像元宇宙这样更模糊的概念,他是否存在低估此时此地残酷性的危险?”

一百多天后如火如荼的热潮下,黄仁勋在加州大学伯克利分校喊出“这是人工智能的时刻”,一吐胸中块垒。

的确,既是热度空前的“杀手应用”,也为英伟达股价注入强心剂,伴随去年末热度起势,英伟达在几家大芯片巨头中,也走出了久违的领涨表现,同期在外围市场,但凡能编织出“与我的故事”,不少芯片企业也获得了投资者的追捧。

不过在短暂的集体狂欢后,“概念”也必将分化,各路企业描绘的新蓝图成色几何,需要一把技术的标尺加以衡量。

垂直一体化模式的松动

毋庸置疑,远超前辈的热度,已经像火炬般清晰照亮了大模型应用前景。然而回顾当年横空出世之时,不少外界观察者仍习惯以现有厂商格局线性外推,认为苹果公司探明的“新大陆”,最终仍将是诺基亚囊中之物。

在“人工智能的时刻”后,AI产业新机遇,同样并非理所当然应许给旧玩家。

值得指出的是,从0到1完成复现乃至超越实际体验的大模型,对许多团队而言面临工程能力和经济成本的双重约束。

从工程能力要求看,大型语言模型(LLM)参数量短短几年从亿级迈入千亿级,对算力需求已远超处理器性能迭代速度,分布式并行计算也因此进入“深水区”,易并行( )方法撞上天花板,必须开发子计算任务与处理器之间更为复杂的调度方法,相关人才目前十分稀缺。

而在经济成本上,以的“母体”GPT-3模型为例,据称如使用英伟达V100 GPU集群训练一次,不考虑调参排故的理论最低成本也将达到460万美元,微软公司专门为其开发者打造的超算系统据称拥有超过28万个CPU内核和1万个GPU,整体性能可以达到2020年时全球超级计算机榜单前五,如果这一宣传基本属实,则相当于在用一套完整的天河2号超算系统专门支撑其模型训练,这对大多数企业而言无疑太过奢侈。

以此观之,人工智能厂商目前从数据、算法到AI芯片、硬件终端、项目实施的端到端垂直一体化模式,未来或将走向更明晰的专业分工,少数拥有巨型算力集群的科技巨头在云端进行大规模预训练模型迭代,并将接口开放给下游厂商、开发者,产业链下游则基于领域特定知识在边侧、端侧以更低代价、更短周期完成模型精调,实现对垂直应用场景的高可用交付。

面对呼之欲出的“范式转变”,对大多数新老厂商而言,比起抢发“我司也有类似模型开发中”的新闻,更重要的工作,恐怕是对如何挖掘特定场景商业价值深思熟虑。

针对该话题的采访中,思必驰研发总监樊帅指出,“从现实来讲,平台巨头企业在研发投入、团队投入等方面拥有优势,这是毋庸置疑的”。不过随着的应用延伸,上下游企业都将在产业链关键环节做出贡献,对于下游厂商而言,“探索类GPT产品的市场应用,实现技术的商业价值是企业关注的重点,无论是产品工具还是产品方案,挖掘潜力场景,进行技术融合,输出整体性、结果导向性的实用解决方案才是现实问题。”

作为国内专业的对话式人工智能平台型公司,思必驰在类GPT模型的应用落地上也有颇多洞察。

樊帅表示,现在是以文本交互机器人的形式呈现,这种文本生成的方式其实有很大的应用空间,比如在智能客服方向,现在的智能客服是检索式AI,但是生成式AI主动性更高,更具亲和力和有效性。不论是搜索引擎、电商客服还是AI辅助生成,应用级创新能力很强。

chatgpt开发出语音功能_语音通话开发_开发了语音

樊帅预测,在需要基于一定背景知识的创作型产业,以及刚需AIGC的场景、具有SOP(标准作业程序)的行业,比如智能写作、智能客服、文档管理、代码生成、甚至游戏NPC等,是适宜落地的土壤。大模型技术可通过强化上下文理解能力、思维链推理、增强指令学习,来实现场景的融合应用。例如,在会议场景下,根据上千字的会议记录,工具可以迅速根据需求指令,整理出会议纲要及重点,清晰列出待办事项。

进一步具体到语音交互领域,樊帅认为,“未来往语音对话机器人去进阶,强化语音、文本、图像等深度融合的多模态交互技术应用,应对复杂场景的变化。这些都给大家留下思考、应用和探索的空间。思必驰聚焦对话技术,从对话能力输出上来看,具备情感化、高度拟人化的语音TTS存在发展潜力”,他还介绍称,思必驰在这一方向上已进行了探索,推出过具有“高兴、撒娇、抱歉”情感的语音合成技术,应用在有声阅读、智能客服、语音助手、视频配音等行业场景,能够满足更接近真人情感化表达的语音效果。

AI芯片路线之辨

正如上文所述,类GPT大模型的开发极度依赖于算力支撑,随着大模型参数量从百亿、千亿向万亿演进,新的人工智能产业竞争将进一步向算力环节聚焦,与此同时,上下游推理、训练工作负载的需求差异将越来越显著,也对芯片技术演进带来了新的牵引。

围绕这一议题,集微网采访了国内通用GPU领域产业化步伐领先的天数智芯半导体有限公司(简称天数智芯),该公司是国内首家实现通用GPU产品量产及规模应用的厂商,其天垓100产品目前已支撑近百个客户应用,产品涵盖数百个人工智能模型的训练业务场景。

天数智芯产品线总裁邹翾分析,背后的GPT3.5是一种颠覆性的底层技术,其惊艳的应用效果建立在巨量语料库以及超大规模的AI算力基础之上。随着应用场景的演进, 核心技术会加速发展,包括AI模型的复杂度还会不断演进, 这将产生对算力的产生井喷需求。

国内顶尖的企业和机构正在进行相关的技术研究及商用级产品开发。面对国内应用环境及中文语料,相关算法及模型预计将在未来1年左右逐步成熟。在互联网入口,家庭接入设备,办公等各不同领域,针对不同的场景可能会有不同的算法及产品出现,而支撑这些模型的算力底座需要具有良好的通用性及扩展性,才能够快速的支持这些变化的需求,实现商业的可持续化演化。

邹翾表示,未来继续看好通用GPU架构训练产品的发展空间,其通用性、兼容性、以及生态成熟度仍是未来一段时间内人工智能算法及应用构建的主要支撑。

与云侧对通用性、扩展性的需求相比,

在边侧、端侧,推理芯片面对的需求则有所差异。

思必驰研发总监樊帅表示,AI专用芯片可以在侧重于场景化的端侧实现特定场景低能耗,高算力,从定制化来看,ASIC专用AI芯片从效率角度更具优势,随着大模型的普及及应用,能够提升相关芯片产品的性价比。

与此同时,由于数据量的急剧提升,无论在云侧还是端侧,对于数据的隐私保护也提出了更高要求。樊帅强调,为了保证AI的良序发展,我们的确需要去嵌入一些相应的限制手段和规则约束。基于AI的应用和其他衍生的工具级产品,在隐私安全、知识产权风险等方面亟待规范。

邹翾也谈到,在近期的客户交流中能够感受到各界对的关注及开发态度,希望其成为效率提升的有效工具。不过用户也有对数据隐私的担忧,未来随应用扩展,亟需提供隐私计算的技术方案,实现“可用不可见“的计算方式,这也要求更强及更通用的算力支撑。

值得一提的是,对于大模型训练芯片,特斯拉、等海外厂商正试图探索另一条前无古人的道路—通过设计等效超算集群的单个处理器训练大模型,完全绕过分布式并行计算的调度瓶颈。

特斯拉近期公布的Dojo D1自研AI芯片,就是将25个裸片通过硅中介层互联,构成单块“Dojo Tile”,更为激进的,则推出了面积达462平方厘米的WSE-2处理器,声称具有85万个用于张量运算的可编程内核,单张WSE-2支撑的CS-2机柜,据称最多可支撑万亿参数规模的大模型训练。

邹翾表示,新兴技术是针对目标问题的探索,会呈现出百花齐放的局面,在开放环境下竞争将驱使其收敛,市场是最终检测的试金石。在技术发展路线上需要从各个方向去尝试,最终都是为产业的发展贡献自己的力量。

结语

“人工智能的时刻”,的确代表了许多人对热潮的感受,全球公众与行业机构被“卷入”其中的速度,已经清晰昭示出未来更多、更大应用创新沿着这一方向喷薄而出的图景。

在警惕短期过度炒作和跟风的同时,类GPT模型对人工智能商业模式和产业格局带来的长期影响,亟需相关厂商冷静观察,沉着应付,有所作为。