并行超算云
并行智算云
首页
产品服务
超算云
智算云
超算行业云
设计仿真云
运维服务
软件产品
解决方案
气象海洋超算云
人工智能超算云
生命科学行业云
企业级混合云
院校级混合云
服务中心
常见问题
软件下载
新闻资讯
并行教育
会议竞赛
并行学园
并行直播课
并行基金
关于并行
企业简介
市场活动
联系我们
加入我们
新闻资讯

并行科技董事长陈健谈算力荒:涨价不可持续,国产芯片要在软件算法上寻求突破

发布时间:2023-12-19 14:36 作者:

今年以来,AI算力持续紧缺。物以稀为贵,涨价也成了必然。自11月份以来,国内不少算力服务公司开启调价,涨价50%,甚至直接翻倍。

算力概念股也颇受资本市场关注,11月初在北交所挂牌的并行科技,作为第一家提供超算和智算服务的A股上市公司,股价也迎来暴涨。

近日,并行科技董事长陈健在与搜狐科技的独家对话中认为,算力涨价将是短期行为。“算力最终是靠成本定价,供需关系是局部因素。”他表示,算力成本未来会越来越低,核心在于制程和设计架构的进步。

图片

并行科技董事长陈健

陈健判断,当计算需求的量足够大的时候,训练和推理都会有专用芯片,GPU也许会被淘汰。“为什么英伟达还在疯狂往前跑?因为有不少人在做专用芯片,这对它来说是很大的威胁。”

谈及今年以来的算力荒,陈健最直接的感受是来寻求合作的企业变多。“算力需求爆发式增长,ChatGPT之后,算力需求出现了量级增长,导致已有算力不够,供需关系失衡。”

不过,陈健强调称,目前市场并不是所有的算力都缺,缺的只有大规模并行计算的算力需求。通用大模型训练即是标准的大规模并行计算,而这方面目前对国外芯片依赖较大。

今年10月底,美国收紧出口管制,A800/H800供应被掐断。早前报道称,英伟达将为中国市场开发三款特供算力芯片——HGXH20、L20PCle和L2PCle,但何时量产还未确认。

“这不会阻碍我们训练大模型的步伐,但可能不得不付出更高的成本去解决。”陈健表示,“我们肯定会往前走,相信差距会随着时间而缩短。”

陈健认为,目前市场头部算力需求在变大,从千卡到万卡,而国内能跑万卡规模的算力集群基本集中在头部互联网企业,它们都是优先供自己去训练通用大模型。不久前,阿里云就暂停对外提供A100云服务器的算力服务。

在陈健看来,通用大模型有看得见、摸得着的资金门槛,而行业模型、推理需求都在快速增长,未来算力需求也必然会从训练端转向推理端。

“我们期待国产芯片尽快进入主流。”陈健在对话中呼吁。他认为,目前国内芯片在大模型大规模训练上尚有差距,而推理更多是性价比的竞争,对国内来说不是卡脖子的地方。

在先进芯片受限的情况下,国内也需要找到更多的突破点。陈健提到,国产芯片在软件、算法等层面存在优化机会。

“软件和硬件的问题,其实都是时间问题。”陈健认为,国产化现在遇到的最大问题是没有市场,没有机会去迭代。“这个是鸡生蛋、蛋生鸡的问题,这事有解但不好解决。”

英伟达如今的市场地位,正是得益于建立了完整的软硬件生态。陈健强调称,软件跟硬件适配,一定要有人去做这件事,而华为在这方面最有希望胜出。




以下是对话精编:

搜狐科技:今年算力持续短缺,全球都在抢算力,您是什么样的感受?现在最缺哪种算力?

陈健:从我们的角度来说,叫算力需求爆发式增长。算力荒跟供求失衡直接相关,ChatGPT出现之后,尤其是2月爆火后,算力需求发生了量级的增长,可能不止十倍的增长,所以会显得市场上缺算力。随着时间推移,算力供给会持续上升。对我们来说,预示着大量的新的机会,这几个月找我们合作的企业变多。

其实市场上也有大量闲置算力,小规模计算、大规模超算等还是供大于求,中小规模模型的训练不缺算力,现在只缺大规模并行计算的算力,有几家训练大模型的企业需要上万卡的规模,而现在全国范围内能跑万卡的算力集群屈指可数,都集中在头部的互联网企业,但真的拿出来做算力服务的基本没有。

搜狐科技:最近不少算力公司涨价,甚至翻倍,能持续吗?算力高成本的情况能否缓解?

陈健:都是短期行为,原因就是供给变化。算力最终是靠成本定价,特别大量的东西是靠成本定价,供需关系永远都是局部的因素。算力供给会持续上升,各种各样的新算力也会不断出现,实现供需平衡很难,而且大概率最终是供大于求,因为供不应求的时候,就有商业价值,会有无数人蜂拥而上。

随着时间推移,算力成本越来越低,核心就是制程和设计架构的进步。从CPU到GPU,到专用的FPGA,再到专用的AISC芯片,速度会迎来越快。现在有很多企业在做训练和推理的专用芯片,GPU也许有一天会被淘汰。

当计算需求的量足够大的时候,用不了多久专用芯片就会出现,市场足够大就会有人用。但为什么英伟达还在疯狂往前跑?因为已有不少人在做专用芯片,这对它来说是很大的威胁。

搜狐科技:现在很多大厂都说对外提供算力服务,但阿里云前面暂停了A100服务,怎么看大厂在算力市场中的角色?

陈健:头部互联网企业的算力实际上是优先供自己去训练通用大模型。算力服务就像供水供电的基础服务,想象空间有多大?盈利空间是挤出来的,客观来说不是特别高大上。但大模型太有想象空间,更具商业价值,所以对于大厂来说,算力为什么要给竞争对手用?这也可以算是一种竞争策略。

今天国内还在疯狂投入通用大模型的企业,一年能投十亿级别算力的基本就头部这几家。大家已经看得很明白,谁有钱?大厂,还有几家拿了几十亿的头部创业公司,这就是看得见、摸得着的资金门槛,中部企业已经知道在通用大模型竞争中没有机会胜出,但行业模型、推理的算力需求还在快速增长。

搜狐科技:现在买不到高性能的芯片,英伟达称会再推出合规芯片,这对国内AI大模型的发展会有什么影响?

陈健:有比没有好,英伟达通过这种方式,多挣好几倍的钱,我们期待国产芯片尽快进入主流。禁售不会阻碍我们训练大模型的步伐,但可能不得不付出更高的成本,需要花更多的钱买更多的卡,比如原来100张就行,但现在可能要300张或500张才行。

搜狐科技:除了要买更多的卡,技术上有什么办法能够解决算力不够的问题?

陈健:当然有办法,有很多软件技术可以使用。性能是硬件上跑在软件表现出来,硬件往前走,软件往前走,算法也在往前走,这些共同组合后,达到最后的优化效果。现在有效计算比较低,还有大量优化的空间,这是软件工程师的机会。做大规模并行也有极限,到一定规模后加速比曲线到顶,这跟应用程序直接相关,取决于什么算法。

搜狐科技:国内包括大厂和不少创业企业都在做AI芯片,您认为替代水平如何?现在面临的主要问题是什么?

陈健:大模型训练是标准的大规模并行计算,对算力要求很高,是GPU超级计算机的综合比拼,国内在这块差距比较明显。千卡规模以上涉及到的技术点很多,还有失效率等很多问题需要解决。这已经不是科学问题,更多是工程化方面的难题。中小规模的训练,海量小规模计算的推理,更多是性价比的竞争,不是卡脖子的地方,国内替代都没问题。

天下技术,无坚不破,唯快不破,时间问题,人家做到3纳米,我们如果做不到7纳米,那就退到14纳米。我们肯定会往前走,相信差距会随着时间而缩短。对我们的封锁,会让我们更强大。

软件和硬件的问题,我们肯定搞得定,是个时间问题。现在国产化遇到的最大问题是没有市场,没有机会去迭代。这个就是鸡生蛋、蛋生鸡的问题,用的人多就会变得好用,好用的话用的人就多,这事有解但不好解决。

搜狐科技:从企业角度来看,这个问题应该怎么解决?国内谁能够跑出来?

陈健:我原来在英特尔做软件工程师,一款新芯片出来之后,在生态就绪的情况下,依然有1万名工程师在推广,去给所有软件公司做适配。国内谁有?我个人认为华为有可能胜出。所有的能用、好用都是用出来的,软件要跟硬件适配,一定需要有人去做这件事。

以前说花10亿做一款芯片,但需要花100亿解决推广过程中的所有问题。大家准备好了前面那10亿,没有准备好后边的100亿。我个人认为,华为准备好了。我们也在2018年加入鲲鹏的凌云计划,坚定不移支持国产算力发展。

搜狐科技:业内呼吁建立全国算力一张网,这能解决算力不足的问题吗?对国家支持算力发展方面有什么样的希望?

陈健:全国不少地方都在建智算中心,去支持自己的企业,因为看到大模型企业未来比较强的商业价值。但如果供给和市场需求脱节,智算中心可能做不好,做好了也许能收回成本。

全国一张网肯定是对的,但很难解决头部万卡需求的问题,它更多还是技术问题。一个可能的解决办法是联合多家企业投资,共同投资运营,相当于共享模式。如果国家想支持人工智能产业的发展,尽量投资到需求端,不要投到供给端,因为非常有可能增加的供给不是需求端需要的算力,要让需求端用脚投票,谁做得好投给谁,市场自然就活了。


欢迎免费体验Paratera并行产品免费试用

助力科技强国 让计算更简单

海量计算资源 减少排队 按需付费 7x24小时服务

——    填写试用申请,并注册平台账户,专属客户经理将为您申请2000核时或200元卡时免费试算资源   ——

*为必填项