首页
产品服务
超算云
智算云
超算行业云
设计仿真云
运维服务
软件产品
解决方案
气象海洋超算云
人工智能超算云
生命科学行业云
企业级混合云
院校级混合云
服务中心
常见问题
软件下载
新闻资讯
并行教育
会议竞赛
并行学园
并行直播课
并行基金
关于并行
企业简介
市场活动
联系我们
加入我们
新闻资讯

并行科技董事长陈健谈算力荒:涨价不可持续,国产芯片要在软件算法上寻求突破

发布时间:2023-12-19 14:36 作者:

今年以来,AI算力持续紧缺。物以稀为贵,涨价也成了必然。自11月份以来,国内不少算力服务公司开启调价,涨价50%,甚至直接翻倍。

算力概念股也颇受资本市场关注,11月初在北交所挂牌的并行科技,作为第一家提供超算和智算服务的A股上市公司,股价也迎来暴涨。

近日,并行科技董事长陈健在与搜狐科技的独家对话中认为,算力涨价将是短期行为。“算力最终是靠成本定价,供需关系是局部因素。”他表示,算力成本未来会越来越低,核心在于制程和设计架构的进步。

图片

并行科技董事长陈健

陈健判断,当计算需求的量足够大的时候,训练和推理都会有专用芯片,GPU也许会被淘汰。“为什么英伟达还在疯狂往前跑?因为有不少人在做专用芯片,这对它来说是很大的威胁。”

谈及今年以来的算力荒,陈健最直接的感受是来寻求合作的企业变多。“算力需求爆发式增长,ChatGPT之后,算力需求出现了量级增长,导致已有算力不够,供需关系失衡。”

不过,陈健强调称,目前市场并不是所有的算力都缺,缺的只有大规模并行计算的算力需求。通用大模型训练即是标准的大规模并行计算,而这方面目前对国外芯片依赖较大。

今年10月底,美国收紧出口管制,A800/H800供应被掐断。早前报道称,英伟达将为中国市场开发三款特供算力芯片——HGXH20、L20PCle和L2PCle,但何时量产还未确认。

“这不会阻碍我们训练大模型的步伐,但可能不得不付出更高的成本去解决。”陈健表示,“我们肯定会往前走,相信差距会随着时间而缩短。”

陈健认为,目前市场头部算力需求在变大,从千卡到万卡,而国内能跑万卡规模的算力集群基本集中在头部互联网企业,它们都是优先供自己去训练通用大模型。不久前,阿里云就暂停对外提供A100云服务器的算力服务。

在陈健看来,通用大模型有看得见、摸得着的资金门槛,而行业模型、推理需求都在快速增长,未来算力需求也必然会从训练端转向推理端。

“我们期待国产芯片尽快进入主流。”陈健在对话中呼吁。他认为,目前国内芯片在大模型大规模训练上尚有差距,而推理更多是性价比的竞争,对国内来说不是卡脖子的地方。

在先进芯片受限的情况下,国内也需要找到更多的突破点。陈健提到,国产芯片在软件、算法等层面存在优化机会。

“软件和硬件的问题,其实都是时间问题。”陈健认为,国产化现在遇到的最大问题是没有市场,没有机会去迭代。“这个是鸡生蛋、蛋生鸡的问题,这事有解但不好解决。”

英伟达如今的市场地位,正是得益于建立了完整的软硬件生态。陈健强调称,软件跟硬件适配,一定要有人去做这件事,而华为在这方面最有希望胜出。




以下是对话精编:

搜狐科技:今年算力持续短缺,全球都在抢算力,您是什么样的感受?现在最缺哪种算力?

陈健:从我们的角度来说,叫算力需求爆发式增长。算力荒跟供求失衡直接相关,ChatGPT出现之后,尤其是2月爆火后,算力需求发生了量级的增长,可能不止十倍的增长,所以会显得市场上缺算力。随着时间推移,算力供给会持续上升。对我们来说,预示着大量的新的机会,这几个月找我们合作的企业变多。

其实市场上也有大量闲置算力,小规模计算、大规模超算等还是供大于求,中小规模模型的训练不缺算力,现在只缺大规模并行计算的算力,有几家训练大模型的企业需要上万卡的规模,而现在全国范围内能跑万卡的算力集群屈指可数,都集中在头部的互联网企业,但真的拿出来做算力服务的基本没有。

搜狐科技:最近不少算力公司涨价,甚至翻倍,能持续吗?算力高成本的情况能否缓解?

陈健:都是短期行为,原因就是供给变化。算力最终是靠成本定价,特别大量的东西是靠成本定价,供需关系永远都是局部的因素。算力供给会持续上升,各种各样的新算力也会不断出现,实现供需平衡很难,而且大概率最终是供大于求,因为供不应求的时候,就有商业价值,会有无数人蜂拥而上。

随着时间推移,算力成本越来越低,核心就是制程和设计架构的进步。从CPU到GPU,到专用的FPGA,再到专用的AISC芯片,速度会迎来越快。现在有很多企业在做训练和推理的专用芯片,GPU也许有一天会被淘汰。

当计算需求的量足够大的时候,用不了多久专用芯片就会出现,市场足够大就会有人用。但为什么英伟达还在疯狂往前跑?因为已有不少人在做专用芯片,这对它来说是很大的威胁。

搜狐科技:现在很多大厂都说对外提供算力服务,但阿里云前面暂停了A100服务,怎么看大厂在算力市场中的角色?

陈健:头部互联网企业的算力实际上是优先供自己去训练通用大模型。算力服务就像供水供电的基础服务,想象空间有多大?盈利空间是挤出来的,客观来说不是特别高大上。但大模型太有想象空间,更具商业价值,所以对于大厂来说,算力为什么要给竞争对手用?这也可以算是一种竞争策略。

今天国内还在疯狂投入通用大模型的企业,一年能投十亿级别算力的基本就头部这几家。大家已经看得很明白,谁有钱?大厂,还有几家拿了几十亿的头部创业公司,这就是看得见、摸得着的资金门槛,中部企业已经知道在通用大模型竞争中没有机会胜出,但行业模型、推理的算力需求还在快速增长。

搜狐科技:现在买不到高性能的芯片,英伟达称会再推出合规芯片,这对国内AI大模型的发展会有什么影响?

陈健:有比没有好,英伟达通过这种方式,多挣好几倍的钱,我们期待国产芯片尽快进入主流。禁售不会阻碍我们训练大模型的步伐,但可能不得不付出更高的成本,需要花更多的钱买更多的卡,比如原来100张就行,但现在可能要300张或500张才行。

搜狐科技:除了要买更多的卡,技术上有什么办法能够解决算力不够的问题?

陈健:当然有办法,有很多软件技术可以使用。性能是硬件上跑在软件表现出来,硬件往前走,软件往前走,算法也在往前走,这些共同组合后,达到最后的优化效果。现在有效计算比较低,还有大量优化的空间,这是软件工程师的机会。做大规模并行也有极限,到一定规模后加速比曲线到顶,这跟应用程序直接相关,取决于什么算法。

搜狐科技:国内包括大厂和不少创业企业都在做AI芯片,您认为替代水平如何?现在面临的主要问题是什么?

陈健:大模型训练是标准的大规模并行计算,对算力要求很高,是GPU超级计算机的综合比拼,国内在这块差距比较明显。千卡规模以上涉及到的技术点很多,还有失效率等很多问题需要解决。这已经不是科学问题,更多是工程化方面的难题。中小规模的训练,海量小规模计算的推理,更多是性价比的竞争,不是卡脖子的地方,国内替代都没问题。

天下技术,无坚不破,唯快不破,时间问题,人家做到3纳米,我们如果做不到7纳米,那就退到14纳米。我们肯定会往前走,相信差距会随着时间而缩短。对我们的封锁,会让我们更强大。

软件和硬件的问题,我们肯定搞得定,是个时间问题。现在国产化遇到的最大问题是没有市场,没有机会去迭代。这个就是鸡生蛋、蛋生鸡的问题,用的人多就会变得好用,好用的话用的人就多,这事有解但不好解决。

搜狐科技:从企业角度来看,这个问题应该怎么解决?国内谁能够跑出来?

陈健:我原来在英特尔做软件工程师,一款新芯片出来之后,在生态就绪的情况下,依然有1万名工程师在推广,去给所有软件公司做适配。国内谁有?我个人认为华为有可能胜出。所有的能用、好用都是用出来的,软件要跟硬件适配,一定需要有人去做这件事。

以前说花10亿做一款芯片,但需要花100亿解决推广过程中的所有问题。大家准备好了前面那10亿,没有准备好后边的100亿。我个人认为,华为准备好了。我们也在2018年加入鲲鹏的凌云计划,坚定不移支持国产算力发展。

搜狐科技:业内呼吁建立全国算力一张网,这能解决算力不足的问题吗?对国家支持算力发展方面有什么样的希望?

陈健:全国不少地方都在建智算中心,去支持自己的企业,因为看到大模型企业未来比较强的商业价值。但如果供给和市场需求脱节,智算中心可能做不好,做好了也许能收回成本。

全国一张网肯定是对的,但很难解决头部万卡需求的问题,它更多还是技术问题。一个可能的解决办法是联合多家企业投资,共同投资运营,相当于共享模式。如果国家想支持人工智能产业的发展,尽量投资到需求端,不要投到供给端,因为非常有可能增加的供给不是需求端需要的算力,要让需求端用脚投票,谁做得好投给谁,市场自然就活了。


欢迎免费体验Paratera并行产品免费试用

助力科技强国 让计算更简单

海量计算资源 减少排队 按需付费 7x24小时服务

——    填写试用申请,并注册平台账户,专属客户经理将为您申请2000核时或200元卡时免费试算资源   ——

*为必填项