本文通过对大模型训练的应用运行特征分析,得出大模型训练是典型的超算应用,且大模型训练需要三高,即高质量、高性能和高性价比;将超算市场分为尖端超算、通用超算、智能超算和业务超算四类,分析了四类市场的特点以及对应的供给产品平台,介绍了并行科技对应四类市场的产品矩阵;给出了近五年全球高性能计算市场和中国高性能计算市场的发展趋势。
关键词:大模型算力 大模型训练 算力服务
大模型训练算力特点
随着ChatGPT的爆火,一时间百模兴起,涌现出百度的文心、阿里的通义、腾讯的混元、字节的云雀、华为的盘古、智谱的清言等大模型,大厂和初创公司都参与到这场角逐中。大模型算力成为这场竞争的焦点。
大模型训练是典型的超算应用
大模型训练的计算主要有以下几个特点。
1.数据规模庞大:大模型训练需要大量的数据进行学习和优化,以确保模型具有广泛的知识和较强的泛化能力。这些数据通常来源于网络、数据库、科学研究等领域,其规模可达数亿甚至数十亿个样本。
2.计算资源需求高:大模型训练对计算资源的需求非常高,通常需要高性能的计算机、显卡集群或超级计算机。此外,随着模型规模的扩大,训练时间也会显著增加,这对计算资源的利用率提出了更高的要求。
3.并行计算:为了提高训练速度,大模型训练通常采用并行计算技术,如数据并行和模型并行。通过将计算任务分配给多个计算节点或设备,可以大幅提高训练效率。
4.分布式计算:大模型训练还采用分布式计算技术,将训练任务分布到多个计算节点上进行协同处理。这可以充分利用网络中各个节点的计算能力,提高整体训练性能。
5.异构计算:大模型训练中常常涉及异构计算,即利用不同类型的计算资源(如高性能协处理器、GPU、TPU等)协同处理计算任务。这使得训练系统能够针对不同计算任务优化资源分配,提高整体训练性能。
6.优化算法:为了提高模型的训练效果,大模型训练中通常采用各种优化算法,这些算法可以加速模型训练过程,提高模型收敛速度和性能。
超级计算(supercomputing)是高性能计算领域的顶尖形态,具备以下特点。
1.并行计算:超算应用采用并行计算技术,将大规模的计算任务分解成多个小任务,在多个处理器或多个计算机上进行计算。这大大提高了计算效率,使得原本需要长时间完成的任务可以在较短的时间内完成。
2.分布式计算:超算应用通过分布式计算技术,将计算任务分配给众多计算机节点进行协同处理。这种计算方式充分利用了网络中各个节点的计算能力,提高了整体计算性能。
3.高度集成:超算应用通过集成数千甚至数万台计算机、存储设备和网络设备,形成一个高度集成的计算系统。这种系统具有强大的计算能力和极高的资源利用率,可以满足不同领域和应用场景的计算需求。
4.弹性扩展:超算应用具备弹性扩展能力,可以根据计算任务的需求和资源状况动态调整计算节点数量。这使超算系统能够在不同场景下保持较高的资源利用率和计算性能。
5.异构计算:超算应用采用异构计算技术,利用高性能处理器、GPU、现场可编程门阵列(FPGA)等不同类型的计算资源进行协同处理。这使超算系统能够针对不同计算任务优化资源分配,提高整体计算性能。
6.负载均衡:超算应用通过负载均衡技术,确保为各个计算节点合理分配计算任务。这有助于维持系统稳定,提高计算任务的完成速度和准确性。
并行科技依据应用运行特征方法论,自主研发了应用运行特征采集与分析软件。该软件可以采集分析应用在运行过程中的CPU利用率、CPU微架构数据、GPU利用率、GPU微架构数据、显存利用率、内存利用率、磁盘读写速率、网络收发速率等数据,相当于为应用在运行过程中做“CT”检查。图1展示了通过应用运行特征采集与分析软件采集的1300亿参数大模型训练的应用运行特征。图的上半部分是大模型运行的量化数据特征,下半部分是大模型运行的时序图。图2是1300亿参数大模型训练的应用运行特征单节点放大图。从图1和图2可以看出,该大模型训练的特征是多节点并行协同工作,节点计算资源利用率高,节点间通信频繁密集。通过以上分析,可以得出大模型训练属于典型的超算架构应用。大模型训练,算力需要达到“三高”,即高质量、高性能、高性价比。
图1 1300亿大模型训练应用运行特征图
图2 1300亿大模型训练应用运行特征单节点放大图
大模型需要高质量
高质量即保障大模型训练能正确、稳定、不中断地得到结果。图3展示了智谱华章训练GLM-1300亿参数大模型的工程过程。该模型历时8个月完成训练,平台的调试适配用了近6个月,正式训练开始后仍面临平台硬件故障带来的稳定性问题,即便设置检测点(checkpoint),每次故障仍会造成一定的时间和经济损失。高质量训练平台对高效完成大模型训练至关重要。
图3 GLM-1300亿大模型训练过程
大模型需要高性能
高性能是指更快地完成大模型训练计算,既能抓住发展的时间窗口,又能节省大笔训练成本。要实现高性能,需要在不同阶段通过多种手段提升性能,如在硬件选型阶段选择最适合大模型训练的硬件架构平台,在训练阶段选择合适的算子库和并行方法等。
大模型训练需要高性价比
大模型训练“烧钱”是公认的,无论是初创公司还是传统大厂,高昂的投入都会带来巨大的压力。图4展示了OpenAI的GPT-3、DeepMind的Gopher、微软的MT-NLG、谷歌的PaLM的训练数据,参数量从1750亿到5400亿不等,训练费用少则百万美元,多则千万美元。国内的玩家未公开相关数据,费用估计也在数千万元到数亿元人民币。降低大模型训练的费用成为AIGC企业的重要关注点,甚至是初创企业能否存续的关键。
图4 大模型训练费用支出
高质量、高性能、高性价比的超算架构GPU算力集群成为大模型竞争的刚需。
算力供给现状
超算的市场可以分为四类:尖端超算、通用超算、智能超算和业务超算。
尖端超算
尖端超算面向万核以上的应用,追求极大规模、极致性能,主要用户为高端超算的从业人员,包括攻坚型科研单位、国家级用户和各行业顶级研究机构,对超算硬件系统要求非常高。这类产品可谓国之重器,要求计算、访存、通信、I/O都非常出众,性能设计高度平衡的高端超级计算机,需要国家集中力量投入,不要求高性价比,一般由国家超级计算中心实现并满足此类需求。
通用超算
通用超算面向万核以下的应用,绝大多数是千核以下的应用,需要优质服务,关注性价比,用于满足海量无超算资源用户的日常需求,当前以自主建设的中小微超算系统为主。
此类需求是海量用户需求聚类,需要基于应用运行特征分析,针对不同类型应用,采取动态随需增长方式建设最高性价比超算服务计算资源,通过租用超算服务方式,帮助用户从自建中解脱出来,目前以超级云计算中心模式满足此类市场需求。
智能超算
智能超算以GPU算力为主,应用规模从单卡到万卡,计算量极度密集,算力投资大,自建较少,主要是租用智算算力资源,需要优质服务,关注性价比。大模型算力需求是此类典型代表。
此类需求的产品形态有两种模式:解决大模型训练需求的超算中心模式和解决推理等需求的云计算模式。需要基于应用运行特征分析,采用动态随需增长方式建设性价比最高的智算算力资源,帮助用户从自建中解脱出来,租用超算服务。目前主要由智算中心满足此类需求供给。
图5展示了对AI训练量增长趋势和未来市场的预估,从图中左侧数据可以看出,随着BERT、GPT-2、GPT-3、PaLM等大模型的爆发,训练计算量呈指数增长,在2015~2020年,训练计算量增长了6个数量级。图5右侧是国际数据公司IDC给出的预测,2026年智算的算力规模将达1271百亿亿次(EFLOPS),预计未来5年中国智能算力规模的年复合增长率将达52.3%。
图5 AI训练量的增长趋势和未来市场预估
业务超算
业务超算的应用规模通常为单核到几千核,和业务直接关联,关注服务质量、性能和性价比。对业务超算来说,超算只是业务中的一个环节,需要实现完整业务上云,保证业务运行的稳定性和可靠性。
业务超算面向行业,按照行业业务需求设计完整的云上业务流程,保证用户业务各环节都能实现高质量、高性能、高性价比。通常由公有云/超算云或专业超算服务商满足此类需求。
按客户需求设计、供给产品
实际上,用户不关心产品的某个具体功能,而关注最终的收益。用户关注点可总结为三个方面:第一,产品要有高质量,可满足计算任务需求,顺利完成计算;第二,产品要有高性能,能更高效地完成计算任务;第三,产品要有高性价比,能在高效完成计算任务的同时,消耗更低的成本。总之,要有针对性地提供不同的产品形态以更好地满足用户需求。
并行产品矩阵
为满足不同领域的细分需求,并行科技设计了不同的产品矩阵,包括并行超算云、并行智算云、并行行业云等。
并行超算云是面向通用超算市场开发的产品平台,集成了多种数据管理工具、登录交互工具、可视化工具以及软件即服务(SaaS)集成等,满足大、中、小用户的碎片化需求。
并行智算云是面向智能超算市场开发的产品平台,提供超算集群和云主机两种形态,分别满足大模型大规模训练和中小规模训练及推理场景需求,在平台即服务(PaaS)层提供PyTorch和TensorFlow等常用框架,以及常用的多领域开源数据集。并行智算云架构如图6所示。
图6 并行智算云架构
并行行业云基于超算云基础设施,提供企业级“专有云”“混合云”等多产品服务形态的定制化云服务平台。行业云不仅可保障用户业务流程快速、高效、动态实现,还可满足超算业务系统及SaaS化的私有部署、自主可控、安全稳定的个性化需求。
借助海量算力资源池和技术运营服务优势,超算行业云可为汽车制造、气象海洋、基因测序、新药研发、芯片制造、石油勘探等行业提供弹性灵活、快捷高效、安全可靠的高性能计算业务支持。
算力网络服务模式
并行科技基于算力网络服务模式向广大的计算用户输出算力资源。图7为并行超算云业务架构图,该架构分为三层:底层是资源层,涵盖国家各大超算中心,各地方政府建设的超算、智算中心,各大公有云厂商等;中间层是由产品工程(Product Engineering,PE)、系统工程(System Engineering,SE)、站点可靠性工程(Site Reliability Engineering,SRE)、数据工程(Data Engineering,DE)等团队构建的全天候在线超算云服务平台,提供数据处理、前处理、仿真模拟、数值求解、后处理等用户全业务流能力;上层为物理、化学、航天、力学、工业制造、气象海洋、生命科学、人工智能等各领域的海量计算需求。基于超算云的业务架构衍生出四大业务类型:第一类面向各行业的海量计算需求,提供算力输出服务;第二类是面向用户的业务上云场景,超算云提供上云PaaS平台,为业务提供算力调度API和服务保障等;第三类面向国产应用软件开发商提供PaaS平台,共同打造SaaS化模式,助力国产应用软件快速发展,解决“卡脖子”问题;第四类联合各大超算建设方,建立算力运营合作。
图7 超算云业务架构
算力接入标准
目前,算力资源百花齐放,但质量参差不齐,算力接入标准成为保证资源高质量接入和有效输出的关键要素。并行科技制定了5个级别的接入标准,分别对应高质量1级、2级和3级,高性能4级和5级。比如,集群形态智算5级接入标准要求接入的GPU资源为某一高端型号(或以上)并达到1000张规模以上,支持定制化数据安全方案,支持专线能力,支持标准的作业调度,支持智能化运维和应用程序编程接口(API)等。
基于应用运行特征的精确选型
并行超算云平台上运行的应用有千余种,接入资源的类型有百余种。某种应用资源的类型有百余种。某种应用运行在何种平台性能最优、性价比最高?如何实现应用与平台的快速高效匹配?针对这些问题,并行科技推出基于应用运行特征的精准选型ParaSelect服务。用户将典型应用和典型的工作负载(workload)提交至并行科技的标准测试平台,基于测试数据和并行应用运行特征库,该平台可快速给出性能测试报告,告知用户适合该应用运行的硬件平台以及最具性价比的平台。
图8为Llama2-7B模型在A100 40GB PCIe平台不同卡数规模上的预测与实测值,从图中可以看出预测与实测曲线拟合较为接近,可以得出Llama2-7B在A100 40GB PCIe平台有较好的运行效率。
图8 基于应用运行特征的精准选型ParaSelect案例
优化服务
在并行超算云平台运行的多数用量大的超算应用均得到大幅优化。图9展示的是某1300亿参数的预训练应用运行特征,从图中可以看出,衡量计算效率的最主要部件GPU的利用率在75%左右震荡,在计算方面存在优化空间,通过代码分析,优化应用程序负载设计,将GPU利用率提升至95%左右(见图10),计算性能得到大幅提升。
图9 1300亿预训练应用运行特征(优化前)
图10 1300亿预训练应用运行特征(优化后)
全球高性能计算市场呈现出蓬勃发展的态势,图11是IDC等机构给出的全球高性能计算市场以及中国高性能计算市场的发展趋势,学术教育、科研机构、国防、金融和制造是高性能市场的消费主力,占据半壁江山,超算云服务渗透率不断提升,中国在企业和高校等高性能计算市场近五年的复合增长率将超过50%,中国高性能计算市场将继续蓬勃发展。
图11 全球高性能计算市场以及中国高性能计算市场的发展趋势
文章转载自【中国计算机学会】
—— 填写试用申请,并注册平台账户,专属客户经理将为您申请2000核时或200元卡时免费试算资源 ——