近期,一条话题围绕“7个月涌现140个智算中心项目”的消息在计算圈内不断流传,引起行业关注,并引发学者对其潜在的“算力闲置”等担忧。
在9月24日的中国高性能计算学术年会(HPC China 2024)上,计算领域专家也不约而同地关注到这个问题。《中国科学报》了解到,大家担忧的问题主要集中于一点:中国智算应该如何健康发展,从而更高效支撑人工智能(AI)应用大潮?
“其实我更担心的是,一些地方以攀比心态上马的智算中心项目,能否保障为真实用户提供优质可靠的智能计算服务?”中国计算机学会(CCF)副理事长、北京并行科技股份有限公司董事长陈健在接受《中国科学报》专访时说,若只有资源盲目扩张却不能发挥其应有效能、让需求端便捷获取优质算力服务,无疑意味着资源和资金的无谓浪费。
陈健在受访中。并行科技 供图
现状:国内已建和在建智算中心已超250个
《中国科学报》了解到,该消息最早出自IT行业媒体“数智前线”。报道显示,数智前线通过对中国政府采购网、中国招投标公共服务平台、天眼查、企查查、寻标宝等渠道的梳理和不完全统计,仅2024年前7个月,围绕土建基础设施和IT基础架构等方方面面的建设内容,智算中心相关项目中标公告已发布超140个。
记者随即取得了与“数智前线”的联系,并获得了其梳理编制的《2024年前7个月智算中心项目》详细信息。
信息显示,这140多个项目中,分布于至少23个省市的诸多市、区、县内,其中尤以安徽、江苏、北京、山东、浙江等省市出单最多。这些项目的中标金额从数万元到超亿元不等,其中尤以数百万元、数千万元的项目居多;超过1亿元的项目有25个,占比约18%。有分析认为,智算中心单个项目过亿元,或代表着一些单体智算中心建设正在逐渐向更大规模演进。
而据赛迪顾问人工智能与大数据研究中心高级分析师白润轩提供的数据显示:截至2024年上半年,国内已经建设和正在建设的智算中心已超过250个。参照当前市场算力服务器价格,一个千卡规模(约须128台算力服务器)的智算中心仅硬件设备的投资额就达约4亿元。
智算中心资源会不会过剩、闲置?
看到上述智算中心建设数量的数字,上海交通大学网络信息中心副主任林新华不无担忧地发问:“现有的和许多正在规划中的智算中心,将会对电网产生多大的压力?如果未来5年生成式人工智能或大模型不能维持高热度,这数百亿的投资该如何处理?”
顾名思义,智算中心以处理人工智能计算任务为主,目前主要承接人工智能(AI)大模型的训练和推理任务。一般而言,大模型训练要求单体算力集群规模越大越好,而推理任务则一般不会有此要求。现阶段在生成式AI热潮之下,市场上呈现出对智能计算(尤其是大规模训练集群)较高的需求态势,但能否长期维持这种高需求状态,市场态度并不完全一致。
另外一件值得探讨的事情是,国内已有智算中心的利用率有多高?
“这可能是个谜。”林新华说:“这也许是商业机密,但如果是政府投资,就应该信息公开。”他表示,他所负责的上海交通大学校级计算公共服务平台“交我算”,在国内高校中第一个践行开放运维理念,坚持把实时利用率公开到网上,“接受用户和社会监督”。
“交我算”系统2024年某时段利用率情况。截图自上海交通大学交我算平台
关于智算中心是否过剩,在一线从事算力服务工作近20年的陈健认为,应该认真地从供需视角来分析。
“如果市场对智算中心的需求是300、500个,那么现在建设250个,一点都不多;问题是需求量真的有这么大吗?大家喊的‘缺算力’到底是缺哪一类算力?这需要弄清楚。”陈健从他在一线观察向《中国科学报》分析说,其实市场上真正稀缺的是单集群规模超2000卡的训练算力;当然,“万卡以上集群更加珍稀”。
他言下之意,除了相对稀缺的单体大规模算力集群之外,其他诸如用于AI推理的算力供应相对而言是能满足需求或够用的,问题是如何开发好、利用好;投建新的智算中心也要算好“供需账”,因为一旦算力供过于求,新建乃至一些已建智算中心恐有可能从“全村希望”变成“闲棋冷子”。
建好、用好都有挑战,人才是关键
事实上,要建好一个智算集群并非易事。中国工程院资深院士倪光南指出,智算集群不是简单的软硬件的堆砌,它是一个复杂工程系统,要求“3+1”算力体系(即算、存、运和服务)的紧密协同。
“就好比构建一个足球冠军团队,不仅需要有各个优秀球员,还需要球员之间的协同和配合以达到最高效能。”倪光南说,也正是基于复杂工程系统思维,智算集群在算力规模、算力利用率、集群可靠性等关键指标上,可以持续“挑战”和“对抗”源于单模块、单机、单系统的各种物理极限和失效问题。
但是复杂系统有其脆弱性。陈健告诉记者,智算集群和超算类似,本质上都是并行计算程序,其特点是所有计算单元要同步运行,如果其中一个计算节点或通信模块出现故障,整个程序就会失灵,训练任务就中断了。
“这就要求在系统搭建之初不能有任何软件或技术上的问题。换句话说,必须把每一件事都做到极致,才有可能做到尽可能高的系统稳定性。”陈健说。
林新华告诉《中国科学报》,字节跳动和DeepSeek近期都发表了介绍关于万卡GPU集群如何建设与运维的论文,就主要从性能优化和可靠性两方面展开。
“如果没有解决甚至没有意识到这些问题,那么这些智算中心中的一部分很有可能是在非常低效运转。”林新华说,而且规模越大,问题越多:“我相信在实际运维和管理中遇到的问题会远比字节跳动论文中指出的要多得多。”
这些技术细节决定了,算力集群的建设、运维和应用等环节,都非常依赖专业运维和技术队伍。然而,热火朝天部署智算中心的另一面,恰是专业人才的短缺。
“如果数字准确的话,国内已建和在建的智算中心超250座,但我不认为国内有250支专业的队伍来维护它们。”陈健直言不讳。在他看来,全国范围内能称得上顶尖的一站式计算服务团队的数量,“两只手数得过来”。
林新华也提出,算力服务器等软硬件可以“说买就买”,但好的技术人员不是能马上就批量培养出来的,“这么多智算中心,真的都能找到那么多专业的算力技术人员吗?”
记者了解到,国外的智算中心更偏向于公有云部署或在已有超算中心建设AI算力提供服务,因为有现成的专业运维团队和技术人员保障。比如美国国家科学基金会就在德州大学高级计算中心的基础上,建设了相应的智算集群。
建议:让有形的手和无形的手共同作用
“无论是质疑超建还是担忧水平,大家本质关心的,是一个面向需求、如何最优匹配供给的问题。”陈健对《中国科学报》表示,厘清这一点至关重要。
与水电不同,算力并不均质化,各行各业所需的算力模式亦不尽相同,各类用户会根据其需求寻找市场上最匹配的算力。“如果市场上有当然好,没有,那就新建。”陈健说,其实新建算力中心并不可怕,关键要看是不是有“真金白银的需求”。
陈健认为,面对需求,寄望于国家沿用“计划经济”方式、统筹各地方建设规划的做法,显然已经过时且难度极大,极有可能由于规划周期太长造成“建完发现需求变了”的尴尬。他建议,国家可适度调控政策这只“有形的手”,让市场这只“无形的手”发挥作用。
“比如,地方上如果有建设智算中心的计划,初期可以通过调研粗略估计需求规模,之后可以根据需求变化来决定是否继续‘加码’和决定‘加码’力度的大小,需求增长快就多加、增长慢就不加或少加。”他说,这种“动态持续增长式建设”方法,并行科技已有具体实践,OpenAI训练GPT系列大模型的算力规模也是慢慢加上去的,事实证明,随着需求变化来调整算力资源建设规模“基本上不会出大问题”。
另外,陈健也想到,从顶层设计的角度,政策上还可以考虑从补贴需求侧入手、驱动供给侧以自我进化的方式打造智算产业。例如,国家政策层面可以要求地方政府拿出规划智算中心建设所需财政支出的30%或50%(非指定具体数字,仅为参考),贴补给大模型企业等需求方,监督他们在市场上自由购买算力服务。他认为,市场会“用脚投票”遴选出有竞争力的算力供给者,优胜劣汰,让“盲目上马智算中心”没有生存土壤。
“但这样做的话,其中也会涉及许多具体问题,比如如何做到公平分配、相关决策要做到合理合法合规等。”陈健说,如何破题,对于还处在智能时代初期的我们,未来还需要更多的研究和探索。
—— 填写试用申请,并注册平台账户,专属客户经理将为您申请2000核时或200元卡时免费试算资源 ——