智能算力需求热度延续 AI芯片国产化提速

2024-01-04 08:30:38 来源:上海证券报 作者:刘怡鹤

  760万标准机架

  截至2023年6月底,我国在用数据中心机架总规模超过760万标准机架,算力总规模达到197EFLOPS,位居全球第二。我国算力总规模近五年年均增速近30%

  如同农业时代的水利、工业时代的电力,算力是数字经济时代的关键生产力。2023年,用于训练AI大模型的智能算力成为供不应求的生产资源之一。

  展望2024年,业内预计,智能算力在总算力规模中的比重将进一步提升。随着AI大模型进入应用阶段,用于推理的算力将和训练算力一样受到关注,分散且更靠近用户的边缘算力或迎来新风口。另一方面,在全球AI芯片供应紧缺的背景下,国产AI芯片的研发也在加快。

  智能算力比重将进一步提升

  2023年末,《深入实施“东数西算”工程 加快构建全国一体化算力网的实施意见》(下称《实施意见》)出炉。在全国一体化大数据中心体系总体布局的基础上,《实施意见》提出构建全国一体化算力网,包括统筹通用算力、智能算力、超级算力的一体化布局,统筹东中西部算力的一体化协同等。

  上海社会科学院信息研究所副所长丁波涛接受上海证券报记者采访表示:“当前我国数字经济仍保持较快发展势头,尤其是2023年兴起的生成式AI,更需要大数据、大模型和大算力作为支撑。”

  丁波涛认为,社会算力需求是多元化的,既需要扩大算力总规模,也需要提高算力质量;既需要发展一般性的通用算力,也需要扩大智能算力和超级算力供给;既需要加强西部算力体系建设促进“东数西算”,也需要提升东部算力能级实现数据的本地计算。因此,《实施意见》着重解决我国算力体系中存在的地区布局失衡、算力资源分散、算力流通遇阻等问题,进一步优化全国整体算力供给结构。

  截至2023年6月底,我国在用数据中心机架总规模超过760万标准机架,算力总规模达到197EFLOPS(EFLOPS是指每秒百亿亿次浮点运算次数),位居全球第二。我国算力总规模近五年年均增速近30%。

  2023年10月印发的《算力基础设施高质量发展行动计划》提出,到2025年,计算力方面,算力规模超过300EFLOPS,智能算力占比达到35%。《2023智能算力发展白皮书》显示,2022年我国智能算力规模为41EFLOPS,在总算力规模中占22.8%。智能算力在总算力规模中的比重将进一步提升已成为业内共识。

  推理算力将与训练算力并重

  2023年智能算力的关键词是“训练”,即AI大模型需要消耗大算力进行训练。

  云计算服务商优刻得拥有两座自建数据中心,分别位于“东数西算”西部枢纽节点内蒙古乌兰察布和东部节点长三角地区的上海市。目前,乌兰察布数据中心已形成可支持万亿参数、千卡集群的大模型训练能力,服务于大模型训练和推理任务。

  优刻得副总裁刘杰告诉记者,由于2023年大模型训练需求爆发,优刻得乌兰察布数据中心机柜销售数量大幅增加,已提前启动二期建设。

  与上述大型数据中心提供的高密度算力不同,边缘算力在靠近数据源头的边缘侧进行计算及存储。近年来,网宿科技凭借其丰富的边缘计算节点资源,进一步发力边缘云计算服务。2023年8月起,网宿科技推出升级版GPU算力平台,提供低时延、灵活弹性的边缘AI计算服务。

  网宿科技高级副总裁李伯洋说,2024年,随着各行各业迎来垂类大模型,AI大模型应用逐步落地,用于推理的算力将和训练算力一样受到关注。当AI技术进入大规模应用阶段,交互非常频繁,对时延提出较高要求,推理算力需求靠近用户、趋于分散,边缘算力将发挥更大作用。

  算力产业链加快拥抱国产化

  智能算力的核心是AI芯片,GPU就是目前较成熟的通用型AI芯片。GPU芯片巨头英伟达在全球AI芯片市场上具有垄断优势。但业内预计,2024年AI芯片国产化替代将加速推进。

  上海交通大学计算机科学与工程系教授梁晓晓介绍说,国内AI芯片的研发路径有三:一是专用芯片;二是通用型GPU芯片;三是弯道或变道超车路线,如存算一体、量子计算、光子计算等。

  近年来,我国兴起了一批AI芯片初创公司,涵盖多种技术路径。在英伟达GPU供应紧缺和受到限制背景下,国产AI芯片加快落地算力产业链。2023年12月,摩尔线程在北京举行了首个全国产千卡千亿模型训练平台——摩尔线程KUAE智算中心揭幕仪式,宣布国内首个以国产全功能GPU为底座的大规模算力集群正式落地。

  在各AI芯片公司致力于构建各自生态的同时,学术界提出开源作为国产AI芯片发展的创新路径。

  2022年10月,梁晓晓团队推出开源GPGPU(通用GPU)平台“青花瓷”。“大模型时代,英伟达领先优势明显。我们以学校作为一个中立单位推出免费、开放、开源的软硬件生态,希望有助于为国内AI芯片公司解决钱、人、时间的问题。”梁晓晓说。

  2022年8月,清华大学集成电路学院副教授何虎团队推出基于RISC-V(一种开放免费的指令集架构)的开源GPGPU实现方案。何虎说:“硬件和软件之间有一个核心接口,就是指令集架构。指令集架构一边可以构建丰富的软件生态,另一边可以对接各种国产AI芯片,软件生态和芯片之间可以更加灵活地适配。”

  开源的创新路径为加快AI芯片国产化替代提供了新思路。上述专家告诉记者,目前,已有不少公司加入开源生态、开源指令集的合作开发中。