服务国内七成大模型企业 火山引擎如何为大模型训练降本增效?

2023-04-19 09:49:54 来源:上海证券报·中国证券网 作者:罗茂林

  上证报中国证券网讯(记者 罗茂林)AI大模型风起云涌的时代,所谓兵马未动粮草先行,云计算平台成为AI厂商的兵家必争之地。4月18日,火山引擎在其举办的“原动力大会”大会上明确将发力为大模型训练厂商提供云服务。火山引擎总裁谭待表示,AI大模型有巨大潜力和创新空间,火山引擎会服务客户做好大模型,共同推动各行业的智能化升级。

  对于这一发展规划,在随后的采访中,谭待对上海证券报记者表示,作为字节跳动旗下的云服务厂商,火山引擎本身并不会从事自研大模型的开发,而是将注意力集中在服务大模型AI厂商之上。“目前国内有数十家做大模型的企业,七成左右已是火山引擎的客户。”谭待认为,大模型不会一家独大。与其他云厂商力推自家大模型不同的是,火山引擎将接入多家大模型深度合作,为企业和消费者提供更丰富的AI应用。

  自2022年底发布以来,ChatGPT成为人类历史上最快获得上亿用户的消费级互联网应用。“国内很多科技公司投入到大模型建设中,他们有优秀的技术团队,也有丰富的行业知识和创新想法。”然而,大模型所需要的云计算等AI基础设施却相当昂贵。

  毫无疑问,无论是OpenAI的ChatGPT还是国内百度十年磨一剑推出的“文心一言”,大模型训练背后都是一门烧钱的生意,其中对于算力的消耗无疑相当可观。这也使得“大厂才能造大模型”成为如今行业的一句预言。

  那么小厂商就没有机会了吗?据谭待透露,火山引擎的大模型云平台获得智谱AI、昆仑万维等众多企业的良好反馈。

  “业务创新需要试错,试错要大胆、敏捷,但试错也一定要控制成本。”字节跳动副总裁杨震原告诉记者,作为AI模型支出的大头之一,如果云上算力成本能够下降,那么就能极大程度降低厂商负担。

  此次大会上,火山引擎宣布与字节跳动国内业务并池。这意味着,基于内外统一的云原生基础架构,抖音等业务的空闲计算资源可极速调度给火山引擎客户使用。“算力的使用也是存在波峰波谷的,比如晚间抖音算力需求大,而到了深夜凌晨算力就会空闲。”杨震原解释道,“而这后半夜的算力空闲恰好就可以满足科学训练的需求,这意味着能够进一步帮助用户降本增效。”

  据了解,目前火山引擎机器学习平台,支持单任务万卡级别的超大规模分布式并行训练场景。GPU弹性计算实例可灵活调度资源,随用随取,最高可以为客户节省70%的算力成本。

  值得注意的是,此次大会上火山引擎发布了新一代自研DPU,实现计算、存储、网络的全组件卸载。而这也被视为火山引擎帮助客户训练模型“降本增效”的重要一步。

  “大模型需要大算力,虚拟化会带来资源损耗,规模越大就损耗越多。未来3年内,大规模的算力中心,都将形成‘CPU+GPU+DPU’的混合算力结构。”谭待表示,“这一模式下,CPU负责通用计算,GPU负责AI计算,DPU负责资源卸载、加速和隔离,从而提升资源效率。”

  正因DPU的重要性在AI大模型时代愈发凸显,其占云计算成本的比重也越来越大,而这也成为驱动火山引擎涉足自研DPU的重要动因。据了解,目前这款自研DPU网络性能可达5000万pps转发能力、延迟低至20us。同时,基于自研DPU的各类计算实例性能也有显著提升,例如适用于大模型分布式并行训练场景的GPU实例,相较上一代实例集群性能最高提升3倍以上。