服务国内七成大模型企业火山引擎如何为大模型训练降本增效？-上市公司-上海证券报·中国证券网

服务国内七成大模型企业火山引擎如何为大模型训练降本增效？

　　上证报中国证券网讯（记者罗茂林）AI大模型风起云涌的时代，所谓兵马未动粮草先行，云计算平台成为AI厂商的兵家必争之地。4月18日，火山引擎在其举办的“原动力大会”大会上明确将发力为大模型训练厂商提供云服务。火山引擎总裁谭待表示，AI大模型有巨大潜力和创新空间，火山引擎会服务客户做好大模型，共同推动各行业的智能化升级。

　　对于这一发展规划，在随后的采访中，谭待对上海证券报记者表示，作为字节跳动旗下的云服务厂商，火山引擎本身并不会从事自研大模型的开发，而是将注意力集中在服务大模型AI厂商之上。“目前国内有数十家做大模型的企业，七成左右已是火山引擎的客户。”谭待认为，大模型不会一家独大。与其他云厂商力推自家大模型不同的是，火山引擎将接入多家大模型深度合作，为企业和消费者提供更丰富的AI应用。

　　自2022年底发布以来，ChatGPT成为人类历史上最快获得上亿用户的消费级互联网应用。“国内很多科技公司投入到大模型建设中，他们有优秀的技术团队，也有丰富的行业知识和创新想法。”然而，大模型所需要的云计算等AI基础设施却相当昂贵。

　　毫无疑问，无论是OpenAI的ChatGPT还是国内百度十年磨一剑推出的“文心一言”，大模型训练背后都是一门烧钱的生意，其中对于算力的消耗无疑相当可观。这也使得“大厂才能造大模型”成为如今行业的一句预言。

　　那么小厂商就没有机会了吗？据谭待透露，火山引擎的大模型云平台获得智谱AI、昆仑万维等众多企业的良好反馈。

　　“业务创新需要试错，试错要大胆、敏捷，但试错也一定要控制成本。”字节跳动副总裁杨震原告诉记者，作为AI模型支出的大头之一，如果云上算力成本能够下降，那么就能极大程度降低厂商负担。

　　此次大会上，火山引擎宣布与字节跳动国内业务并池。这意味着，基于内外统一的云原生基础架构，抖音等业务的空闲计算资源可极速调度给火山引擎客户使用。“算力的使用也是存在波峰波谷的，比如晚间抖音算力需求大，而到了深夜凌晨算力就会空闲。”杨震原解释道，“而这后半夜的算力空闲恰好就可以满足科学训练的需求，这意味着能够进一步帮助用户降本增效。”

　　据了解，目前火山引擎机器学习平台，支持单任务万卡级别的超大规模分布式并行训练场景。GPU弹性计算实例可灵活调度资源，随用随取，最高可以为客户节省70%的算力成本。

　　值得注意的是，此次大会上火山引擎发布了新一代自研DPU，实现计算、存储、网络的全组件卸载。而这也被视为火山引擎帮助客户训练模型“降本增效”的重要一步。

　　“大模型需要大算力，虚拟化会带来资源损耗，规模越大就损耗越多。未来3年内，大规模的算力中心，都将形成‘CPU+GPU+DPU’的混合算力结构。”谭待表示，“这一模式下，CPU负责通用计算，GPU负责AI计算，DPU负责资源卸载、加速和隔离，从而提升资源效率。”

　　正因DPU的重要性在AI大模型时代愈发凸显，其占云计算成本的比重也越来越大，而这也成为驱动火山引擎涉足自研DPU的重要动因。据了解，目前这款自研DPU网络性能可达5000万pps转发能力、延迟低至20us。同时，基于自研DPU的各类计算实例性能也有显著提升，例如适用于大模型分布式并行训练场景的GPU实例，相较上一代实例集群性能最高提升3倍以上。

相关新闻

公告精选

十大利好

公告快讯

今日交易提示

上证投资家

服务国内七成大模型企业 火山引擎如何为大模型训练降本增效？