面向大模型训练，腾讯云发布算力提升三倍的大模型计算集群

栏目：成人教育时间：2023-04-17

　　新京报贝壳财经讯（记者白金蕾）4月14日，腾讯云正式发布新一代高性能计算集群。该集群采用腾讯自研的星星海服务器，服务器之间采用业界最高的3.2T（太字节，Terabyte）超高互联带宽，为大模型训练、自动驾驶、科学计算等提供高性能、高带宽和低延迟的集群算力。

　　政府工作报告指出，要增强科技创新引领作用，依靠科技创新推动实体经济高质量发展。人工智能已在自动驾驶、智慧城市等领域广泛应用，成为改善生活质量、推动产业优化升级的重要驱动力。近两年，国内科技企业纷纷加码巨量模型的研发，打造更前沿的AI（人工智能）能力。随着数据体量以指数级不断增长，大模型进入万亿参数时代，更加需要强大的计算能力支持。

　　实测显示，腾讯云新一代集群的算力性能较前代提升高达3倍。未来，新一代集群不仅能服务于大模型训练，还将在自动驾驶、科学计算、自然语言处理等场景中充分应用。

　　算力是数字经济时代的重要基础设施和关键技术。单体服务器算力有限，需要将大量服务器通过高性能网络相连，打造成大规模算力集群。

　　去年10月，腾讯完成首个万亿参数的AI大模型——混元NLP（自然语言处理）大模型训练。在同等数据集下，将训练时间由50天缩短到11天。如果基于本次发布的新一代集群，训练时间将进一步缩短至4天。

　　通过对处理器、网络架构和存储性能的全面优化，腾讯云攻克了大集群场景下的算力损耗问题，为大模型训练提供高性能、高带宽、低延迟的智算能力支撑。

　　网络层面，计算节点间存在海量的数据交互需求，随着集群规模扩大，通信性能会直接影响训练效率。腾讯自研的星脉网络，为新一代集群带来了业界最高的3.2T的超高通信带宽，将集群整体算力提升20%，让超大算力集群仍能保持优秀的通信开销比和吞吐性能。并提供单集群高达十万卡级别的组网规模，支持更大规模的大模型训练及推理。

　　存储层面，几千台计算节点同时读取一批数据集，需要尽可能缩短加载时长。腾讯云自研的文件存储、对象存储架构，具备TB（太字节，Terabyte）级吞吐能力和千万级每秒读写次数，充分满足大模型训练的大数据量存储要求。

　　底层架构之上，针对大模型训练场景，新一代集群集成了腾讯云自研的训练加速引擎，对网络协议、通信策略、AI框架、模型编译进行大量系统级优化，大幅节约训练调优和算力成本。

　　腾讯混元大模型背后的训练框架太极“AngelPTM”，也已通过腾讯云对外提供服务，帮助企业加速大模型落地。腾讯混元AI大模型，覆盖了自然语言处理、计算机视觉、多模态等基础模型和众多行业、领域模型。

　　在腾讯云上，企业可基于大模型能力和工具箱，可结合产业场景数据进行精调训练，提升生产效率，快速创建和部署AI应用。

　　编辑岳彩周

　　校对赵琳

　　举报/反馈

上一篇：【川茶】犹爱家乡青城茶‖郑光福
下一篇：杭州出招！这些大专毕业生可落户

面向大模型训练，腾讯云发布算力提升三倍的大模型计算集群

最近更新成人教育