日前,两家启明创投投资企业无问芯穹与壁仞科技在千卡训练集群领域取得技术新突破。基于壁仞科技GPU千卡训练集群,结合无问芯穹大模型训练引擎与壁仞科技SUPA软件工具链,双方协力实现了集群训练性能快速优化,成功在壁仞科技GPU集群上,将大语言模型(LLM)训练效能提升近1倍。
无问芯穹大模型训练引擎面向国产集群大规模并行训练性能优化的场景,以公有云平台训练镜像的方式或私有化部署的模式提供服务,可大幅缩短训练时长、提升集群利用率,该引擎支持主流模型结构,兼容多元硬件集群,具备迁移便利、优化快速等优势。
目前,壁仞科技的千卡规模训练集群已成功在无问芯穹Infini-AI异构云平台(cloud.infini-ai.com)上纳管和调度,实现并完整验证了弹性容错、异常节点探测、检查点保存与加载、断点续训四大功能。
此外,壁仞科技的“壁砺106系列”和“壁砺110系列”GPU产品已完成与无问芯穹Infini-AI异构云平台的全面接入。其中,壁仞科技最新发布的高性能、低功耗壁砺110E推理卡也已在Infini-AI异构云平台的大模型服务平台上线。官方数据显示,在大模型推理服务方面,壁砺110E推理卡具有高性能、低功耗的优秀特性,在同机架高度下,AI算力密度最高可达到市场主流云端PCIE8卡服务器方案的1.3倍以上,能耗节省达70%,可显著降低整体系统的总拥有成本(Total Cost of Ownership, TCO)。
无问芯穹大模型服务平台基于异构推理加速,为大模型应用开发者提供数据处理、微调、推理等快速便捷的模型调用API,现已上架包括CogVideoX 2B、Llama 3.1 70B、Qwen2 72B、GLM4 9B、Stable Diffusion在内的多种大语言模型、文生图及文生视频模型。当前,通过无问芯穹大模型服务平台调用各种开放API的同时,也已可调用壁砺110E推理卡,支持各种大语言模型、多模态模型的云上推理,为商业级用户业务提供充沛的算力支撑。
凭借长期在多元异构算力激活以及软硬件联合优化等方面的专业深耕,无问芯穹打造了连接“M种模型”和“N种芯片”的“M×N”AI基础设施新范式,已实现多种大模型算法在多元芯片上的高效协同部署,在国产算力集群效能提升技术上积累了显著优势。2024年3月,无问芯穹首次发布了能够支持多种模型在多种芯片上高效推理的异构云平台Infini-AI。今年7月,无问芯穹Infini-AI异构云平台又成为了全球首个支持单任务千卡规模异构芯片混合训练的平台,具备万卡扩展性,支持包括AMD、华为昇腾、天数智芯、沐曦、摩尔线程、NVIDIA六种芯片在内的大模型混训,可一键发起700亿参数大模型训练。
此次无问芯穹与壁仞科技在壁仞千卡训练集群上联合攻关,取得了近1倍的效能提升,是国产算力生态共建进程中的一座重要里程碑。未来,无问芯穹将与壁仞科技继续携手,在大规模自主可控智能算力集群优化与运营等方面深化合作,进一步提升面向商业化算力客户场景的联合服务能力。