DeepSpeed: Deep Learning Optimization Library
DeepSpeed是一个深度学习优化库,它使得分布式训练和推理变得简单、高效和有效。
以下是DeepSpeed的一些关键特性和最新消息:
最新消息
- DeepSpeed empowers ChatGPT-like model training with a single click, offering 15x speedup over SOTA RLHF systems with unprecedented cost reduction at all scales; learn how.
极端速度和规模的DL训练和推理
DeepSpeed使得像MT-530B和BLOOM这样的世界上最强大的语言模型成为可能。它是一个易于使用的深度学习优化软件套件,为训练和推理提供了前所未有的规模和速度。使用DeepSpeed,您可以:
- 训练/推理具有数十亿或数万亿参数的密集或稀疏模型
- 实现出色的系统吞吐量,并有效地扩展到数千个GPU
- 在资源受限的GPU系统上训练/推理
- 实现推理的前所未有的低延迟和高吞吐量
- 通过极端压缩实现推理延迟和模型大小的大幅减少,降低成本
DeepSpeed的四大创新支柱
- DeepSpeed-Training:提供了一系列系统创新,使得大规模DL训练变得高效和易于使用。
- DeepSpeed-Inference:结合了并行技术、高性能自定义推理内核、通信优化和异构内存技术,以实现前所未有的规模推理。
- DeepSpeed-Compression:提供易于使用和灵活的压缩技术,以提高推理效率。
- DeepSpeed4Science:旨在通过AI系统技术创新帮助领域专家解锁当今最大的科学谜题。
DeepSpeed软件套件
- DeepSpeed Library:将DeepSpeed训练、推理和压缩支柱中的创新和技术实现并打包到一个易于使用的开源仓库中。
- Model Implementations for Inference (MII):一个开源仓库,通过DeepSpeed-Inference优化,使低延迟和高吞吐量的推理变得易于访问。
- DeepSpeed on Azure:推荐通过AzureML食谱在Azure上尝试DeepSpeed,这是最简单和最容易的方法。
DeepSpeed采用情况
DeepSpeed已成为微软“AI at Scale”倡议的重要组成部分,用于实现下一代AI能力。DeepSpeed已经用于训练多个大规模模型,包括:
- Megatron-Turing NLG (530B)
- Jurassic-1 (178B)
- BLOOM (176B)
- GLM (130B)
- xTrimoPGLM (100B)
- YaLM (100B)
- GPT-NeoX (20B)
- AlexaTM (20B)
- Turing NLG (17B)
- METRO-LM (5.4B)
DeepSpeed已经与多个流行的开源DL框架集成,如Transformers、Accelerate、Lightning、MosaicML、Determined和MMEngine。
安装
通过pip快速开始使用DeepSpeed,这将安装与特定PyTorch或CUDA版本无关的最新发布版DeepSpeed。
要求
- 在安装DeepSpeed之前必须安装PyTorch。
- 推荐使用版本 >= 1.9的PyTorch,最好是最新的PyTorch稳定版本。
- 需要CUDA或ROCm编译器(如nvcc或hipcc)来编译C++/CUDA/HIP扩展。
贡献
DeepSpeed欢迎贡献!请查看我们的[贡献指南](https://github.com/microsoft/DeepSpeed/blob/master/CONTRIBUTING.md)以了解更多关于格式化、测试等详细信息。
出版物
DeepSpeed团队在多个领域发表了多篇论文,涉及ZeRO内存优化、大规模模型训练、混合专家模型等。
开源的搭建机器学习模型UI界面的Python库