微软推出 ND H200 v5 系列 Azure VM，专为 AI 超级计算优化

随着 AI 技术的飞速发展，企业对高效、可扩展的基础设施需求也日益增加，特别是在处理大型 AI 模型和生成式 AI 推理任务时。为此，微软推出了全新的 ND H200 v5 系列 Azure 虚拟机（VM），它专为 AI 超级计算优化，能够处理从基础模型训练到复杂生成式推理等高级 AI 工作负载。

ND H200 v5 虚拟机在性能、效率和扩展性上都有大幅提升，现已广泛应用于微软的 AI 服务平台，包括 Azure 机器学习和 Azure OpenAI 服务等。

我们很高兴采用 Azure 的新 H200 虚拟机。我们发现 H200 提供了更好的性能，而且迁移工作量极小。我们期待利用这些虚拟机来加速研究，改善 ChatGPT 的体验，并进一步推进我们的使命。—— Trevor Cai, OpenAI 基础设施负责人。

Azure ND H200 v5 系列虚拟机简介

通过微软的系统化设计，ND H200 v5 虚拟机显著提升了性能和效率：

搭载八个 NVIDIA H200 Tensor Core GPU，专门解决了 GPU 算力超过内存和带宽增长的问题。
与上一代 Azure ND H100 v5 相比，ND H200 v5 带来了 76% 的高带宽内存（HBM）提升，容量达到 141GB，同时 HBM 带宽提高 43%，达到 4.8 TB/s。

带宽的提升让 GPU 能更快访问模型参数，从而降低整体延迟，特别适合需要即时响应的应用场景，如交互式智能体。ND H200 v5 还支持在单个虚拟机中处理更复杂的大语言模型（LLM），减少了跨多台虚拟机分布式计算的开销，从而提高整体性能。

H200 系列的超级计算集群还具备高效的 GPU 内存管理能力，能够优化模型权重、键值缓存和批处理大小，这些因素对基于 LLM 的生成式 AI 推理性能、延迟和成本效率都有直接影响。

凭借更大的 HBM 容量，ND H200 v5 虚拟机支持更大的批处理规模，与 ND H100 v5 系列相比，在推理工作负载中显著提升了 GPU 利用率和吞吐量。在早期测试中，ND H200 v5 在运行 LLama 3.1 405B 模型时，吞吐量提升了 35%。

要了解更多 Azure 高性能计算基准测试信息，请阅读这篇文章，或访问 Azure GitHub 上的 AI 基准指南。

ND H200 v5 虚拟机还预先集成了 Azure Batch、Azure Kubernetes 服务（AKS）、Azure OpenAI 服务和 Azure 机器学习，帮助企业快速部署 AI 解决方案。请查看 ND H200 v5 系列的详细技术文档了解更多。