系统极客一直在努力
专注操作系统及软件使用技能

什么是 TPU?Google 张量处理单元揭秘

Google 第七代 TPU——Ironwood

在谈到 AI 硬件时,大多数「水友」的第一反应往往是 GPU。但如果你想深入了解顶级 AI 模型的训练与部署,视野就不能只局限于 GPU。真正站在 AI 算力前沿的玩家,尤其是像 Google 这样的巨头,早已将 TPU 视为核心利器。

然而,对于大多数企业和开发者而言,TPU 依然是一个「可望而不可及」的解决方案——因为 Google 并不对外出售实体 TPU 芯片。

什么是 TPU?

TPU,全称为 Tensor Processing Unit,即「张量处理单元」,是一种专为 AI 模型(尤其是特定类型)的训练与推理而优化的计算芯片。

  • 从技术角度看,TPU 属于「专用集成电路」(ASIC)的一种。ASIC 是专门为特定任务量身打造的芯片,而 TPU 的唯一使命就是:高效处理 AI 工作负载。
  • 因此,TPU 也被归类为「AI 加速器」,即专门优化机器学习任务的硬件,和英特尔推出的 Xeon 6 和 Gaudi 3 属于同类产品。

Google 早在 2015 年就开始为自家的 AI 项目自研 TPU。虽然并不直接对外出售芯片,但自 2018 年起,就开始通过基于 TPU 的 Google Cloud 服务器实例,向其他企业开放了 TPU 算力。

TPU 的工作原理

尽管 TPU 是 Google 的专有产品,完整的技术细节并不完全公开。但从宏观层面来看,其核心设计理念是:将 AI 模型的数据和参数整合到一个巨大的矩阵中,然后进行大规模并行处理。

  • 这种架构对依赖深度学习或强化学习的 AI 工作负载来说,效率极高。如今,市面上主流的大语言模型(LLM)大多采用了这些方法。
  • Google 从多年前就开始研发 TPU,远早于当前生成式 AI 和 AI 智能体的浪潮。事实证明,TPU 的设计极具前瞻性,完美契合了现代 AI 技术的核心需求。

TPU 的核心用途

在 AI 数据中心里,TPU 主要承担了两大关键任务:

  1. 模型训练:机器学习模型通过学习开发者「投喂」的数据集,识别其中模式和关联性的过程。
  2. 模型推理(也叫模型服务):将训练好的模型部署到生产环境中,用于解读和处理新输入的信息。例如在线的 ChatGPT 和 DeepSeek 服务,或自建的本地 Ollama 服务等。

TPU vs GPU:有什么不同?

TPU 和 GPU(图形处理单元)在功能上的确有相似之处,GPU 同样可以用来训练和服务 AI 模型。它们都是能高效支撑 AI 计算的专用硬件,但也存在几个本质区别:

  • 范畴定义:TPU 特指由 Google 开发的特定芯片系列;而 GPU 是一个广义概念,涵盖了众多厂商生产的成千上万种不同设备。
  • 设计初衷:TPU 是从零开始、专为 AI 工作负载而生的硬件,其架构完全为神经网络处理而优化;相比之下,GPU 最初是为图形渲染设计,后来才因强大的并行处理能力,而被「改造」用于 AI 领域。
  • 获取方式:你无法直接买到数据中心级别的 TPU 芯片;但 GPU 可以轻松买到,并随心所欲地安装在任何地方。

TPU 有哪些版本?

自 2015 年以来,Google 已经发布了七代主要的 TPU 产品。据 Google 介绍,每一代新品都在速度和能效上实现了显著提升。

同时,Google 将每一代新 TPU 都定位为应对 AI 领域新需求的解决方案。例如,最新的 TPU v7(代号 Ironwood),就专门针对「前瞻性信息生成」这类下一代 AI 推理任务进行了深度优化。

TPU 的适用场景

总的来说,任何 AI 模型开发团队都有可能从 TPU 中受益,加速模型的训练和推理过程。在某些 AI 工作流程中,TPU 的处理速度可能会超越 GPU。

  • TPU 特别适合涉及大语言模型(LLM)、自然语言处理、计算机视觉,以及推荐系统等工作负载。
  • 对于那些需要运行像 BERT 或 T5 这类复杂 Transformer 模型,或需要为实时翻译、内容审核等服务提供高吞吐量推理能力的组织来说,TPU 的优势尤为突出。

但需要注意的是,第三方无法直接在自己的环境中安装和监控 TPU,因此我们很难独立、精确地验证它在不同应用场景下的真实能效。

  • 但 Google 官方已经确认,其 TPU 集群采用了液冷方案来保证高效散热。
  • Google 自己的旗舰服务,如搜索、相册和地图,也广泛利用了 TPU 来驱动强大的 AI 功能。

我能买到 TPU 吗?

Google 研发的大多数数据中心级 TPU,仅通过 Cloud TPU 服务以 IaaS(基础设施即服务)产品的形式提供。完全参考了「GPU 即服务」模式,只通过云端「卖算力」,而不是 TPU 本身。

这意味着,你可以租用搭载了 TPU 的服务器来进行 AI 模型的训练和推理,但无法将这些 TPU 芯片买回来安装到自己的服务器或数据中心里。

不过也有例外:你可以通过 Google 旗下的 AI 公司 Coral,买到一款名叫 Edge TPU 的产品。它是 Google Cloud 数据中心级 TPU 的「轻量版」,适用于本地计算机或边缘硬件上训练或运行模型,但无法替代数据中心级别的强大 AI 芯片。

赞(0)
分享到

评论 抢沙发