截至 2023年12月31日,我们共管理着 274622 块硬盘,其中包括 4400 块启动盘和 270222 块数据盘。本报告主要针对数据盘的故障率进行分析。我们不仅会比较 2023 年的故障率与往年数据,还会展示截至年底,我们数据中心所使用的所有硬盘型号的综合寿命和故障统计数据。
报告中,我们将分享对这些数据的洞察和分析,并且,如往常一样,我们非常期待在文章评论区听到您的看法。
2023 年硬盘故障率分析
截至 2023年年末,Backblaze 正在跟踪监控 270222 块用于数据存储的硬盘。在我们的评估过程中,有 466 块硬盘被排除在分析之外,具体原因将在报告的后续部分进行说明。
因此,实际分析的硬盘数量为 26956 块,覆盖了 35 种不同型号的磁盘。下面的表格将展示这些硬盘在 2023 年的年度故障率(Annualized Failure Rate, AFR)。
注解与观察
年度无故障硬盘:在 2023年,唯一一款未记录到任何故障的硬盘型号是 Seagate 8TB(型号:ST8000NM000A)。事实上,自 2022 年第三季度起,该型号硬盘就未出现过故障。尽管如此,这一记录背后的情况值得注意:我们仅部署了 204 块该型号硬盘,且这些硬盘的累计运行时间较短(52876 天)。然而,即使如此,在 18 个月的运行时间里保持零故障,依然是一个令人鼓舞的开端。
年度故障总数:2023年,共有 4189 块硬盘发生故障。简单计算,我们平均每 2 小时零 5 分钟就需要更换 1 块故障硬盘。如果按照每周 40 工作小时来算,平均每 30 分钟就有 1 块硬盘需要更换。
硬盘型号增加情况:2023 年,我们新增了 6 款硬盘型号,并未淘汰任何型号,使得我们追踪的硬盘型号总数达到了 35 款。其中 2 款硬盘型号虽在我们环境中运行了一段时间,但直到 2023 年年末才达到了至少 60 块的部署规模:
- Toshiba 8TB,型号 HDWF180:60 块。
- Seagate 18TB,型号 ST18000NM000J:60 块。
到了 2023 年末,我们在生产环境中新增了 4 款硬盘型号,每款的部署数量都超过了 60 块:
品牌 | 容量 | 型号 | 部署数量 |
---|---|---|---|
Seagate | 12TB | ST12000NM000J | 195 块 |
Seagate | 14TB | ST14000NM000J | 77 块 |
Seagate | 14TB | ST14000NM0018 | 66 块 |
WDC | 22TB | WUH722222ALE6L4 | 2442 块 |
这 3 款 Seagate 硬盘主要用于更换已经故障的 12TB 和 14TB 硬盘。而 WDC 的 22TB 新型号硬盘,则主要用于构建两个新的 Backblaze Vaults,每个 Vault 配置了 1200 块硬盘。
硬盘型号的混合使用策略
在以往,当硬盘出现故障时,我们倾向于使用同一型号的硬盘进行替换。比如,为了配备一个 Backblaze Vault 需要 1200 块硬盘,我们可能会额外购买 100 块作为备用。但是,随着时间的推移,我们开始尝试混合使用不同型号的硬盘,并确保这一做法不会对系统的吞吐量和性能产生负面影响。这一策略让我们能够根据实际需求采购硬盘,正如前文提到的 Seagate 硬盘的情况,这样就避免了因提前囤积硬盘而导致的长时间闲置和相关成本。
本次评测中排除的硬盘情况
在本次评测中,我们共排除了 466 块硬盘,原因分为以下 3 类:
- 测试阶段硬盘: 这些硬盘正在接受「硬盘故障率」的数据监控,目前还未正式认证为生产用硬盘。例如,在第四季度,我们对 4 块 20TB 容量的 Toshiba 硬盘进行了评估。
- 高温运行硬盘: 有些硬盘曾在高温环境下运行过。虽然这些硬盘没有被包括在本次评测中,但我们会单独跟踪监控它们,以研究硬盘对高温的耐受性。关于这个问题的详细讨论,可以参见我们 2023 年第三季度的硬盘故障率报告。
- 数量不足 60 块的硬盘: 这一点源于我们过去的做法,当时我们通常使用一台装有 60 块硬盘的存储服务器来储存数据。现在,我们将同一数据块分布在 20 台服务器上,也就是一个 Backblaze Vault,这样做显著增强了数据的安全性。在 2024 年,我们计划重新审视这一数量标准,可能会采用一段时间内的最小硬盘运行天数来作为新的评测标准。
综上所述,在我们发布的 2023 年第四季度的硬盘故障率报告中,除了这 466 块硬盘之外,还包含了其他参与评测的 269756 块硬盘的数据。
2021-2023 年硬盘数据对比
下表展示了近三年中,每年的年化故障率(AFR)对比。仅包括在 2023 年超过 200000 运行天数的硬盘型号。每年的数据都是截至当年年底,仍在运行的硬盘型号。表中的硬盘先根据容量进行排序,然后是按照年化故障率(AFR)排序。
注解与观察
信息遗漏: 我们的统计标准规定,2023 年一个硬盘型号要记录超过 200000 运行天数才能纳入统计。例如,WDC 的 22TB 硬盘尽管记录了 126956 运行天数,Seagate 的 8TB 硬盘虽然未出现故障,但只有 52876 运行天数,均未达到标准。为何定 200000 天为标准?我们认为,每季度至少 50000 运行天数是具有统计意义的最低门槛。这个门槛虽不尽完美,但能有效减少因运行天数较少带来的数据波动。
2023 年的年化故障率有所上升: 2023 年,所有列出硬盘型号的年化故障率达到了 1.70%,而 2022 年为 1.37%,2021 年为 1.01%。随着硬盘平均使用年限的增加,我们注意到故障率也相应增加。目前,平均使用年限达到或超过 6 年的硬盘型号有 9 种,几乎占到我们全部硬盘的 20%。从第二季度开始,我们加快了从老旧型号硬盘(通常为 4TB)向新型号硬盘(通常为 16TB)的更新换代。这一转型计划预计将在 2024 年甚至更长的时间内持续进行。
年化故障率与硬盘容量的关系
深入分析数据后,我们发现了一些有趣的趋势。下面我们将探讨过去 3 年中,不同硬盘容量的年化故障率(AFR)每季度的变化情况。
首先,10TB 硬盘的 AFR 呈现出明显的上升趋势,8TB 和 12TB 硬盘的 AFR 也是如此。在 2023 年第四季度,这些容量的硬盘组的 AFR 都达到了 2% 或更高,而在 2021 年第二季度,它们的 AFR 约为 1%。相比之下,4TB 硬盘的 AFR 在 2022 年达到峰值后开始下降。其他容量的硬盘——6TB、14TB 和 16TB——在整个时期内的 AFR 大致在 1% 的水平波动。
从年度 AFR 的宏观视角来看,比较 2022 年和 2023 年的数据,我们可以看到不同硬盘容量的 AFR 变化。每年的数据仅基于当年的统计结果。
乍看之下,4TB 硬盘的 AFR 下降可能颇为意外,尤其是当这些硬盘的平均使用年限已超过 6 年且仍在增加时。这个现象很可能与我们在 2023 年将 4TB 升级到1 6TB 硬盘的策略有关。通常,我们会优先替换那些最老旧的硬盘,即那些未来可能会很快出现故障的硬盘。这种淘汰最旧硬盘的做法似乎有助于降低因硬盘老化可能导致的故障率。
然而,并不是所有硬盘型号都符合这一趋势。例如,Seagate 的 6TB 硬盘平均使用年限已超过 8.6 年,然而在 2023 年,它们却展现出所有硬盘组中最低的年化故障率。这似乎对「硬盘的使用年限与故障率成正比」的普遍观念提出了挑战,至少在过去一年中是这样的。接下来,让我们继续观察这一趋势是否也适用于我们硬盘的整个使用寿命的故障率。
硬盘整体使用寿命统计
我们对 35 种硬盘型号、总计 269756 块硬盘的全寿命年化故障率(AFR)进行了评估。下面的表格总结了从 2013 年 4 月到 2023 年底的数据。
目前,所有硬盘的整体寿命 AFR 是 1.46%,这个数字比去年同期(2022 年底)的 1.39% 稍有上升。考虑到 2023 年每个季度 AFR 持续上升,这个结果并不意外。事实上,这是自 2021 年第一季度 AFR 为 1.49% 以来的最高记录。
上述表格包括了到 2023 年 12 月 31 日为止还在运行的所有硬盘型号。为了让列表更精简,我们可以去掉那些数据量太少、统计意义不够的型号。这样做并不是说原先的 AFR 数据有问题,只是我们想通过更充分的数据来增强对故障率数据的信心。因此,我们接下来只关注那些在整个使用期内至少有两百万运行天数的硬盘型号,这让我们得以缩减列表至 23 种型号,方便进一步分析。
通过这些数据,我们可以比较不同型号硬盘在整个使用周期内的故障率。在后续的图表中,我们将按照制造商分类,并将每种硬盘型号的年化故障率(AFR)和平均使用月数进行了直观的图形展示。图表中,每个圆圈的大小代表该组内硬盘的数量。每个制造商的图表都采用了统一的水平和垂直比例尺。
注解与观察
硬盘更换策略:在决定旧硬盘的更换策略时,最直接的方法可能是优先淘汰那些最老的硬盘,比如 6TB 的 Seagate 硬盘。但实际上,这些硬盘的总数仅为 882 块,连一个 Backblaze Vault 的容量都不到,因此它们对总体故障率的影响微乎其微。不过,从图表中我们可以清楚看出,我们应该继续更换掉 4TB 硬盘。这一点在我们最近讨论存储服务器硬盘配置的文章中也有提到。正如那篇文章强调的,我们的决策还会考虑到服务器的使用年限、服务器的规模(是 45 硬盘位还是 60 硬盘位),以及服务器的故障率等其他因素。
HGST:下方左图展示了我们所有 HGST 硬盘型号的 AFR 趋势线(使用了二阶多项式拟合)。数据显示,硬盘故障率并不是随着使用年限的增加而持续上升。而右图去掉了 HGST 4TB 硬盘型号后,显示的趋势更符合我们一般的预期——硬盘故障率会随着时间增加。尽管 4TB 硬盘的表现出色,但它们并不适合作为评估新型号或更大容量硬盘的 AFR 标准。
此外,这里未曾深入探讨的一个可能因素是,从 8TB 硬盘开始,硬盘内部使用了氦气并且是密封的,而在此之前的硬盘都是空气冷却且非密封的。因此,内部填充氦气是否对 HGST 硬盘的故障模式产生了影响?这是个引人深思的问题,不过根据我们现有的数据,我不确定我们是否能够给出答案,或者说,鉴于氦气技术的普及,这个问题是否还具有相应的重要性。
Seagate:左侧的图表展示了我们 Seagate 硬盘型号的年化故障率(AFR)趋势(采用二阶多项式拟合)。和 HGST 的情况类似,数据并未显示硬盘故障率会随着使用时间的增加而持续上升。在右侧的图表中,我们剔除了平均使用年限超过 7 年的硬盘型号。
有一个有趣的现象:在 6 年使用期限内,两张图表所展示的趋势线几乎一致。但是,当我们试图预测 8TB 和 12TB 硬盘超过 6 年的使用情况时,未来的发展趋势并不明朗。更让人难以捉摸的是,我们因年限超过 7 年而剔除的 3 个硬盘型号都是消费级产品,而剩余的则全是企业级硬盘。那么,当这些企业级硬盘使用到 7 年、8 年甚至 9 年时,它们的故障率会有所不同吗?这个问题值得我们继续观察。
Toshiba 和 WDC:我们手头的数据只有 3 年多一点,目前还没有形成明显的趋势。但可以肯定的是,到目前为止,这两家制造商生产的所有硬盘表现都相当不错。
硬盘故障与数据迁移
如前所述,硬盘故障率的预测往往是基于具体的硬盘型号。然而,在实际操作中,我们并不是按照硬盘型号来统一迁移,而是迁移存储服务器或者 Backblaze Vault 中的所有硬盘,这些硬盘可能包括不同的型号。关于我们如何选择迁移哪些服务器和 Vaults 的策略,会在将来的文章中详细说明。但目前需要明确的是,硬盘的故障率并非是我们考虑迁移的唯一因素。
硬盘数据统计信息公告
我们已经在官方硬盘测试数据页面上,提供了编制本报告所使用的所有表格和图表的完整数据集。你可以自由地下载这些数据,并将其用于研究或项目。在此,我们仅提出 3 个简单的请求:1) 当你使用这些数据时,请明确表明数据来源于 Backblaze;2) 对于使用数据的方式,你需要承担全部责任;3) 请不要出售这些数据,因为我们是免费提供给大家的。
祝您好运,并且如果你发现了任何有价值的见解,欢迎与我们分享。
最新评论
好久没有来看博客了,竟然连登录的功能都给干掉了
准备用Windows 11 安装助手再试一次
通过 Windows Update 升级,全部操作完后,重启失败,然后开机多了一个启动项,一个是原来的启动项,启动后还是23H2,更新那儿体现安装失败。另一个启动项有故障,不能启动。
你是说老的「邮件和日历」应用吗?它会被新的 Outlook for Windows 替代,应该无法换回来了。