システム障害

2025年1月30日 #システム障害

概要

Google のデータセンターに関する 2009 年の Jeff Dean の公演 [1] の障害統計を Table 1 に示す。

Table 1. 新しいクラスターの初年度に起きる典型的な障害。
障害イベント	詳細	頻度
オーバーヒート	ほとんどのマシンは 5 分以内に電源が切断される (回復に 1～2 日)	約 0.5 回
電源タップ故障	約 500～1000 のマシンが突然喪失する (回復に約 6 時間)	約 1 回
ラック移動	十分な警告で約 500～1000 のマシンの電源が切断される (回復に約 6 時間)	約 1 回
ネットワーク再配線	2 日間で約 5% のマシンがダウン	約 1 回
ラック故障	40～80 のマシンが一瞬で喪失 (1～6 時間で回復)	約 20 回
ラック不調	40～80 のマシンで 50％のパケットロスが発生	約 5 回
ネットワークメンテナンス	半分は 30 分程度のランダムな接続ロスを引き起こす可能性	約 8 回
ルーターのリロード	DNS と外部 VIP が数分間停止	約 12 回
ルーター故障	ただちに 1 時間の渋滞を引き起こす	約 3 回
マイナー DNS 故障	30 分ほど DNS 異常が数十回発生	数十回
機器の個別故障	1000 のマシン故障	約 1000 回
ハードディスクドライブ故障	数千の HDD 障害	数千回