システム障害
概要
Table of Contents
Google のデータセンターに関する 2009 年の Jeff Dean の公演 [1] の障害統計を Table 1 に示す。
障害イベント | 詳細 | 頻度 |
---|---|---|
オーバーヒート | ほとんどのマシンは 5 分以内に電源が切断される (回復に 1~2 日) | 約 0.5 回 |
電源タップ故障 | 約 500~1000 のマシンが突然喪失する (回復に約 6 時間) | 約 1 回 |
ラック移動 | 十分な警告で約 500~1000 のマシンの電源が切断される (回復に約 6 時間) | 約 1 回 |
ネットワーク再配線 | 2 日間で約 5% のマシンがダウン | 約 1 回 |
ラック故障 | 40~80 のマシンが一瞬で喪失 (1~6 時間で回復) | 約 20 回 |
ラック不調 | 40~80 のマシンで 50%のパケットロスが発生 | 約 5 回 |
ネットワークメンテナンス | 半分は 30 分程度のランダムな接続ロスを引き起こす可能性 | 約 8 回 |
ルーターのリロード | DNS と外部 VIP が数分間停止 | 約 12 回 |
ルーター故障 | ただちに 1 時間の渋滞を引き起こす | 約 3 回 |
マイナー DNS 故障 | 30 分ほど DNS 異常が数十回発生 | 数十回 |
機器の個別故障 | 1000 のマシン故障 | 約 1000 回 |
ハードディスクドライブ故障 | 数千の HDD 障害 | 数千回 |
参照
- Dean, Jeaf. Keynote LADIS 2009 Conference. Designs, Lessons and Advice from Building Large Distributed Systems, accessed on 2025.