システム障害

Takami Torao #システム障害
  • このエントリーをはてなブックマークに追加

概要

Table of Contents

  1. 概要
  2. 参照

Google のデータセンターに関する 2009 年の Jeff Dean の公演 [1] の障害統計を Table 1 に示す。

障害イベント 詳細 頻度
オーバーヒート ほとんどのマシンは 5 分以内に電源が切断される (回復に 1~2 日) 約 0.5 回
電源タップ故障 約 500~1000 のマシンが突然喪失する (回復に約 6 時間) 約 1 回
ラック移動 十分な警告で約 500~1000 のマシンの電源が切断される (回復に約 6 時間) 約 1 回
ネットワーク再配線 2 日間で約 5% のマシンがダウン 約 1 回
ラック故障 40~80 のマシンが一瞬で喪失 (1~6 時間で回復) 約 20 回
ラック不調 40~80 のマシンで 50%のパケットロスが発生 約 5 回
ネットワークメンテナンス 半分は 30 分程度のランダムな接続ロスを引き起こす可能性 約 8 回
ルーターのリロード DNS と外部 VIP が数分間停止 約 12 回
ルーター故障 ただちに 1 時間の渋滞を引き起こす 約 3 回
マイナー DNS 故障 30 分ほど DNS 異常が数十回発生 数十回
機器の個別故障 1000 のマシン故障 約 1000 回
ハードディスクドライブ故障 数千の HDD 障害 数千回
Table 1. 新しいクラスターの初年度に起きる典型的な障害。

参照

  1. Dean, Jeaf. Keynote LADIS 2009 Conference. Designs, Lessons and Advice from Building Large Distributed Systems, accessed on 2025.