多分起きるだろう問題に備える

たとえばWindowsが起動しなくなるような問題が発生する可能性は、それほど高くはないが、Windows環境が多くなればなるほど発生数は当然多くなる。たとえば1,000,000日稼働時に一回発生するような確率であっても、1000環境あれば1000日稼働で一件は発生することになる。
この確率の場合、100環境管理しているような人が問題にあたる可能性は、暗算によれば28年に1回程度なので、まあ多分問題に遭遇しても1回程度だろう。なので問題に備える必要はあまりない。発生時のコストより、備えるコストが明らかに大きいからだ。
しかし、会社全体として10000環境を管理しているような場合、100日に一回程度の割合で問題が発生する。この場合、会社に最低でも1人、できれば10人程度は問題に備える必要がある。この場合の10人というのは問題に対応できる10人だ。
このような、発生確率は低いが、発生してしまえば致命的な問題というものは、その対応方法をその会社内でだれか考えておく必要がある。できれば「問題を問題として抽出できる人物」が数名、「対応策を考えられる人物」が1名以上、「対応策の妥当性を判断できる人物」が1名以上必要になるだろう。

問題の抽出と対応策を考える人物は同一人物で構わないが、妥当性を判断すべき人物は別人であるべきだと思われる。ということで、問題の抽出と対応方法を考えてみた。妥当かどうかはわからない。

たとえば、システム領域がホットスペア無しのRAID5上に構築されている環境で、HDDが同時に2台壊れるようなことは、確率としては低いが、起こりうることだ。この場合の妥当な対応策としては、前提条件として、別メディアへのバックアップが正しく行われていることであって、再インストール⇒バックアップ戻しの手順を策定しておくことが必要だろう。
たとえば、WindowsBSODが発生する場合に、ダンプファイルで解析するのか、エラーコードで解析するのか、エラーコードの記録方法は、ダンプファイルの採取方法は、そもそもどのレベルのダンプファイルをとるのか、誰が解析するのか、そもそも解析を行えるような体制をとるのかという問題は、あらかじめ考えておく必要がある。
たとえば、Windows環境の論理的な破損によってOSが起動しなくなったような場合に備えて、復旧の手順をマニュアル化し、それが実行できるような環境を整えておく必要がある。

ということで、以上の問題点に対応するために、我が社に足りなかった事を少しずつやっていこうと思っている。具体的なことはあまり書けないが
BSODを簡易もしくはそれ以上のレベルで解析できる体制を整える
Windows環境の論理的な破損に対応するための体制を整える
Windows環境の物理的な破損に対応するための体制を整える
といったようなことを少しずつ進めている。先週は論理的な対応の為の物理的な問題(意味不明)を問題として投げかけたところ、意外に好感触でうまくいきそうだ。もう少し進めてみようとか思ったりしたりした。