SSDってHDDよりファームの問題多いよね

最近見た障害情報の中で、興味深かったのが「SSDが同時に3本壊れてシステム障害になった」というケースだ。
HDD*1でも無いのに3台同時破壊なんてあり得るのかね?まあ、RAID崩壊*2を3台同時破壊と表現するのであればそんなことも起こるかもしれないが、いまどきバッテリーを積んでいないRAIDコントローラなんて採用しないだろうし、SSDが壊れたといっている以上、RAID崩壊が原因ではなく、少なくともSSDの物理破壊か論理破壊が原因だろう。*3

同時に発生する物理破壊といえば、地震か過剰な電力だろうけれど、データセンターに入れておけば大体問題ないと思われるし、そもそもSSD地震の影響は少ない部品なので、物理破壊はあまり考えられないのではないだろうか。つまりは、論理破壊が同時に発生したということだ。

同時に発生する論理破壊って何だろうと考えるとき、思いついたのは「n日問題」だ。「n日問題」は私が勝手に名付けた問題で、定義は「稼働後n日経過すると、必ず障害が発生するという問題」のことだ。497日問題の亜種が大量に存在するので、それをひっくるめて表現するために、でっち上げた。そういえばSSDにもn日問題が存在したはず、、、と思って調べたところ、
32768時間問題40000時間問題70000時間問題が見つかった。発生年から考えると、おそらく40000時間問題が原因だろう*4

推測に推測を重ねてしまうが、SSDでRAID6を構築していたが、40000時間問題によってSSD3本の同時論理破壊が発生したことによって、RAID6では対応できず、システムが停止してしまったということではないだろうか。

重要なのは、「おなじ構成だったら、全サーバでおなじような障害が発生するよ」ってことだ。国内メーカーはすでに中規模以下のIAサーバ(Intel互換サーバ)を作っていない。実は現在の中規模以下のIAサーバは、ほとんどがHPE社などのOEM製品なのだ*5。だからNECのサーバだろうが日立のサーバだろうが、HPE社のサーバで起こる問題は、ほかの国内のメーカサーバで発生する可能性がある。

なので、
①ここ3年前から5年前くらいに構築した
Intel互換の物理サーバで
SSDを使用している
を満たしたサーバについては、おなじようなことが起こる可能性があるので、一応しらべておいたほうがいいんじゃないの?と思った次第である。まあ、NEC富士通も日立も、多分自分が販売した顧客については、情報を通知しているだろうから*6、多分問題があるとしたら、通知情報を無視した顧客側になってしまうのだろうけどね。

*1:HDDは衝撃に弱いので、地震などで同時破壊はありうるし、縮退(1台破損または2台破損)を放置して、3台目も破壊はありうる

*2:瞬停などに起因してRAID内部のつじつまが合わなくなる現象

*3:RAID崩壊は原因でなく結果

*4:2023年10月10日 - 40000時間 = 2019年3月18日で、導入年が平成31年であることに一致する。違っていたらごめんなさい

*5:日本のサーバメーカーは、現在フロントベゼル(サーバー前面の「社名が入ったガード」)メーカーになっている(笑)

*6:さすがにこの事例見て通知しないメーカーはないだろう