ファーストサーバの件

これも古い話だがまとめておく。2012年6月20日に発生した障害。
日経の記事こちらも
最終報告の記事

何が起きたのか

ファーストサーバは、レンタルサーバ会社。主に仮想環境のホスティングを行なっている。そのホスティング環境上のファイルが大規模に消失し、しかもバックアップがなかった。
本来ホスティングビジネスではバックアップはユーザの責任なので問題はないといえばない様な気もするのだが、まずいことに、サイボウズOfficeによるSaaS的なこともしており、こちらはユーザに対してバックアップを保証していた。というかユーザにバックアップをとる方法が提供されていなかったとか。これはひどい

障害の原因

非常にかいつまんで書くと、

  • パッチを当てるためのプログラムにバグがあり、
  • それを検証環境で動かしたにもかかわらずバグを見つけることができず、
  • 本番環境に適用したのだが、バックアップ環境にも自動的に適用された

という3つのミスが積み重なり、このような結果になったとのことである。

原因の本質

しかし、障害の本質は、ファーストサーバーには「バックアップ環境」はあったが、データバックアップはなかった、ということにある。ここでいうバックアップ環境はダイナミックスタンバイしている環境で、Availabilityを高めるための仕掛けにすぎず、本質的にはデータを保護するための仕掛けではない。しかしファーストサーバーでは、このバックアップ環境を持って、データ保護としていたらしい。バックアップ環境は、ハードウェア障害に対しては意味があるが、ソフトウェア障害や今回のようなオペレーションミスに関しては意味が無い。

昨年2月には、GMailがやはりソフトウェア障害で特定のユーザに対してすべてのデータセンター上のデータを消すという荒業をみせたが、この際にはちゃんとテープアーカイブから復旧されている。当時Googleがテープアーカイブ取ってんのか。。と驚いたものだが、この種の障害に対しては、やはりテープが有効なのか。

もう一つの本質は、この保守作業が、ベテラン作業員によるマニュアル化されていない作業だったことである。管理に問題があったと言わざるをえないだろう。

所感

SaaS環境として使っていた企業への賠償がどうなるのか気になるところ。バックアップ不要をうたっていたようなので、賠償責任は免れないだろうが、被害額の算出はどうするんだろう。プライスレスとしかいいようがない。

クラウドにデータを預けることを、お金を銀行に預けることに例えることがある。ちゃんとした銀行を選ぶように、ちゃんとしたクラウドプロバイダを選べば良い、ということ。しかしデータとお金には本質的な差がある。お金は第三者が補償することができる。つまり最悪銀行がつぶれても大丈夫なように政府なり保険会社なりが保証することが可能である。しかしデータではそうは行かない。。。できることは複数のサービスプロバイダに複製を置くことぐらいだが、データ漏洩の可能性や費用を考えるとなかなか。。

AmazonのGlacierは、こういうバックアップの受け皿なのだろうか。