さくらのクラウドの件

2011年11月に導入されたさくらのクラウド、最低価格が月額2500円と安く大きな話題になったにも関わらず、春先に大規模なストレージ障害に見まわれ、新規募集を停止した。ここまでは記憶にあったのだけど、その後ニュースを聞かないな、と思って調べてみた。まとめると、6月の予定では9月中に新規募集を再開する予定らしい。頑張って欲しい。

まだ完全に復旧していない?

2012/3/23付けで新規申込み受付の一時中止というアナウンスが出ていた。半年近く経つから当然復旧しているのかと思ったら、まだ新規募集してない。私がニュースを見としていただけだと思ってたけど、実はまだ完全に復旧できていないのか。。

経緯

このページに障害に関する報告がまとまっている。

2011/12/9 -12/24 にストレージに不具合
  • サーバがダウンし、起動してこない
  • サーバは立っているけれど、ディスクアクセスに失敗することがある
2012/1/13
  • 集中型ストレージへのアクセス集中が問題 - アクセス制限で対処
  • サーバダウンはKVMのバグ
  • 解約したカスタマのデータ削除の失敗
  • それを解決しようとしたプログラムのバグで、別のカスタマのデータ削除(!)
  • バックアップを取ることになっているのだが、アクセス集中でとれていない
2012/1/27
  • アクセス制限を解除
2012/2/24
  • ストレージの増設予定をアナウンス
2012/3/16
  • ストレージの追加完了。新規アカウントはそちらへ。
  • ストレージ性能が断続的に遅くなる症状は改善されていない。原因はストレージにあり。
2012/3/23
  • 新規受付中止

なにがあったのか

報告書が上がっている。要するに、ストレージシステムのテストが足りていなかった、ということなのだが、幾つかに分けて書かれている。

ストレージサーバとの接続が切れる

両方共死活監視に失敗して意図的に切っていた、という。。。

  • pingでストレージの死活監視をしていたら、パケットロスで誤認識してしまい、接続断
  • IB のSMからの死活監視にストレージサーバのインターフェイスが答えなくて、接続断
ストレージ上のファイル数に対するスケーラビリティ問題

ユーザのディスクはストレージ上のファイルとなるが、これが増えたらおかしくなった、という話。

  • クローンが遅くなりタイムアウト
  • これは直接関係ないが、ファイル数を減らそうとして間違って他のユーザディスクを消したり
アクセス増大に対するスケーラビリティ
  • 単に性能低下
  • 監視もできなくなる
  • ファイルコピープロセスが暴発
ストレージ

ストレージって何使ってるんだろう、というのでちょっとぐぐってみると、こんなページが見つかった。OracleのSun ZFS Storage 7320 Appliance、だそうだ。

対応

外部ベンダの製品だとどうしてもターンアラウンドが長くなるので、内製のストレージシステムに置き換えるのだそうだ。publickeyの記事によると、IAサーバ+Linux+IB で iSCSI接続。

ベータテストを行なって、9月から再度募集の運びとか。

所感

結果から言えばOracleがチューニングに失敗してケツまくった、という形に見える。Oracleの方からは何もアナウンスが出ていないようだけど、こういう場合って代金どうなるんだろうなあ。。

本質的な問題は、実環境の規模でのテストがOracleの側でもさくらの側でも出来なかった、ということに尽きるだろう。しかしクラウド環境だと同じ規模の環境を用意することは、普通不可能なので両社を責めるのは酷かもしれない。

しかし、小さく初めて、徐々に大きくしていくなどの、リリースエンジニアリングをしていれば、被害はもう少し小さくできたのではないだろうか。その点は悔やまれる。

自社のエンジニアが完全に理解できる範囲で作りなおす、という方針は正しいような気がする。4大クラウドベンダはどこも自社開発の技術だし。正直、IBなのにiSCSIなのか、という気もするけど、ここも理解できている技術で、ということなのだろう。

ぜひぜひ、頑張っていただきたい!