さくらのクラウドの件 - hidemonのブログ

2011年11月に導入されたさくらのクラウド、最低価格が月額2500円と安く大きな話題になったにも関わらず、春先に大規模なストレージ障害に見まわれ、新規募集を停止した。ここまでは記憶にあったのだけど、その後ニュースを聞かないな、と思って調べてみた。まとめると、6月の予定では9月中に新規募集を再開する予定らしい。頑張って欲しい。

まだ完全に復旧していない？

2012/3/23付けで新規申込み受付の一時中止というアナウンスが出ていた。半年近く経つから当然復旧しているのかと思ったら、まだ新規募集してない。私がニュースを見としていただけだと思ってたけど、実はまだ完全に復旧できていないのか。。

経緯

このページに障害に関する報告がまとまっている。

2011/12/9 -12/24 にストレージに不具合

サーバがダウンし、起動してこない
サーバは立っているけれど、ディスクアクセスに失敗することがある

2012/1/13

集中型ストレージへのアクセス集中が問題 - アクセス制限で対処
サーバダウンはKVMのバグ
解約したカスタマのデータ削除の失敗
それを解決しようとしたプログラムのバグで、別のカスタマのデータ削除(！)
バックアップを取ることになっているのだが、アクセス集中でとれていない

2012/1/27

アクセス制限を解除

2012/2/24

ストレージの増設予定をアナウンス

2012/3/16

ストレージの追加完了。新規アカウントはそちらへ。
ストレージ性能が断続的に遅くなる症状は改善されていない。原因はストレージにあり。

2012/3/23

新規受付中止

なにがあったのか

報告書が上がっている。要するに、ストレージシステムのテストが足りていなかった、ということなのだが、幾つかに分けて書かれている。

ストレージサーバとの接続が切れる

両方共死活監視に失敗して意図的に切っていた、という。。。

pingでストレージの死活監視をしていたら、パケットロスで誤認識してしまい、接続断
IB のSMからの死活監視にストレージサーバのインターフェイスが答えなくて、接続断

ストレージ上のファイル数に対するスケーラビリティ問題

ユーザのディスクはストレージ上のファイルとなるが、これが増えたらおかしくなった、という話。

クローンが遅くなりタイムアウト
これは直接関係ないが、ファイル数を減らそうとして間違って他のユーザディスクを消したり

アクセス増大に対するスケーラビリティ

単に性能低下
監視もできなくなる
ファイルコピープロセスが暴発

ストレージ

ストレージって何使ってるんだろう、というのでちょっとぐぐってみると、こんなページが見つかった。OracleのSun ZFS Storage 7320 Appliance、だそうだ。

対応

外部ベンダの製品だとどうしてもターンアラウンドが長くなるので、内製のストレージシステムに置き換えるのだそうだ。publickeyの記事によると、IAサーバ+Linux+IB で iSCSI接続。

ベータテストを行なって、9月から再度募集の運びとか。

所感

結果から言えばOracleがチューニングに失敗してケツまくった、という形に見える。Oracleの方からは何もアナウンスが出ていないようだけど、こういう場合って代金どうなるんだろうなあ。。

本質的な問題は、実環境の規模でのテストがOracleの側でもさくらの側でも出来なかった、ということに尽きるだろう。しかしクラウド環境だと同じ規模の環境を用意することは、普通不可能なので両社を責めるのは酷かもしれない。

しかし、小さく初めて、徐々に大きくしていくなどの、リリースエンジニアリングをしていれば、被害はもう少し小さくできたのではないだろうか。その点は悔やまれる。

自社のエンジニアが完全に理解できる範囲で作りなおす、という方針は正しいような気がする。4大クラウドベンダはどこも自社開発の技術だし。正直、IBなのにiSCSIなのか、という気もするけど、ここも理解できている技術で、ということなのだろう。

ぜひぜひ、頑張っていただきたい！