さくらのクラウドの件
2011年11月に導入されたさくらのクラウド、最低価格が月額2500円と安く大きな話題になったにも関わらず、春先に大規模なストレージ障害に見まわれ、新規募集を停止した。ここまでは記憶にあったのだけど、その後ニュースを聞かないな、と思って調べてみた。まとめると、6月の予定では9月中に新規募集を再開する予定らしい。頑張って欲しい。
まだ完全に復旧していない?
2012/3/23付けで新規申込み受付の一時中止というアナウンスが出ていた。半年近く経つから当然復旧しているのかと思ったら、まだ新規募集してない。私がニュースを見としていただけだと思ってたけど、実はまだ完全に復旧できていないのか。。
経緯
このページに障害に関する報告がまとまっている。
2011/12/9 -12/24 にストレージに不具合
- サーバがダウンし、起動してこない
- サーバは立っているけれど、ディスクアクセスに失敗することがある
2012/1/13
- 集中型ストレージへのアクセス集中が問題 - アクセス制限で対処
- サーバダウンはKVMのバグ
- 解約したカスタマのデータ削除の失敗
- それを解決しようとしたプログラムのバグで、別のカスタマのデータ削除(!)
- バックアップを取ることになっているのだが、アクセス集中でとれていない
2012/1/27
- アクセス制限を解除
2012/2/24
- ストレージの増設予定をアナウンス
2012/3/16
- ストレージの追加完了。新規アカウントはそちらへ。
- ストレージ性能が断続的に遅くなる症状は改善されていない。原因はストレージにあり。
2012/3/23
- 新規受付中止
なにがあったのか
報告書が上がっている。要するに、ストレージシステムのテストが足りていなかった、ということなのだが、幾つかに分けて書かれている。
ストレージサーバとの接続が切れる
両方共死活監視に失敗して意図的に切っていた、という。。。
ストレージ上のファイル数に対するスケーラビリティ問題
ユーザのディスクはストレージ上のファイルとなるが、これが増えたらおかしくなった、という話。
- クローンが遅くなりタイムアウト
- これは直接関係ないが、ファイル数を減らそうとして間違って他のユーザディスクを消したり
アクセス増大に対するスケーラビリティ
- 単に性能低下
- 監視もできなくなる
- ファイルコピープロセスが暴発
対応
外部ベンダの製品だとどうしてもターンアラウンドが長くなるので、内製のストレージシステムに置き換えるのだそうだ。publickeyの記事によると、IAサーバ+Linux+IB で iSCSI接続。
ベータテストを行なって、9月から再度募集の運びとか。
所感
結果から言えばOracleがチューニングに失敗してケツまくった、という形に見える。Oracleの方からは何もアナウンスが出ていないようだけど、こういう場合って代金どうなるんだろうなあ。。
本質的な問題は、実環境の規模でのテストがOracleの側でもさくらの側でも出来なかった、ということに尽きるだろう。しかしクラウド環境だと同じ規模の環境を用意することは、普通不可能なので両社を責めるのは酷かもしれない。
しかし、小さく初めて、徐々に大きくしていくなどの、リリースエンジニアリングをしていれば、被害はもう少し小さくできたのではないだろうか。その点は悔やまれる。
自社のエンジニアが完全に理解できる範囲で作りなおす、という方針は正しいような気がする。4大クラウドベンダはどこも自社開発の技術だし。正直、IBなのにiSCSIなのか、という気もするけど、ここも理解できている技術で、ということなのだろう。
ぜひぜひ、頑張っていただきたい!