練習日誌- 仕事、1週間に2度の大型トラブル(涙)

トラブルに追われる

金曜、土曜と、気分はピアノの練習どころではなかった。

水曜夜、システム運用トラブルで終電帰りになった件は、この前の練習日誌に書いた。

練習日誌- 仕事の夜間緊急対応で朝練がつらい(8/23)

ようやく部下・Aさんが原因も究明して、金曜朝、回避策・今後の運用フローの改善について報告を受け、13時前、ランチタイム後のコーヒーをカフェで飲んでいたら、部下・Bさんからスマホに電話がかかってきた。

「うさぎさん、大変です! サービスが止まっています!」

「え! 至急、帰る」と返事をして、私が責任者を務めるアプリを立ち上げると。サービスが見られない状態。

システムの運用管理をお願いしている会社に電話。システムトラブルではなく、アマゾンのネットワークのトラブルだという。詳細の状況を共有しようとBacklog(クラウドのプロジェクト管理ツール)を立ち上げると、なんとBacklogもアマゾンの障害でアクセスが非常に重い状態。運用管理会社とパートナーの会社に、「しばらくSlack(ビジネスチャットサービス)でやりとりしましょう」と電話で連絡。

Twitterのタイムラインで「AWS」(アマゾンウェブサービス)を検索すると、日本の多くのサービスが止まっていることが分かった。大規模なシステムトラブルだ。

結局、15時40分ごろ仮想のウェブサーバ、データベース共に復旧。障害発生から2時間40分後にサービスは正常に戻った。ふう。

その後、サービス障害のお詫び告知をサイトに掲載したり、社内に状況の報告をしているうちに金曜が終わった。

深夜、営業担当からSlackにこんなメッセージが。

「素朴な疑問で、すごく素人質問で恐縮なんですが、これって、冗長化できないんですか? そんなもんじゃない話?」

もっともな質問だ。以下は、私の回答かつ現時点の見解。

「AWSは“リージョン”という世界22の国・地域ごとに独立した大型ネットワークの下に、“アベイラビリティーゾーン”という冗長化された仮想ネットワークがあります。

“アベイラビリティーゾーン”は、日本国内の離れた4ヶ所にデータセンターが置かれているので、一つがダメになっても他で冗長化される仕組みです。今回は“リージョン”そのものに障害が起きてしまったようです。非常にまれなケースです。

詳しい説明はAmazonからまだ出ていません。大規模なサービスは「リージョン」をまたいで(日本だけでなく、ソウル、北京等)冗長化を図っていますが、今回、完全に止まってしまったサービスは、東京リージョンのみに依存していたものです。

今回、AWSの1リージョンに依存するリスクを感じました。私個人としては、正直、少々、Amazonを過信しているところがありました。 」

正直、少々、Amazonを過信しているところがあった
――これは、私だけでなく、日本のオンラインサービス責任者の率直な感想ではないだろうか。


【お願い】ブログランキングに参加しています。読んだらこちら(にほんブログ村へ)をクリックいただけないでしょうか。励みになります。