練習日誌- 仕事、1週間に2度の大型トラブル（涙）

2019年8月25日

金曜、土曜と、気分はピアノの練習どころではなかった。

水曜夜、システム運用トラブルで終電帰りになった件は、この前の練習日誌に書いた。

ようやく部下・Aさんが原因も究明して、金曜朝、回避策・今後の運用フローの改善について報告を受け、13時前、ランチタイム後のコーヒーをカフェで飲んでいたら、部下・Bさんからスマホに電話がかかってきた。

「うさぎさん、大変です！　サービスが止まっています！」

「え！　至急、帰る」と返事をして、私が責任者を務めるアプリを立ち上げると。サービスが見られない状態。

システムの運用管理をお願いしている会社に電話。システムトラブルではなく、アマゾンのネットワークのトラブルだという。詳細の状況を共有しようとBacklog（クラウドのプロジェクト管理ツール）を立ち上げると、なんとBacklogもアマゾンの障害でアクセスが非常に重い状態。運用管理会社とパートナーの会社に、「しばらくSlack（ビジネスチャットサービス）でやりとりしましょう」と電話で連絡。

Twitterのタイムラインで「AWS」（アマゾンウェブサービス）を検索すると、日本の多くのサービスが止まっていることが分かった。大規模なシステムトラブルだ。

結局、15時40分ごろ仮想のウェブサーバ、データベース共に復旧。障害発生から2時間40分後にサービスは正常に戻った。ふう。

その後、サービス障害のお詫び告知をサイトに掲載したり、社内に状況の報告をしているうちに金曜が終わった。

深夜、営業担当からSlackにこんなメッセージが。

「素朴な疑問で、すごく素人質問で恐縮なんですが、これって、冗長化できないんですか？　そんなもんじゃない話？」

もっともな質問だ。以下は、私の回答かつ現時点の見解。

「AWSは“リージョン”という世界22の国・地域ごとに独立した大型ネットワークの下に、“アベイラビリティーゾーン”という冗長化された仮想ネットワークがあります。

“アベイラビリティーゾーン”は、日本国内の離れた4ヶ所にデータセンターが置かれているので、一つがダメになっても他で冗長化される仕組みです。今回は“リージョン”そのものに障害が起きてしまったようです。非常にまれなケースです。

詳しい説明はAmazonからまだ出ていません。大規模なサービスは「リージョン」をまたいで（日本だけでなく、ソウル、北京等）冗長化を図っていますが、今回、完全に止まってしまったサービスは、東京リージョンのみに依存していたものです。

今回、AWSの1リージョンに依存するリスクを感じました。私個人としては、正直、少々、Amazonを過信しているところがありました。」

正直、少々、Amazonを過信しているところがあった
――これは、私だけでなく、日本のオンラインサービス責任者の率直な感想ではないだろうか。

練習日誌仕事,練習

Posted by 鍵盤うさぎ

練習日誌- 課題だけにフォーカスして部分練習を

趣味のブロガー、ますます高齢化の気配