なぜ6時間以上も続いたの? Facebook、Instagram全面ダウンの原因
泣きっ面に蜂。
先週の日曜、米ニュースショー番組「60ミニッツ」で放映された、Facebookの誤情報チーム元プロダクトマネジャーによる内部告発。そのショッキングな内容でFacebook株がダウンするなか、こんどはFacebookのサイトまでダウン。傘下サービスもろとも全世界のネットから6時間以上に渡って「消える」異常事態となりました。
大規模な障害の原因はなんだったのか? 簡単に振り返ってみましょう。
それは突然はじまった
システム障害が出はじめたのは米西海岸時間の月曜8:40AMごろのことでした。
対象は主にFacebookとInstagram、WhatsApp、Messenger、Oculus、Workplaceですが、Facebookでログインして『Pokemon GO』など利用している人たちにもアクセスエラーが表示され、みんなそろって再アクセスを試みたであろうことからネット全体がもっさりと遅くなり、アメリカ三大モバイルキャリアのVerizon、T-Mobile、AT&Tに「つながらない!」という苦情が殺到。
障害状況確認サイト「http://isitdownrightnow.com(ダウンしてるのしてないのどっち?)」までダウンする笑えない状況になりました。
全世界から「つながらない!」音頭が湧いてメディアが騒ぎ出し、WhatsAppが真っ先にシステム障害を認め、その直後にFacebookも「早期復旧に全力で取り組んでいる」とお詫びを公開(Facebookの障害現況サイトもダウンしたため仕方なくTwitterで告知)して、長い長い1日がスタートします。
復旧しようにもFacebookオフィスに入れない!
早期復旧を宣言したものの、障害は社外のみにとどまらず、Facebookの社内システムもダウン。Internal Tools、Workchat、Workplace、Workplace Roomsが使えなくなって、社員同士の連絡は急きょSMSとOutlookのメールに切り替わります。
原因究明のため本社に駆けつけた社員は、社員証をかざしてもドアが頑として開かない状況。
最終的には本社そばのサンタクララにあるデータセンターに少数精鋭チームを送りこんで手動でサーバーリセットと相成りました。
なんでこんなに手間取ったの?
セキュリティジャーナリストのブライアン・クレブさんが復旧の信頼筋に聞いたところによると、「障害はBGP(ボーダー・ゲートウェイ・プロトコル)定期アップデートのミスが原因とわかったものの、遠隔から修正できる人たちがアプデでブロックされてしまった。物理的にアクセスできる現場の人たちにはネットワークにアクセスする権限がない。どっちも復旧に手も足も出なかった」のだといいます。まさに小説『Catch22』のような不条理のジレンマ。
最終的にはアングルグラインダー(高速回転するディスクで金属を磨いたり切断する工具)使いの男を投入してサーバーケージへのアクセスを確保したといいます。1社に1台、アングルグラインダー。今ごろ世界中のCTOが買いに走ってるところかも。