インターネット接続不良発生
何が起きたの?
日本時間午後0時22分頃~10分間にわたりGoogleが誤ったBGP経路情報を流したことで、インターネットに接続している各ISP事業者のコアスイッチが経路をさばききれなくなったために各所で切断が発生。ポイントは誤った経路情報が流されたことではなく、「大量」の誤った経路情報が流されたことが原因。誤った経路情報が流れてくるのは別段不思議ではないが、10万以上の経路情報が誤って流れてきたのは前代未聞。
Googleからの誤った広報は10分ほどで終了したものの、そのせいでつぶれたコアスイッチ達が立ち上がった後に急死したルータ・スイッチ群が復旧できずに長時間の障害に及びました。一番遅い復旧で5時間ほどですかね。どこのネットワーク情報がおかしいのか分からない状況で大変だった様子。また、システム・ネットワークは復旧しても、データの不整合が発生してしまっていて、この修復に徹夜だった人もいたそうです。
全部死んだの?
全ての事業者がインターネット接続できなくなったのではなく、この経路情報をさばけた事業者は直接的に被害は起きていない。当然、インターネット接続はPeerをわたっていくものなので接続先がふさがっていると結果的には接続不可になる。
「Googleほどの企業でも・・・」といった声を見かけたのだけど、彼らは運用手順を日本人みたいにがっちりやらないです。日本のシステム管理者が見たら卒倒しそうなレベルで運用をまわしている。基本は「失敗したら回復する」なので、まずどうやっても失敗しない方法を考える日本人とは根本が違う。
冗長化してたんじゃないの?
一番聞かれるのがこれですね。冗長化していて切り替えればいいじゃない!というお話。機器の故障であれば冗長化で対処できますが、今回のはさばききれない負荷が着続けている状態なので、切り替わってもまた負荷で死んでしまう状態。だいたいは、一度切り替わったら元にはすぐ切り戻されない仕様になっているので死んだままとなります。
日本人と感覚が違う
契約第一が海外の考え
この手の事故を引き起こしたとき、日本だとまず間違いなく「遺失利益の補填要求」がやってきます。数億円レベルで要求される。しかし、海外勢は「契約重視」なので、そんな契約結んでいないからと突っぱねて終わりです。今回、海外クラウド事業者の通信が切れてしまい被害をこうむったという話がありましたが、当該クラウド事業者はむしろ自分達も被害者だと主張して話は終了してました。
運用手順の厳格化
日本だと運用手順の見直しがだいたい始まりますが、Googleだとおそらくは自動化で進むのだろうなーと思ってます。どんな対処策を出してくるのか楽しみですね。
また起きるのか?
いつまた起きても不思議ではないのがインターネットの世界です。むしろ、インターネットを高品質と信じてビジネスをのせる人々の感覚が信じられない。今回の事故を受けて各社はコアスイッチの強化や、同様の事象の際の回避策を搭載していくことになるでしょう。それでも対処するのに早くて1年はかかるでしょうね。