Google CloudのCEOであるトーマス・クリアン(Thomas Kurian)は、昨年2019年に同社が開催したクラウドコンピューティングカンファレンスで講演しました。
最近、Googleは複数の不具合を伴う更新によって引き起こされた大規模な障害について謝罪を行いました。金曜日の遅くに発表されたインシデントレポートによると、木曜日には70以上のGoogle Cloudサービスが正常に機能せず、CloudflareやOpenAI、Shopifyなど多くのサードパーティサービスも影響を受けました。Gmail、Google Calendar、Google Drive、Google Meetなどの自社製品も故障しました。
Googleのインシデントレポートには、「この障害がもたらした影響について深くお詫び申し上げます。Google Cloudの顧客とそのユーザーは、自らのビジネスをGoogleに信頼しています。今後は改善に努め、同様の障害を避けるよう努めます。」と記されています。
トーマス・クリアンCEOも木曜日にXでこの障害について投稿し、「顧客に対する混乱をお詫び申し上げます。」と述べました。
報告書によれば、Googleは5月に自動受信リクエストの評価のための「クォータポリシーチェック」に新機能を追加しましたが、この新機能は実際の状況でのテストが直ちに行われなかったとのことです。この結果、システムは新機能からのデータを適切に処理できず、空白のエントリーが含まれていたため、それらがすべてのGoogle Cloudデータセンター地域に送信され、クラッシュを引き起こしました。
エンジニアは10分以内に問題を特定しましたが、その後も7時間にわたって障害が続き、大規模な地域では過負荷が発生しました。新機能をリリースする際、Googleはフィーチャーフラグを使用しなかったため、問題が発生した場合の影響を最小限に抑えることができませんでした。フィーチャーフラグがあれば、機能が広く利用可能になる前に問題を特定できたとGoogleは述べています。
今後、Googleはアーキテクチャを変更し、一つのシステムが故障してもクラッシュせずに動作できるようにするとしています。また、すべてのシステムを監査し、自動および人間によるコミュニケーションを改善し、顧客が問題に迅速に対処できる情報を得られるよう努めるとしています。



