RedPanda の GCP 障害対応がクラウドアーキテクチャにおける運と設計の議論を巻き起こす

BigGo コミュニティ部
RedPanda の GCP 障害対応がクラウドアーキテクチャにおける運と設計の議論を巻き起こす

2023年6月11日に Google Cloud Platform が大規模なグローバル障害を経験した際、RedPanda Cloud は自社のサービスが影響を受けなかった理由を説明する詳細な事後分析を公開した。しかし、技術コミュニティの反応は印象的とは言えず、多くの人が RedPanda の生存が優れたアーキテクチャによるものなのか、それとも単なる幸運によるものなのかを疑問視している。

コミュニティが RedPanda のアーキテクチャ優秀性の主張に疑問を呈する

議論の中心は、RedPanda のセルベースアーキテクチャと設計原則が GCP 障害時に同社を保護したという主張にある。批判者たちは、RedPanda が単に障害を起こした特定の GCP サービスを使用していなかっただけであり、その生存は設計よりも運によるものだと主張している。あるコメント投稿者がこの感情を完璧に表現している:

「今回のインシデントでは、彼らがシステムをアーキテクトした方法は全く関係なかった。彼らのサービスは単に障害を起こしたインフラを使用していなかっただけで、実際にシステム設計がテストされるような出来事はなかった。」

コミュニティは、RedPanda の監視・アラートシステムが実際に障害の影響を受け、チームが手動でダッシュボードを監視せざるを得なくなったことを指摘している。これは彼らの障害耐性の主張の完全性について疑問を投げかけている。

RedPanda が主張するアーキテクチャ上の優位性:

  • 併設サービスを持つセルベースアーキテクチャ
  • アベイラビリティゾーン間での最小レプリケーション係数3
  • プライマリデータはローカル NVMe ディスクに保存
  • 古いデータには階層ストレージを非同期で使用
  • クリティカルデータパスに外部依存関係なし
  • 99.99%可用性 SLA 、内部目標は99.999%

マーケティング主張の背後にある現実

技術的な議論により、RedPanda の説明にはいくつかの欠陥があることが明らかになった。彼らの階層化ストレージはエラー率の増加を経験し、予防措置として追加のディスク容量をプロビジョニングしなければならなかった。さらに重要なことに、彼らのサードパーティアラートシステムがダウンし、インシデント中に自動監視なしの状態に陥った。批判者たちは、真に回復力のあるシステムは主要なクラウドプロバイダーの障害時でもアラート機能を維持すべきだと指摘している。

コミュニティはまた、RedPanda がインシデント中にクラスターノードを1つ失ったことも強調した。ただし、これは本番環境ではなくステージング環境のみに影響したものだった。この詳細は、障害に対する完全な免疫という彼らの主張をやや損なうものである。

RedPanda :クラウドアーキテクチャにおける回復力と信頼性を象徴する遊び心のあるブランディング
RedPanda :クラウドアーキテクチャにおける回復力と信頼性を象徴する遊び心のあるブランディング

クラウドアーキテクチャ設計への広範囲な影響

議論はクラウドプロバイダーのアーキテクチャ哲学についてのより深い会話に発展している。コミュニティメンバーは、Google Cloud のグローバルサービスアプローチと Amazon Web Services の地域独立モデルを対比させた。AWS の地域は、偶発的な地域間依存関係を防ぐ重複する IP アドレスを持つ真に分離された障害ドメインとして動作する。

GCP のアプローチは、簡素化されたマルチ地域管理やグローバルロードバランシングなどの利点を提供するが、障害時の影響範囲拡大というトレードオフを伴う。最近のインシデントは、GCP のアーキテクチャにおいて単一のサービス障害が複数の地域にわたってカスケードする可能性があることを実証している。

GCP vs AWS 地域アーキテクチャ比較:

  • GCP のアプローチ: ほぼ瞬時のレプリケーションを持つグローバルサービス、簡素化されたマルチリージョン管理、ただし障害の影響範囲が拡大
  • AWS のアプローチ: IP アドレスの重複を許可する真に独立したリージョン、段階的なデプロイメントロールアウト、Route53 などのグローバルサービスの静的安定性
  • トレードオフ: GCP はより簡単なグローバル運用を提供するが障害の相関性が高い; AWS はより良い分離を提供するがマルチリージョンセットアップがより複雑

業界への教訓

RedPanda のマーケティングアプローチは批判を招いているが、このインシデントはクラウドサービス設計における重要な考慮事項を浮き彫りにしている。コミュニティの議論では、実際にテストされていないアーキテクチャ上の決定について功績を主張するよりも、運と外部要因を認めることの方が価値があることが強調されている。

この議論はまた、外部依存関係を最小限に抑え、真に独立した監視インフラを維持することでシステムを設計することの重要性も強調している。ある観察者が指摘したように、リソースの過剰プロビジョニングと影響を受けたサービスへの依存関係の回避は、革新的なアーキテクチャの成果というよりも基本的な信頼性の実践である。

参照:Behind the scenes: Redpanda Cloud's response to the GCP outage

クラウド 設計における革新的なアーキテクチャの成果を最近の信頼性の教訓を通じて探求
クラウド 設計における革新的なアーキテクチャの成果を最近の信頼性の教訓を通じて探求