クラウドの停止に注意してください: データセンターの冗長性をどのように設計しますか?

多くのパブリッククラウドプロバイダーは、日常業務で壊滅的な停止を頻繁に経験しており、IT マネージャーはクラウドプラットフォームの障害と教訓から学び、それを社内のインフラストラクチャに適用する必要があります。

クラウドプラットフォーム、特に大規模なパブリックプラットフォームには複数レベルの冗長性が備わっていますが、予期しないダウンタイムの影響を受けないプラットフォームはありません。データセンターなどのクラウドコンピューティングプラットフォームでは、ダウンタイムの原因となる問題が発生する可能性があります。

[[255698]]

オンプレミスのハードウェア障害やソフトウェアエラーは避けられませんが、パブリッククラウドは IT 管理者にこれらの問題に対処する方法を提供します。パブリッククラウドには、可用性クラスター、冗長データセンター、可用性ゾーン、クラウドリージョンが備わっており、管理者は中断が発生した場合でもビジネスオペレーションをより適切に計画できます。これらの戦略は重要ですが、管理者はパブリッククラウドの冗長性機能を活用するために信頼性の高いアプリケーションを設計する必要があります。

組織の IT 資産の回復力はインフラストラクチャよりもアプリケーションに依存するという考え方は、従来の考え方とは異なります。過去 20 年間、管理者はバックアップ、レプリケーション、その他のインフラストラクチャ中心のテクノロジーを通じて回復力を維持してきました。しかし、ほとんどのパブリッククラウドプラットフォームでは、この戦略はもはや機能しません。

近年、クラウドコンピューティングプロバイダーは耐えられないほどの損失を被っています。クラウドプロバイダーとユーザーの両方が、障害発生時にローカルクラウドの冗長性を設計する方法を学んでいるようで、管理者はそれらの教訓を従来の仮想化データセンターの冗長性に適用したいと考えています。

データセンターの冗長性の再考

ほとんどの従来の組織では、いくつかの基本的なサービスはダウンタイムを防ぐために設計されています。ネットワークタイムプロトコルやネットワークルーティングなどのサービスは、多くの場合、高度な冗長性を備えるように設計されます。ただし、システムが冗長性を備えているからといって、その構成が自然な冗長性を十分に活用できるようになっているわけではありません。

一部のコアサービスには高可用性オプションがありません。 IT 部門は、ほとんどの場合、対処しなければならない技術的負債に直面しており、理想的に動作していないレガシーシステムのサポートが必要になります。たとえば、一部のレガシーアプリケーション認証システムはサーバー上にのみ存在できるため、データセンターの冗長性が制限されます。

経営者はすべての卵を一つのカゴに入れるべきではありません。ほとんどの従来の展開では、データセンター内で冗長ハードウェアを使用するのが最適です。管理者は、複数の可用性ゾーンを提供できるクラウドコンピューティングプロバイダーと同様に、システムを共有しない冗長仮想化クラスターを使用することで、この戦略をさらに進めることができます。これにより、アプリケーションはデータセンター内のより高いレベルの冗長性に依存するようになりますが、ビジネスニーズがそのレベルの冗長保護を正当化する場合にのみ価値があります。

これらの戦略をクラウドとデータセンター全体で並行して実装することで、可用性ゾーンなどのパブリッククラウドプロバイダーの概念を使用すると、同様の従来のインフラストラクチャを採用するときに役立ちます。この用語を使用すると、開発者は同様のクラウドの概念に精通している可能性があるため、インフラストラクチャの概念を理解しやすくなります。

クラウドコンピューティングの冗長性は完璧ではなく、ダウンタイムから教訓が得られる

高度に冗長化されたシステムでも、パフォーマンスの低下は避けられません。最近のパブリッククラウドの障害により、カタログサービスが 1 つのリージョンから別のリージョンへのサービスの実行を継続できなくなりました。リダイレクトされたトラフィックが他のエリアの容量を超え、サービスが需要を満たすことができなくなります。

管理者がデータセンターの冗長性を設計する場合、停止が発生した場合の負荷を計画する必要があります。管理者はデータセンターの冗長性をサポートするために 2 台のサーバーを所有しているかもしれませんが、そのうちの 1 台のサーバーでは負荷全体を処理できない可能性があります。重要なのは、通常時と異常時のビジネスニーズを満たすシステムを設計することです。

多くの組織は、正しく構成されていれば、停止中に何か他のものを発見できたはずだと考えています。 Netflix の Chaos Monkey システムは、障害のシミュレーションでよく知られていますが、そこから得られる教訓は、管理者が実際の障害への対処を練習しなければ、IT システムがどのように反応するかを知ることはできないということです。また、システムは孤立したものではなく、各アプリケーションとサービスには依存関係があり、テストがさらに複雑になります。

プライベートデータセンターやパブリッククラウドでは停止は珍しくありませんが、データセンター内では、管理者がシステムの内部の仕組みを把握し、理解している必要があることがよくあります。クラウドプロバイダーが停止を経験すると、ダウンタイムから何も学べなかったように感じるかもしれませんが、それは事実ではありません。パブリッククラウドプロバイダーは従来のデータセンターとは異なるツールと方法論を使用しますが、冗長性の構築と調整に関して得られる教訓は普遍的です。

<<: すべてのクラウドプラットフォームが同じように作られているわけではない

>>: AWS、Google Cloudに勝ち、クラウド災害復旧会社CloudEndureを2億5000万ドルで買収