Alibaba Cloud は安定性向上のため「カオスエンジニアリング」を導入。独自のクラウドは「ランダム破壊」後も正常に動作する

Alibaba Cloud は安定性向上のため「カオスエンジニアリング」を導入。独自のクラウドは「ランダム破壊」後も正常に動作する

2018年の杭州雲奇カンファレンスで、アリババクラウドは素晴らしいショーを披露しました。観客によってランダムに選ばれた12,600個の異常物体が「カンフーモンキー」に変身し、専用のクラウドデータセンターで暴れ回って「破壊」を行いました。ハードドライブの電源障害、ネットワークの揺れ、サーバーのクラッシュなどをシミュレートしましたが、システムとアプリケーションは依然として安定して動作しました。
「IT 実務者にとって最大の未解決の謎は、ディスクがいっぱいになり、ネットワークが混雑すると、なぜ主要なアプリケーション サービスの中断が連鎖的に発生するのかということです。」アリババクラウドのプライベートクラウドおよびエンタープライズアプリケーション担当ゼネラルマネージャーの馬進氏は冗談めかしてこう語った。 「以前は、システム全体の訓練を実施できる条件がありませんでした。今日では、『カオスエンジニアリング』という概念を導入し、準本番環境に高頻度の異常を注入して、プライベートクラウドの信頼性を向上させています。」
昨年の雲奇カンファレンスでサーバーのプラグを抜く実演をして以来、馬進は「破壊王」と呼ばれている。しかし、「破壊」はシステムをより安定させるためです。過去 1 年間、彼とエンジニアは「カオス エンジニアリング」計画を開始し、サーバーのダウンタイム、コンピューティング リソースの枯渇、プログラムの異常終了、偶発的な削除、ネットワークのジッター、IO ハングなどの複雑な問題など、それぞれがシステムに一定の損害を引き起こす可能性のある 12,600 を超える異常な組み合わせを本番環境で構築しました。こうした問題に対する「独自のクラウド免疫システム」を構築することで、顧客が潜在的な障害の危険性を80%事前に排除できるように支援します。


観客がランダムに選んだ異常では破壊力が足りなかったのかもしれない。そこで馬進は決心し、極限環境で超異常を実証した。コアECSクラスターでローカルネットワーク異常が発生し、別のECSのコンピューティングリソースが飽和状態になったのだ。 「このような状況は、システム雪崩を簡単に引き起こす可能性があります。通常、顧客のサービスは停止し、回復には非常に長い時間がかかります」と馬金氏は説明した。デモ サイトのプライベート クラウドの迅速な分離と柔軟なスケーリング サービスが効果を発揮し、わずか数秒のジッターの後、アプリケーションは正常に戻りました。
「カオスエンジニアリング」は通常、エンジニアリング分野で使用され、制御可能な範囲内でシステム障害を引き起こす可能性のあるいくつかの実験の実践を指します。馬金氏は、アリババクラウドの「カオスエンジニアリング」とは、模擬生産環境で制御可能な建設的破壊を実行し、期待に応えられないシステムのフィードバックを継続的に最適化することで、顧客に安定した環境を継続的に磨き上げ、提供することにあると述べた。

[[244366]]


Alibaba Cloud は、2016 年に独自のクラウド ソリューションをリリースして以来、税関総署、浙江省政府サービス ネットワーク、中国聯通、CITIC などの大規模な政府および企業の顧客を含む、数百の政府、金融機関、企業の顧客のデジタル変革を支援してきました。独自のクラウドは 60 を超えるクラウド製品とサービスを提供しており、10 ~ 10,000 ユニットの単一クラスター展開をサポートし、コンピューティングをより多くのエッジ シナリオに拡張できます。今日のプライベート クラウドは海外市場に進出し、世界中の顧客にサービスを提供するために Intel と業界提携を結んでいます。

<<:  クラウド コンピューティング環境におけるストレージの 6 つの必須要素は何ですか?

>>:  2018年クラウドネイティブテクノロジープラクティスサミット(CNBPS)がクラウドネイティブを再定義

推薦する

ページ構築とJSフロントエンドについて私たちが言いたいこと

Weibo のページ構築エンジニアとしての私の主な責任は、HTML と CSS を使用して高品質の静...

ウェブマスターはリンクを購入する際には細心の注意を払う必要があります。

ウェブサイト構築における外部リンクの重要性については、あまり説明する必要はないと思います。ディレクト...

SEOWHY 創設者 Fu Wei 氏の「統合と集約」について

2012年9月、傅偉氏は深圳の麒麟ホテルで会員集会を開催しました。この集会のテーマは「新しい環境で考...

中小企業が検索エンジンマーケティング(SEM)を行う必要がある理由

間違いなく、今日はインターネットの時代です。どの企業もインターネットの影響を無視することはできません...

コンテナがクラウドを支配する理由: Kubernetes の台頭

Kubernetes は、ノード クラスター全体にわたるデプロイメント、スケジュール設定、スケーリン...

winnervps-シンガポール/インドネシア/Xen/512m メモリ/1000M ポート/月額 5.25 米ドル

winnervps.com は現在、主に VPS を提供するホスティング プロバイダーです (インド...

SEO 最適化に関して、SEO レポートはどのように書けばよいですか?

月収10万元の起業の夢を実現するミニプログラム起業支援プランSEO にとって、それはオンライン マー...

SEO担当者がウェブサイトを正しく分析する方法について簡単に説明します

SEO担当者が転職する場合、ほとんどのウェブマスターは新しいウェブサイトと市場状況を体系的に分析し、...

Kidswant は、UCloud クラウド サービスをどのように活用して、新規小売業の問題点を解決しているのでしょうか?

2018年8月、中国の母子用品業界の大手企業であり、ニューリテールのベンチマークであるKidswan...

SEOについて語るにはまだ時期尚早です。国内のSEO業界はまだ発展の可能性があります。

SEOに注目している方なら、最近アメリカの有名な経済雑誌Forbesに掲載され、A5とchinazに...

人工知能がクラウドコンピューティングの発展に与える影響

クラウド コンピューティングは、組織の業務、情報の保存、意思決定の方法を変え、技術革新と分析研究への...

華龍郷の銭宇:地域コミュニティ運営者の物語

彼は常州で地元の暴君としての地位を固めるために5年を費やし、現在は第2、第3のインターネット市場の影...

ユーザー エクスペリエンスは外部リンクの構築から始まります。効果的なクリックが生成されて初めて、外部リンクは高品質になります。

現在、すべてのウェブマスターとSEO担当者は、外部リンクの構築に多大な注意を払っています。彼らは、リ...

マルチクラウド自動フェイルオーバーで災害復旧戦略を強化

災害の発生を完全に防ぐことはできませんが、災害による事業中断は回避できます。適切なツールを使用し、適...

マイクロソフトの李剛氏:企業のデジタル変革を全面的に推進

[51CTO.comからのオリジナル記事] 最近、「企業のデジタル変革の実現」をテーマにした第13回...