年末レビュー | 2020 年のクラウド大手のダウンタイム インシデント

年末レビュー | 2020 年のクラウド大手のダウンタイム インシデント

この記事はWeChatの公開アカウント「SDNLAB」から転載したものです。この記事の転載についてはSDNLAB公式アカウントまでご連絡ください。

今年、感染症の流行により、クラウド コンピューティングは特別な試練に直面しています。クラウド コンピューティングは、通常の業務を遂行する能力だけでなく、負荷の急増下でも可用性を維持する能力も備えていなければなりません。現在、クラウドコンピューティングは多くの企業に導入されていますが、その過程で多くの問題も発生しています。

今年発生した大規模な障害のトップ 10 を紹介します。これらの問題が発生し、解決されるにつれて、クラウド コンピューティング テクノロジーは新たな課題と機会に直面します。

1. 3月のMicrosoft Azure

3月に、マイクロソフトは2回の大規模な障害を経験した。

3月3日、米国東部のマイクロソフトのデータセンターで6時間にわたるサービス停止が発生し、米国北部の顧客はAzureクラウドサービスを利用できなくなりました。

[[360714]]

マイクロソフト社は、この停電は冷却システムの故障が原因だと述べた。ビルの自動化制御の不具合により空気の流れが減少し、その結果データセンター全体の温度が急上昇し、ネットワーク機器のパフォーマンスに影響を及ぼし、コンピューティングとストレージの両方が使用できなくなりました。

3 月 24 日から 26 日にかけて、DevOps チームが使用する継続的デリバリー サービスである Azure Pipelines に障害が発生しました。その後数日間、ソフトウェア開発パイプラインに深刻な遅延が発生し、特に開発者に影響が出ました。

マイクロソフトは、世界的な感染拡大により需要が急増し、仮想マシンの容量が限られているためデバイスの再イメージ化にかかる時間が長くなり、利用可能なエージェントの待機時間が増加したことを確認しました。

2. 3月26日、Google Cloud Platform

3月26日、複数のGoogleクラウドサービスにアクセスできなくなりました。 Google ユーザーは、Google 500 および 502 エラー コードが発生しているとツイートしました。500 は、内部エラーが原因でリクエストが失敗したことを意味します。 502 はゲートウェイ障害を意味します。

[[360715]]

Googleは最終的に、この障害の原因を「インフラコンポーネント」の問題だと主張した。 Downdetector によると、米国東海岸沿いの Google 顧客が最も大きな影響を受けたという。

3. 4月10日、ファーウェイクラウド

4月10日、Huawei Cloudで大規模な障害が発生した。 Huawei Cloudのログインと管理バックエンドにアクセスできず、一部の企業業務を正常に維持することができませんでした。停電は約3時間続いた。

[[360716]]

多くのネットユーザーがWeiboで、Huawei Cloudのログインと管理バックエンドにアクセスできなくなり、「サーバーが一時的に過負荷になっているか、メンテナンス中です。しばらくしてからもう一度お試しください」などのメッセージが表示されると報告した。 「データベース接続を確立中にエラーが発生しました」と表示されました。その後、ファーウェイクラウドの公式Weiboアカウントは「ホストの一部に異常が検出されました。障害は基本的に修復され、一部の顧客の業務は回復しています」と発表しました。

これについては、今回の障害は主に北京のコンピューター室の故障が原因との報道があり、広州や上海のユーザーは正常に利用できたとしている。

4. 4月21日、GitHub

Microsoft が所有するソースコードリポジトリである GitHub は、4 月下旬に複数回の障害を経験した。

4月21日、複数のGitHubサービスで1時間半にわたるアクセス異常が発生しました。 4月22日、サービスは再び中断され、少なくとも2時間続いた。 4月23日には、複数のGitHubサービスもさまざまな問題の影響を受け、その影響は3時間近く続きました。ソフトウェア エンジニアが頻繁に使用する API リクエストや Webhook などのサービスは、「低下」としてマークされます。

公式の理由は示されず、復旧プロセスに関する情報も公開されなかった。 GitHubのアップデートには、さまざまな不具合を修正するためのMicrosoftの試みが含まれていたが、問題に関する詳細は提供されておらず、開発者たちはTwitterでMicrosoftの透明性の欠如を非難した。

(5)6月9日、IBMクラウド

6月9日、IBM Cloudで大規模な障害が発生し、有名なテクノロジーニュース集約ウェブサイトであるTechmemeを含む、プラットフォーム上でホストされている多くのサービスが中断しました。停電は午後2時半ごろ始まった。そしてすぐに世界中に広まりました。

IBM Cloud ページも、障害発生中は短時間ダウンしていましたが、午後 6 時 30 分過ぎに復旧しました。問題は解決された。

IBM の Web サイトでは、INM ネットワーク運用チームがルーティング ポリシーを調整し、サードパーティ プロバイダーによってもたらされた問題に対処した結果、停止は解決されたと説明されています。

(6)8月24日、ズーム

8月24日、Zoomは部分的な障害に見舞われ、ユーザーはオフラインミーティングやオンラインビデオ会議にアクセスできなくなりました。停電は3時間続きました。 Zoomは障害の原因については説明せず、ステータスページで問題を発見し修正したとだけ述べた。

Zoomの1日あたりのアクティブユーザー数は現在約1億1500万人で、同社のサービスは2020年の在宅勤務のキーワードになったかもしれない。

(7)9月28日、Microsoft 365とAzure

9月29日、Microsoft Office 365オフィスソフトウェアとAzureクラウド製品に不具合が発生し、一部のユーザーに対して数時間にわたりサービスが中断されました。

[[360717]]

マイクロソフトは、今回の障害はOutlookメールサービスとTeamsオフィスコラボレーションツールの一部ユーザーに影響したと述べた。Teamsにはチャットやビデオ会議機能があり、COVID-19パンデミック中にユーザーベースが急速に拡大している。マイクロソフトは、一部のユーザーがこれらのサービスにログインできなかったが、すでにログインしていたユーザーには影響はなかったと述べた。

同日、Azure クラウド コンピューティング ユーザーも Office 365 スイートと同様の問題に遭遇しました。 Azure は、多くの企業がデータの保存と分析に利用している Microsoft の大規模なクラウド コンピューティング システムです。

(8)10月7日、マイクロソフトオフィス365

10 月 7 日に、Microsoft はネットワーク インフラストラクチャを更新し、その後、Microsoft Teams、Outlook、SharePoint Online、OneDrive for Business、Outlook.com のすべてでダウンタイムが発生しました。

[[360718]]

午後2時48分その日、Twitter の公式 Microsoft 365 アカウントが停止を確認しました。マイクロソフトはその後、ネットワーク インフラストラクチャの最新の更新が Microsoft 365 サービスに影響を与えており、現在環境が更新を復元中であると述べました。

(9)11月25日AWS

11月25日、Amazonのクラウドサービスが中断し、多数のウェブサイトやサービスに影響が出た。停電は約5時間続きました。

[[360719]]

AWSは、ストリーミングデータを処理するKinesisサービスに不具合があり、多数のウェブサイトが影響を受け、エラー率が上昇したとの通知を出した。さらに、この障害により、ステータス ページに更新情報を投稿する機能にも影響が出ました。

この障害は、アマゾンのスマートセキュリティ子会社リング、ロク、ソフトウェア開発会社オートデスク、ニューヨーク都市圏交通局の地下鉄ウェブサイト、フォーラム・パブリッシング・グループ傘下のシカゴ・トリビューンとボルチモア・サンなど、いくつかの企業や機関のサービスに影響を及ぼし、ウェブサイト上でエラーが頻繁に発生したとみられる。

Apple、Slack、Netflix など AWS の主要顧客は障害の影響を受けず、現在も通常通り業務を続けていることは注目に値します。

(10)12月14日、Google Cloud

12月14日の夕方、Googleのサーバーは再び世界規模の障害に見舞われた。これは過去5か月間で3度目の世界的な停電となる。

YouTube、Gmail、Google ドライブ、Google 検索などの Google サービスがクラッシュし、ユーザーは通常通り利用できない状態となっている。世界中の多くの国や地域のユーザーが影響を受けています。

Googleはその後ツイートし、Google認証システムが停止したのは内部ストレージの割り当て問題によるものだと確認した。 45 分間の停止後、問題は解決され、すべてのサービスが復旧しました。

インターネット時代では、システムの信頼性に対する要求がさらに高まります。重要なシステムでは、年間 53 分以内の非利用時間が求められることがよくありますが、上記のインシデントの多くは、障害予算をはるかに超えています。

今後、システムアーキテクチャはますます複雑になり、全体的なデータとトラフィックはますます大きくなります。一部の専門家は、迅速な対応と影響範囲の制御は、現在のインターネットが注意を払う必要がある 2 つの実際的な方向性であると述べています。

<<:  Dockerってすごいですよね? K8s を使用する理由

>>:  エッジコンピューティングの戦い: 新たなクラウドの戦場はクラウドではない

推薦する

百度のインターネットエコシステムプロジェクト構築に向けた共同の取り組みについての考察

みなさんこんにちは。梁磊です。百度ウェブマスタープラットフォームで「手を携えてインターネットエコシス...

Ctripは海外で無料Wi-Fiを推進、オンラインマーケティングは価格競争からユーザーエクスペリエンスへと移行

「Made in China」はかつては安さと同義語でした。市場を開拓するために、ブランドが弱体化す...

ガートナー:3つの誤った考え方を避け、中国のクラウドサービスプロバイダーを合理的に選択する

中国で事業を展開する企業は、クラウドの導入を通じて、クラウドネイティブのイノベーションの推進と既存の...

競合サイトのランキングを分析する方法

Baidu や Google で人気のキーワードを検索すると、いくつかの Web サイトが最適化され...

Godaddy 月額 1.99 ドルのウェブホスティング + 無料ドメイン名

Godaddy は長い間何も活動していないようです。もちろん、国内ユーザーが参加できるものについて話...

インテリジェントなIT運用がハイブリッドマルチクラウド管理のあり方を変える

認知と自動化を組み合わせた運用プラットフォームを通じて、エンタープライズハイブリッドマルチクラウドア...

オラクルのクラウドへの強気な姿勢はデータベースの絶望を隠している

Oracle は昔のエンタープライズ アプリケーションには優れたデータベースでしたが、現代のビッグ ...

テンセントクラウドはバーレーンにデータセンターを設立し、海外事業展開を加速すると発表した。

3月1日、テンセントクラウドとバーレーン王国経済開発委員会は協力に関する覚書を正式に締結した。両者は...

raksmart - 年間99元、Windows VPS + 1Gbps帯域幅、無制限のトラフィック、Alipay

raksmart 春のプロモーションが開催中です: 3 月 20 日から 4 月 20 日まで、すべ...

PR アップデートの奇妙な現象: 外部リンクがゼロの Web サイトの PR が、運用開始から 5 日後に突然 5 に上がるのはなぜですか?

元宵節の期間中、Googleは依然として中国らしさを主張し、この伝統的な中国の祭りに、Googleラ...

regxa: 1Tbps の高防御、1Gbps の帯域幅、無制限のトラフィック、月額 5 ドルの VPS、1G メモリ/1 コア/15g NVMe

regxaは2017年に設立された新興企業です。主に1Gbpsの帯域幅、無制限のトラフィック、高度な...

ソーシャル メディア マーケティングの「4C」とはどういう意味ですか?

私たちの従来のマーケティングは、製品、価格、プロモーション チャネル、プロモーションの 4P に重点...

Sogou の WeChat 検索は単なる花瓶ですか?

WeChat は確かに簡単には手に入りません。6 億人のユーザーと数百万の公開アカウントを持つ We...

ソーシャルメディアコンテンツマーケティングにおけるSEO

今日、コンテンツ マーケティングはあらゆる企業のマーケティング戦略の中核となっています。これまでの記...

#BlackWeek5# Hawkhost-30% オフ/2 年間 21 USD/ホスト/VPS/リセラー/香港を含む 6 つのデータセンター

hawkhost.com の毎年恒例のブラックフライデーセールでは、[1] 仮想ホスティングが 1 ...