2018 年のクラウド ダウンタイム インシデントの一覧

2018 年のクラウド ダウンタイム インシデントの一覧

クラウド セキュリティは業界で最も懸念される問題であり、クラウド サービス プロバイダーはクラウド セキュリティに関して繰り返し努力してきましたが、障害を防ぐのは依然として困難です。

[[257110]]

1. 6月17日: Microsoft Azure アイルランド データセンターの停止

事故の詳細: 2018 年 6 月 17 日から 18 日にかけて、アイルランドのデータ センターの恒温システムに問題があったため、Microsoft Azure が高温の影響を受け、ストレージとネットワークが停止しました。

ダウンタイム: 5時間以上

2. 6月27日:Alibaba Cloudの停止

事故の詳細:2018年6月27日16時21分頃、Alibaba Cloudで重大な技術的障害が発生し、16時50分に回復し始めました。公式の障害時間は約 30 分、復旧時間は約 1 時間かかりました。アリババは技術検討の結果、エンジニアリングチームが新しい自動運用・保守機能の導入時に変更検証操作を実行したことが障害の原因であると説明した。この操作はテスト環境では問題は発生しませんでしたが、実行後に未知のバグを引き起こしました。

改善策: 問題を特定して解決するための手動介入。

ダウンタイム: 30 分、回復時間は約 1 時間かかりました。

3. 7月20日:テンセントクラウドのハードドライブ障害

事故の詳細:2018年8月5日、北京青波CNCテクノロジー株式会社(以下、「Frontier CNC」)は、公式Weiboアカウントに「テンセントクラウドがスタートアップ企業にもたらした災難」と題するブログ記事を公開した。投稿によると、2018年7月20日にTencent Cloudのクラウドハードディスクが故障し(Tencent Cloudは後に事故の原因について説明した)、その結果、同社が保管していたすべてのデータが失われ、データを回復することができなかったという。これは、長期にわたるプロモーションと転用を通じて蓄積された正確な登録ユーザーとコンテンツデータを含む、スタートアップ企業の約1,000万元のプラットフォームデータです。

改善策:テンセントクラウドは、異常を監視した後、できるだけ早くユーザーに障害状況を通知し、すぐにファイルシステムの専門家を組織し、メーカーの技術専門家と協力してデータの修復を試みたと述べました。しかし、何度も努力したにもかかわらず、一部のデータ整合性チェックは依然として失敗しました。

4. 7月24日: Tencent Cloudのダウンタイム

事故の詳細:2018年7月24日、ユーザーはTencent Cloudにログインする際にタイムアウトとログアウトを繰り返し経験した。オペレータを変更した後でも結果は同じでした。その後、テンセントクラウドは、事業者の光ケーブルが中断されたと暫定的に判断した旨の通知を出した。オペレーターはブレークポイントを見つけ、接続処理中でした。影響を受けた主なユーザーは、広州地域の一部のユーザーでした。

改善策: オペレーターが介入し、できるだけ早く問題を修復しました。

ダウンタイム: ダウンタイムは不明、回復には30~40分かかります

5. プライムデー: Amazon AWS の停止

事件の詳細: プライムデーは、Amazon が世界中で開催する 36 時間の会員プロモーション イベントです。事件が始まるとすぐに、Amazonのウェブサイトとアプリは同時に深刻な障害に見舞われ、電子商取引事業が被害を受けただけでなく、Amazonの他の製品やサービスもさまざまな程度で影響を受けました。 Amazon の説明によると、AWS マネジメントコンソールにグローバルな問題があったとのことです。

ダウンタイム: 停止は 6 時間近く続きました。

6. 9月4日:Microsoft Azureデータセンターが落雷によりオフラインに

事故の詳細:9月4日午前、Microsoft Azureの米国中南部データセンター付近で落雷を含む悪天候が発生し、冷却システムの電圧に影響を及ぼし、複数のAzureサービスに接続障害が発生したため、当該地域のデータセンターに保存されているリソースへのお客様のアクセスが困難になりました。影響を受けるサービスには、Office 365 Active Directory、Visual Studio Online、Visual Studio Team Services などがあります。

修復措置: 9 月 5 日の朝、マイクロソフトのエンジニアがデータ センター内の電源とほとんどのネットワーク機器を復旧し、その他のサービスも復旧中です。

ダウンタイム: 24時間以上

7. 11月9日: Google CloudのKubernetesサービス(GKE)がダウン

事象の詳細:11月9日、Googleのパブリッククラウド上で提供されるKubernetesサービス(GKE)のノードプール構築機能に異常が発生し、保守担当者がCloud Console UIから新規ノードを作成できなくなりました。

対策: Google はエンジニアリング チームを派遣して障害の原因を調査し、修復作業を開始しました。 Google は、影響を受ける企業ユーザーはまず GCP 組み込みの gcloud コマンドを使用して新しい Kubernetes ノードを構築できると述べています。

ダウンタイム: 約19時間

<<:  2018年にBATは組織構造を調整した。

>>:  「ハイブリッドクラウド産業推進アライアンス」が設立され、ZStackの強みが強化

推薦する

自社SEO技術の評価

時々、過去数年間に学んだことを振り返ります。ざっくり考えてみると、SEO以外には何も見つからない、ほ...

Weiboマーケティングはソーシャルマーケティングと同じだと言う人もいます。それは本当ですか?

ショートビデオ、セルフメディア、インフルエンサーのためのワンストップサービスWeiboマーケティング...

クラウド コンピューティング ロードマップを構築するためのベスト プラクティス

クラウド コンピューティング ロードマップとは何ですか?なぜそれを持つことが重要なのでしょうか?これ...

検索エンジンの不正行為に関する百度とグーグルの異なる判断を説明する

百度の不正行為判定基準Web ページのソース コードの任意の場所に、Web ページの内容とは無関係な...

Baidu 入札プロモーションと SEO に関する簡単な説明

Baidu ランキングといえば、著者は当然 Baidu 入札プロモーションとウェブサイト SEO 最...

超格安ブログホストのおすすめ、海外ホスト、(専用)専用ブログホスト

現在のホスティング市場の価格はますます高くなっています。Bluehost に代表されるブログホストは...

2019 年の SaaS 犠牲者リストが公開されました。将来の見通しは心配ですか?

Salesforceが株式を公開した2004年の国内SaaS産業の始まりから数えると、中国のSaaS...

リンク交換の基本原則と戦略

(1)競合他社へのリンクGoogleやBaiduなどの大手検索エンジンを見ると、単に「被リンク」だけ...

Rancher Labs「Rancher 2.0リリースと中国ユーザーおよびパートナーカンファレンス」が盛況のうちに開催されました

コンテナ管理ソフトウェアプロバイダーの Rancher Labs は、9 月 27 日に北京で「Ra...

「ジャンプジャンプ」は人気ですが、ブランドはこの勢いをマーケティングにどのように活用できるでしょうか?

WeChatのミニゲーム「Jump Jump」は大人気で、張小龍はWeChatの公開授業で自らプレイ...

ブロックチェーン技術はクラウドコンピューティングの将来のトレンドに統合される

ブロックチェーンの数多くの利点により、既存のテクノロジーが直面しているボトルネックの問題を効果的に解...

クラウドリージョンを選択する際に最も情報に基づいた選択を行う方法

[[413753]]企業がさまざまなクラウド リージョンを選択する場合、最も近いリージョンが必ずしも...