Kubernetes はバージョン 1.6 以降、5,000 を超えるノードをサポートできると主張していますが、数十から 5,000 までのノード数の増加に伴い、問題が発生することは避けられません。 この記事では、Kubernetes 5000 への道のりにおける Open API の経験、遭遇した問題、問題解決の試み、実際の問題の発見などについて説明します。
遭遇した問題とその解決方法 質問1: 1〜500ノード後 質問: kubectl がタイムアウトすることがあります (ps kubectl -v=6 ですべての API の詳細を表示できます) 解決を試みる:
理由: 上記の理由を除いて、マスター上の残りのサービス(etcd、kube-proxy)の確認を開始します。
質問2: ノードが約1000個ある場合 質問: kube-apiserverはetcdから毎秒500MBを読み込むことが判明した。 解決を試みる:
理由:
etcd のヒント: --etcd-servers-overrides を使用すると、Kubernetes イベント データをセグメントとして書き込み、異なるマシンで処理することができます (以下を参照)。
問題3: 1000~2000ノード 質問: これ以上データを書き込めません。エラーが連鎖的に発生しました kubernetes-ec2-autoscalerは、すべてのetcdが停止した後にのみ問題を返し、すべてのetcdをシャットダウンします。 解決を試みる:
解決:
各種サービスの最適化 Kubeマスターの高可用性 一般的に言えば、私たちのアーキテクチャは、kube-master (kube-apiserver、kube-scheduler、kube-control-manager を含む主要な Kubernetes サービス プロバイダー コンポーネント) と複数のスレーブで構成されます。ただし、高可用性を実現するには、次の方法を参照してください。
上記はKubernetesスケジューラを調整する例です。 InterPodAffinityPriority の重みを増やすことで、目標を達成できます。参考までに、その他の例もご覧ください。 現在の Kubernetes スケジューラ ポリシーは動的切り替えをサポートしておらず、kube-apiserver を再起動する必要があることに注意してください (問題: 41600) スケジューラポリシーの調整による影響 OpenAIはKubeDNSを使用していましたが、すぐに 質問: DNS クエリが頻繁に失敗する (ランダムに発生する) 約200QPS以上のドメイン検索 解決を試みる:
解決:
新しいノードを作成するときにDockerイメージのプルが遅くなる 質問: 新しいノードが構築されるたびに、Dockerイメージのプルに30分かかります 解決を試みる:
解決:
補足: ソーストレース
Dockerイメージのプル速度の向上 さらに、次の方法でプル速度を向上させることもできます。
ネットワークパフォーマンスの向上 フランネルのパフォーマンスの限界 OpenAIノード間のネットワークトラフィックは10~15GBit/sに達する可能性がありますが、Flannelによりトラフィックは2GBit/sまで低下します。 解決策は、フランネルを削除し、実際のネットワークを使用することです
|
>>: この記事では、「エッジコンピューティング」とモノのインターネットの密接な関係について説明します。
翻訳者 |李睿レビュー |チョンロウApache Kafka (Kafka とも呼ばれる) は、Ap...
今日、企業の IT は大きな変化を遂げています。 Splunk による SignalFx の買収やソ...
クラウドネイティブ アプリケーション設計により、ソフトウェア エンジニアは顧客のニーズを満たすことに...
企業が成長するにつれて、ビジネスとアプリケーションは増加し続け、IT システムの規模はますます大きく...
基本的な質問Javaメモリ領域(ランタイムデータ領域)の紹介Java オブジェクトを作成するプロセス...
中国電子技術標準化研究所が主催し、51CTOが主催する「第7回中国クラウドコンピューティング標準およ...
[[281345]]背景パースPaaS テクノロジーを一言でまとめると、「アプリケーション ホスティ...
ウェブサイトの立ち上げ、新製品の発売、製品の在庫一掃、季節外れの商品、価格競争など、さまざまな理由か...
ほとんどの企業は、ハイブリッド ワーキング モデルをすでに実装しているか、将来的に実装する予定です。...
著者には、わずか半年でWeChatプラットフォームを利用して古い顧客グループを集めたNikoという友...
5月17日は世界電気通信デーです。中国電信天一クラウドは「赤い雲天一、安全で包括的」をテーマに、オン...
2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っていますB2B開発...
12月15日、internet2share.comは上海でデジタル出版の今後の発展の道についてのサロ...
SEO(検索エンジン最適化)、または検索エンジン最適化とは、簡単に言えば、適切な手段を使用してウェブ...
著作権戦争(TechWeb の写真)動画サイトでの人気テレビ番組の再生状況調査(TechWebチャー...