Kubernetes トラブルシューティングの実践記録

Kubernetes トラブルシューティングの実践記録

[[434523]]

背景

テスト環境でクラスターアラームを受信したら、Kubernetes クラスターにログインしてトラブルシューティングを行います。

障害箇所

ポッドを表示

kube-system node2 上の calico ポッドに異常がないか確認します。

詳細情報を確認すると、node2 にストレージ スペースがなく、cgroup がリークされていることがわかります。

ストレージを表示

サーバーのストレージ情報を表示するには、node2 にログインします。現在はまだ十分なスペースがあります。

クラスターが使用する分散ストレージは Ceph なので、Ceph クラスターのステータスを確認します。

操作する

Ceph の修正

現在、Ceph クラスターに異常があり、ノード 2 の cgroup リークが発生している可能性があります。Ceph クラスターを手動で修復します。

データの不整合とは、オブジェクトのサイズが正しくないか、回復後にレプリカでオブジェクトが失われることを意味します。データの不整合によりスクラブ エラーが発生する可能性があります。

Ceph の保存プロセス中に、特別な理由により、オブジェクト情報のサイズが物理ディスク上の実際のサイズデータと一致しない場合があり、クリーンアップが失敗する可能性もあります。

データの不整合とは、オブジェクトのサイズが正しくないか、回復後にレプリカでオブジェクトが失われることを意味します。データの不整合によりスクラブ エラーが発生する可能性があります。

Ceph の保存プロセス中に、特別な理由により、オブジェクト情報のサイズが物理ディスク上の実際のサイズデータと一致しない場合があり、クリーンアップが失敗する可能性もあります。

図からわかるように、ページ番号 1.7c に問題があり、修復する必要があります。

ページの修正:

  1. ceph pg 修復 1.7c

修復後、しばらく待ってから再度確認し、Ceph クラスターが修復されたことを確認します。

ポッドの修復の実行

異常なポッドを削除します。コントローラーが存在するため、最新の Pod が再度プルアップされます。

ポッドを確認すると、以前と同じです。分析の結果、ノード 2 の cgroup が Ceph の異常によりリークされている可能性があることがわかりました。オンラインで検索して再コンパイルします。

Google で検索してみたところ、問題は基本的に https://github.com/rootsongjc/kubernetes-handbook/issues/313 にある問題と同じであることがわかりました。可能性のある存在は次のとおりです。

  • Kubelet ホストの Linux カーネルが低すぎます - Linux バージョン 3.10.0-862.el7.x86_64
  • これはkmemを無効にすることで解決できます

システムカーネルを確認すると、バージョンが低いことがわかります。

断層の再配置

最後に、runc ロジックはコンテナの起動時にコンテナの kmem アカウンティングをデフォルトでオンにするため、3.10 カーネルでリークが発生する可能性があります。

ここで問題を解決するには、スペースが残っていない状態でサーバーを再起動する必要があります。この問題は、一定期間内に大量の Pod を削除すると発生する可能性があります。

最初のアイデアは、将来のクラスター管理の概要では、ノードを削除してノードを再起動することでサーバーを修復できるというものです。

ノード2のメンテナンス

ノード2をスケジュール不可としてマークする

  1. kubectl コルドン node02

ノード2のポッドを削除する

  1. kubectl ドレイン node02 --delete-local-data --ignore-daemonsets --force  
  • --delete-local-data ローカルデータを削除します。emptyDir も削除されます。
  • --ignore-daemonsets DeamonSet を無視します。そうでない場合、DeamonSet は削除後に自動的に再構築されます。
  • --force force パラメータがない場合、ノード上の ReplicationController、ReplicaSet、DaemonSet、StatefulSet、または Job のみが削除されます。 force パラメータを使用すると、すべての Pod が削除されます。

現在、基本ノード2のすべてのPodは削除されています。

デフォルトの移行と異なるのは、Pod が終了する前に再構築されることです。このときのサービス中断時間 = 再構築時間 + サービス起動時間 + 準備プローブ検出正常時間。 1/1 にサービスが正常に実行されるまでお待ちください。そのため、単一のコピーで移行する場合、サービスの終了は避けられません。

ノード02を再起動

再起動後、node02は修復されました。

node02を復元します。

node02 を復元し、通常どおりスケジュールします。

  1. kubectl の uncordon node02

反射

デプロイされた Kubernetes クラスターのカーネルは後でアップグレードできます。

クラスター内の Pod 例外は、基盤となるストレージまたはその他の理由によって発生する可能性があります。問題を特定し、的を絞って修正する必要があります。

オリジナルリンク: https://juejin.cn/post/6969571897659015205

<<:  今後 10 年間のクラウド コンピューティングの発展には何が期待できるでしょうか?

>>:  エッジコンピューティングは5Gの真の可能性を引き出す鍵

推薦する

QingCloudは、医療業界のクラウドへのスムーズな移行を支援する最もINなデジタル医療クラウドソリューションとして選ばれました。

エンタープライズレベルのクラウドコンピューティングサービスプロバイダーであるQingCloudは最近...

いつでも、どこでも、何でもお望み通りに! IBM Cloud Paksは、企業のアプリケーション最新化の取り組みを支援します

[51CTO.com からのオリジナル記事] 今日、デジタル化は新たな常態となり、伝統的な経済からデ...

ICBCは文書番号86を使用してAlipayに強く反応しました。多くの銀行が支払いインターフェースの整理を検討しています。

ICBC迅速な支払いは、アリペイと商業銀行システムとの全面的な対立を引き起こすドミノ倒しとなった。 ...

Tuanbao.comは集団訴訟に直面する可能性があり、グループ購入の大きな飛躍の時代は終わりを迎えるだろう

「逃げたんじゃない!」春節期間中、中国トップ5の共同購入会社の一つであるTuanbao.comが倒産...

分散ログストレージシステム - LogDevice

序文分散システムに取り組んだことがある人なら誰でも、大規模クラスターで高同時実行トランザクションを処...

2007 年上半期 SEO 個人概要 (Baidu 版)

2007 年に Baidu のアルゴリズムが変更されたことは誰もが目撃したと思います。 。初心者が個...

企業がクラウドに急いで移行すべきでない理由

テクノロジー企業の幹部たちは、システムをクラウドに移行することへのプレッシャーを感じています。自社製...

IoTデバイスは爆発的に増加し、クラウドコンピューティングは「フォグコンピューティング」へと移行している

モノのインターネットは、インターネット経由で電源のオン/オフを切り替えられるトースターという最初の ...

初めての貿易電子商取引サイト構築で海外ホストを選択する方法

対外貿易電子商取引の発展は、企業に膨大な取引量をもたらすだけでなく、企業の海外ブランドイメージを高め...

これらに耐えられないならSEOをやらないでください

通常、端午節は3日間の休みがあるはずですが、私は1日しか休みませんでした。昨日から通常業務に戻りまし...

Dianpingの実践経験共有:小さな画面でビッグデータを表示する方法

国内のモバイルインターネットは急速に発展しており、企業の具体的な実践事例を研究することは、この分野に...

クラウドネイティブのインメモリデータベースがストレージとコンピューティングの統合を実現

「インメモリデータベースは、クラウドネイティブ、永続性、コンバージドコンピューティングを3つの主要な...

#DoubleTwelve# tmhhost: VPS\専用サーバー、すべて20%オフ、香港 CN2\日本 CN2\韓国 CN2\米国 CN2+200G高防御\米国 AS9929

年末を迎え、tmhhost は売上を伸ばすために在庫を一掃することを決定し、12 月 12 日に向け...

maxkvm: 年間 29 ドル、AMD プラットフォーム VPS、KVM/1G メモリ/1 コア/25g NVMe/1T トラフィック

新規事業であるmaxkvm(今年5月設立)は、米国(ロサンゼルス、ダラス、ニューヨーク)、オランダ(...

Pinterestの月間ユニークユーザー訪問数が9か月で1000万を超え、記録を樹立した。

Pinterestの月間ユニークユーザー訪問数が9か月で1000万を突破新浪科技報、北京時間2月8日...