Ceph 分散ストレージ クラスターの簡単な紹介

Ceph 分散ストレージ クラスターの簡単な紹介

Ceph 分散ストレージ クラスター環境を計画する場合、ハードウェアの選択は Ceph クラスター全体のパフォーマンスに影響するため、非常に重要です。参考までに、ハードウェアの選択基準をいくつか示します。

[[249458]]

1.CPUの選択

Ceph メタデータ サーバーは負荷を動的に再分配しますが、これは CPU に左右されるため、メタデータ サーバーには優れたプロセッサ パフォーマンス (クアッドコア CPU など) が必要です。 Ceph OSD は RADOS サービスを実行し、CRUSH を使用してデータの保存場所を計算し、データを複製し、クラスター マップのコピーを維持する必要があるため、OSD にも適切な処理パフォーマンスが必要です。 Ceph モニターはクラスター マップのバックボーン情報を維持するだけなので、CPU には影響しません。

2. RAMの選択

メタデータ サーバーとモニターはデータを迅速に提供できる必要があるため、十分なメモリ (例: デーモン インスタンスごとに 1 GB の RAM) が必要です。 OSD は通常の操作を実行するときに多くのメモリを必要としません (例: デーモン インスタンスごとに 500 MB の RAM)。ただし、リカバリ操作を実行する場合は、大量のメモリが必要になります (たとえば、デーモンごとに 1 TB のストレージあたり約 1 GB)。一般的に、多ければ多いほど良いです。

[[249459]]

3. データストレージの選択

データ ストレージを計画するときは、コストとパフォーマンスのトレードオフを考慮してください。複数のバックグラウンド プログラムが同時に 1 つのドライブの読み取りと書き込みを行う同時 OS 操作により、パフォーマンスが大幅に低下する可能性があります。考慮すべきファイル システムの制限もあります。BTRFS は実稼働環境ではそれほど安定していませんが、ジャーナルを記録してデータを並行して書き込む機能があり、XFS と EXT4 の方が優れています。

ヒント: 単一のディスク パーティション上で複数の OSD を実行することはお勧めしません。単一のディスク パーティション上で OSD とモニターまたはメタデータ サービスを実行することはお勧めしません。

ストレージ ドライブは、シーク時間、アクセス時間、読み取りおよび書き込み時間、および全体的なスループットによって制限されます。これらの物理的な制限は、特に回復中にシステム全体のパフォーマンスに影響を及ぼす可能性があります。オペレーティング システムとソフトウェアには専用のドライブを使用し、ホスト上で実行する OSD デーモンごとに 1 つのドライブを割り当てることをお勧めします。ほとんどの「OSD が遅い」問題は、1 つのオペレーティング システムで同じドライブ上で複数の OSD や複数のジャーナルを実行することによって発生します。

小さなパフォーマンスの問題を修正するコストが追加のディスク ドライブのコストを超える場合があるため、OSD ストレージ ドライブの過負荷を回避するためにクラスター設計の計画を迅速化できます。

ただし、各ハードドライブ上で複数の Ceph OSD デーモンを同時に実行すると、リソースの競合が発生し、全体的なスループットが低下する可能性があります。ジャーナルをオブジェクト データと同じドライブに保存することもできますが、これにより、書き込み操作をログに記録してクライアントに ACK を送信するのにかかる時間が長くなる可能性があります。 Ceph が書き込み操作を ACK する前に、Ceph は操作をログに書き込む必要があります。

BTRFS ファイル システムはログ データとオブジェクト データを同時に書き込むことができますが、XFS と ext4 ではそれができません。 Ceph では、オペレーティング システム、OSD データ、および OSD ジャーナルを別々のドライブで実行することを推奨しています。

4. SSDの選択

パフォーマンスを向上させる機会の 1 つは、ソリッド ステート ドライブ (SSD) を使用して、ランダム アクセス時間、読み取り待ち時間、スループットの加速を削減することです。 SSD は、多くの場合、1 GB あたりのコストがハードディスク ドライブの 10 倍以上かかりますが、アクセス時間はハードディスク ドライブの 100 倍以上高速です。

SSD には可動機械部品がないため、ハードディスク ドライブと同じ制限を受ける必要がありません。ただし、SSD には明らかな制限があります。順次読み取りおよび書き込みパフォーマンスを考慮することが重要です。複数の OSD に複数のログを保存する場合、400 MB/秒のシーケンシャル書き込みスループットを持つ SSD は、120 MB/秒のシーケンシャル書き込みスループットを持つ機械式ディスクよりも優れたパフォーマンスを発揮します。

OSD オブジェクト ストレージは SSD では高価であるため、OSD のジャーナルを OSD のオブジェクト データとともに別の SSD に保存すると、OSD のパフォーマンスが大幅に向上する可能性があります。 OSD ジャーナル設定は、デフォルトでは /var/lib/ceph/osd/$cluster-$id/journal にあります。このパスを SSD または SSD のパーティションにマウントして、ログ ファイルとデータ ファイルを別のディスクに保存できます。

5. ネットワークの選択

各マシンに少なくとも 2 枚のギガビット ネットワーク カードを搭載することをお勧めします。現在、最も一般的なハードディスクのスループットは 100MB/秒です。ネットワーク カードはすべての OSD ハード ディスクの合計スループットを処理できる必要があるため、パブリック ネットワーク用と cluster_network 用に少なくとも 2 つのギガビット ネットワーク カードを用意することをお勧めします。クラスター ネットワーク (インターネットに接続されていないことが望ましい) は、データ レプリケーションによって生成される追加の負荷を処理し、OSD がデータをレプリケートしている間に配置グループがアクティブ + クリーンな状態に戻るのを妨げる可能性のあるサービス拒否攻撃を防ぐために使用されます。 10 ギガビット ネットワーク カードの導入を検討してください。 1Gbps ネットワーク経由で 1TB のデータをコピーするには 3 時間かかりますが、3TB (一般的なドライブ構成) の場合は 9 時間かかります。対照的に、10Gbps を使用すると、コピー時間はそれぞれ 20 分と 1 時間に短縮されます。

PB レベルのクラスターでは、OSD ディスク障害は例外ではなく、通常のことです。システム管理者は、合理的な費用対効果を前提として、PG を劣化状態からアクティブ + クリーン状態にできるだけ早く復元したいと考えています。 10G ネットワーク カードの使用を検討する価値があります。各ネットワークのトップオブラック ルータからコア ルータへの通信では、スループットが高速化される必要があります (例: 40 Gbps ~ 100 Gbps)。

6. その他留意事項:

各ホストで複数の OSD プロセスを実行できますが、OSD ディスクの合計スループットが、クライアントがデータの読み取りまたは書き込みに必要なネットワーク帯域幅を超えないようにする必要があります。各ホスト上のデータの保存比率も考慮する必要があります。特定のホストでパーセンテージが大きい場合、問題が発生する可能性があります。Ceph はデータ損失を防ぐために動作を停止する可能性があります。

各ホストで複数の OSD プロセスを実行する場合は、カーネルも最新の状態に保つ必要があります。各ホストで複数の OSD プロセス (例: 20 以上) を実行すると、特にリカバリおよび再バランス操作のために多数のスレッドが生成されます。多くの Linux カーネルでは、デフォルトで最大スレッド数が小さくなっています (例: 32k)。この領域で問題が発生した場合は、kernel.pid_max を高く設定することを検討してください。理論上の最大値は 4,194,303 です。

<<:  2018 Oracle Cloud Conferenceが盛大に開幕

>>:  大手企業がしのぎを削るクラウドコンピューティング市場で、中小企業はいかにシェアしていくのか。

推薦する

草の根ウェブマスターはブログをどのように位置づけているのでしょうか?

私はしばらくブログを運営していますが、毎日どんなコンテンツを投稿するかでまだ悩んでいます。これはほと...

優れた最適化戦略によりSEO担当者の作業効率が向上

周知のとおり、ウェブサイトの運用最適化は実行能力の競争であるだけでなく、最適化担当者と運用管理者のア...

WaveCom-エストニア/月額5.6ドル特別価格kvm仮想VPS(1Gメモリ)

Wavecom は、エストニアの老舗企業 (登録番号: 10756058) で、2001 年から事業...

国慶節の休暇中に、旅行会社向けのWeChatマーケティングの秘密を知りたいですか?

月収10万元の起業の夢を実現するミニプログラム起業支援プラン建国記念日の祝日が近づいてきました。どこ...

初心者が身につけるべきSEO習慣

SEO 初心者としては、良い SEO 習慣を身につける必要があります。良い習慣を身につけることで、学...

部隊を配備し、Weiboマーケティングマトリックス戦略を活用する方法

序文マクロ配列とは何でしょうか?Weiboマーケティングを理解していない人が多いため、マクロ配列の概...

#blackfriday# hostgator - 80% オフ、無制限のウェブサイト構築、仮想ホスティング/VPS/サーバー

アメリカの有名ホスティングブランド、Hostgatorのブラックフライデープロモーションが始まりまし...

#ドメイン特別価格: name.com - com/net ドメイン名を 0.99 ドルで登録

name.comではボトムズラップをテーマにしたイベントを開催しています。イベントの割引コードはその...

ウェブサイト構築会社は「淘利淘外」を利用して金儲け、淘宝の売り手は全財産を失う

ウェブサイト構築会社は「Taoli Taowai」を利用して狂ったように儲けている中小のタオバオ販売...

予測不可能な検索エンジンに対応する方法

今のSEOに携わる人たちは、とても惨めな人たちであることは明らかです。彼らは毎日、上司からの問い合わ...

継続的なイノベーションについて話すことは、ウェブサイトの発展と成長の重要な要素です

ウェブマスターが議論するトピックの中で最も頻繁に登場する言葉は、ウェブサイトのプロモーションです。ウ...

ソフト コンテンツ マーケティングにおける顧客ニーズについて、どの程度ご存知ですか? について簡単に説明します。

マーケティングは何に依存しているのでしょうか? 人間性です! ソフト記事の読者は誰でしょうか? 人間...

Google Hummingbird: インテリジェントな意味解析がもたらす破壊的変化

Google は創立 15 周年を祝うため、秘密裏にハミングバード アルゴリズムを導入しました。公式...

Baidu - ウェブマスター情報およびサービスセンターへ

このタイトルを思いついたとき、私はまだウェブサイトの宣伝に取り組んでいました。しかし、時代は変わり、...