分散ストレージシステムの信頼性をどのように評価するのでしょうか?

分散ストレージシステムの信頼性をどのように評価するのでしょうか?

通常、構造化データベース ストレージ (一般的な MySQL など)、ドキュメントベースの Nosql データベース ストレージ (mongodb)、従来の BLOB ストレージ システム (GFS、Hadoop) など、ストレージ システムの信頼性を向上させるには、マルチコピー テクノロジを使用するのが一般的です。

データは企業の活力の中核とも言えるため、データ ストレージ システムの信頼性を確保することは、どの企業にとっても簡単なことではありません。

では、クラスターデータの信頼性をより正確に測定するにはどうすればよいでしょうか?クラスターデータの信頼性を高めるためにシステムをどのように設計すればよいでしょうか?この記事では、これらの質問に答えてみます。

[[214781]]

データ損失とレプリカセット

「999 台のディスクで構成される 3 コピー ストレージ システムで、3 台のディスクが同時に故障した場合、データが失われる確率はどれくらいですか?」これはストレージ システムの設計と密接に関係しています。まず、2 つの極端な設計の状況を考えてみましょう。

設計 1: 999 個のディスクを 333 個のディスク ペアにグループ化します。

この設計では、ディスク ペアの 1 つが選択された場合にのみデータ損失が発生します。この設計では、データが欠損する確率は333/C(999,3) = 5.025095326058336*e-07です。

設計 2: データは 999 個のディスクにランダムに分散されます。

極端なケースでは、ランダム ディスク上の論理データのレプリカが、クラスター内の 998 個のディスクすべてに分散されます。この設計では、データが失われる確率は C(999,3)/C(999,3)=1 となり、これは必ず存在することを意味します。

これら 2 つの極端な例から、データ損失の確率はデータの断片化の程度と密接に関係していることがわかります。以降の読み取りを容易にするために、レプリカセットという新しい概念を導入します。

コピーセット: データのすべてのコピーが含まれるデバイスの組み合わせ。たとえば、データがディスク 1、2、3 に書き込まれる場合、{1,2,3} はレプリケーション グループになります。

9 個のディスクのクラスターでは、レプリカセットの組み合わせの最小数は 3 で、レプリカセット = {1,2,3}、{4,5,6}、{7,8,9} です。つまり、データを書き込むために選択できるのは、レプリケーション グループの 1 つだけです。データ損失は、{1,2,3}、{4,5,6}、または {7,8,9} が同時に失敗した場合にのみ発生します。つまり、レプリカの最小数は N/R です。

システム内のレプリカの最大数は C(N,R) です。ここで、R はレプリカの数、N はディスクの数です。レプリカデータを書き込むためにノードが完全にランダムに選択されると、システム内のレプリカの数は最大値 C(N,R) に達します。つまり、任意の R ディスクを選択すると、これらの R ディスク上に一部のデータのコピーが 3 つ存在することになります。

N 個のディスクと R 個のレプリカを持つストレージ システムでは、レプリカの数は S、N/R < S < C(N, R) です。

ディスク障害とストレージシステムの信頼性の推定

1. ディスク障害とポアソン分布

関連する確率を正式に推定する前に、基本的な確率分布であるポアソン分布について学ぶ必要があります。ポアソン分布は主に、バス停で待っている乗客の数が特定の値である確率や、病院で 1 時間以内に N 人の新生児が生まれる確率など、システム内で発生するランダム イベントの確率を表します。

上記はポアソン分布の式です。このうち、P は確率、N は特定の関数関係、t は時間、n は量、λ はイベントの頻度を表します。

たとえば、1 年以内に 1,000 台のディスクのうち 10 台が故障する確率は P (N(365) = 10) です [注: t の平均単位は日数です]。 λ は、1 日以内の 1000 台のディスクのうち故障したディスクの数です。 Google の統計によると、年間の故障率は 8% なので、λ = 1000*8%/365 となります。

上記は、N 台のディスクが損傷する確率の単なる統計分析です。では、この式を使用して、分散システムにおけるデータの信頼性のおおよその値 (つまり、データ損失の確率) をどのように計算できるでしょうか?

2. 分散ストレージシステムにおける損失率の推定

2.1 T時間以内の故障率

分散ストレージ システムの年間故障率を推定する方法としては、まず、T が 1 年のときにシステムがデータでいっぱいになり、不良ディスクが処理されないという状況を想定します。この場合、データの年間故障率を計算します。

ここでまずいくつかの値を定義します

N: ディスクの数

T: 統計時間

K: 不良ディスクの数

S: システム内のレプリカセットの数(レプリケーショングループの数)

R: バックアップの数

T(1年)以内にデータが失われる確率を計算するにはどうすればよいでしょうか?確率統計の観点からは、T(1年)以内にデータ損失が発生する可能性のあるすべての事象を考慮することです。 N 個の冗長ディスク R を備えたシステムでは、T 時間内にデータ損失イベントが発生する可能性があります。つまり、不良ディスクの数が R 以上、つまり R、R+1、R+2、... N (つまり、すべてのイベントが区間 K∈[R,N] 内) になります。これらのランダムなイベントが発生した場合、どのような状況でデータ損失が発生しますか?はい、*** レプリケーション グループの場合はその通りです。

K 個の障害が発生した場合 (K 個のディスクがランダムに選択される)、*** レプリケーション グループの確率は次のとおりです。

p = X/C(N,K) ここで、XはK個のディスクをランダムに選択するプロセスにおけるレプリケーショングループの組み合わせの数です。

システム内の K ディスクの損傷によってデータが失われる確率は次のようになります。

Pa(T,K) = p * P(N(T)=K)

***時間 T 内にシステムでデータ損失が発生する確率は、データ損失を引き起こす可能性のあるすべてのイベントの確率の合計です。

Pb(T) = ΣPa(T,K) ; K∈[R,N]

2.2 分散システムの年間故障率の測定

上記では、1 年間にハードウェア障害が発生した場合でも、復旧対策が講じられないことを前提としています。次に、t に 1 を代入すると、このシステム状態における年間故障率を計算できます。ただし、大規模なストレージ システムでは、データが失われたときに回復プログラムが開始されることがよくあります。回復が完了すると、理論的には初期状態からのランダムなイベントになります。この要素を追加すると、信頼性の計算はより複雑になります。

理論的には、大規模ストレージ システムにおけるディスク障害と回復は、極めて複雑な連続イベントです。ここでは、統計計算のために、この確率モデルを異なる単位時間 T 内の離散イベントに簡略化します。 2 つの T 間の連続イベントの確率が極めて小さく、不良ディスクのほとんどが T 時間内に回復できる限り、次回の T は新しい状態から開始され、この推定によっておおよその正確さが保証されます。 T の単位は時間として定義されているため、1 年は 365*24/T の期間に分割できます。システムの年間故障率は、ユニット T の全期間で故障が発生しない確率を 100% から引いた値として理解できます。

つまり、システム全体でデータが失われる確率は、Pc = 1 - (1-Pb(T))*(36524/T) となります。

<<:  クラウド コンピューティングはなぜ企業の間でこれほど普及したのでしょうか?

>>:  UCloud CEO の Ji Xinhua 氏が「トップ 10 の革新的な経済人」賞を受賞

推薦する

SEO担当者がビジネスウェブサイトを運営する際に考慮すべき2つの問題

時代の進歩に伴い、SEOを重視する中小企業が増えているため、現在国内の人材需要は依然として非常に大き...

Haodafuウェブサイトの成功要因の簡単な分析

医療ウェブサイトに関して言えば、この業界でウェブサイトを作るのは簡単ではないと誰もが言うでしょう。百...

クラウドネイティブアプリケーションをマスターするには、これらの10のポイントをマスターしてください

[[436589]]簡単に言えば、クラウド ネイティブとは、クラウドで生まれ、クラウドで実行されるす...

Baidu の最適化: ブラックリンクの後、偽装フレンドリーリンクが人気に

Baidu の最適化に注目しているウェブマスターは、Baidu が最近、ブラックリンクやリンク取引を...

ウェブサイトの外部リンク構築に関する考察

Baiduのアルゴリズムが継続的に最適化されるにつれて、過去2年間に流行した疑似オリジナルツールは徐...

最大vps-128MメモリKVM年間支払額12米ドル/ロサンゼルス/nlayer

MaximumVPS では、Duel L5420、16GB RAM、4 台の 1TB WD RE ド...

ハイブリッドマルチクラウド管理プラットフォームの3つの主要な適用シナリオ

「クラウドへの移行」は多くの企業にとってホットな話題となっています。テクノロジーの発展と企業の運用デ...

#本当に良いもの# テンセントクラウド: (クラウドサーバー) たったの99元/年、香港\北京\上海\南京\成都\広州\深センなどのコンピュータールーム

テンセントクラウドは、国内のクラウドサーバー業界で「良心的なクラウド」という評判を博しており、毎月固...

中国のエッジクラウド市場規模は2022年後半も成長を続け、前年比50%を超える見込み

最近、International Data Corporation(IDC)が発表した最新の「中国エ...

seoer どうして「フー」と呼ばれるのですか

SEO 担当者として、あなたの苗字は Fu ですか? 多くの SEO 担当者は、自分の苗字は Fu ...

プレーンテキストリンクをキーワードランキングに役立てる方法

ご存知のとおり、外部リンクはクリックに応じて 2 つのタイプに分けられます。1 つはクリック可能で、...

「コンテナ技術」についての興味深い講演。彼女がその素晴らしい話をあなたに話すように頼んできました!

簡単に大きな行動に出てしまう可能性のある彼女を前に、私は表面上は彼女を喜ばせようとしながらも、心の中...

#サイバーマンデー# VULTR - 20 ドル無料、サイバーマンデー、24 時間限定、Alipay で支払い

クラウドホスティングの有名ブランドであるVULTRは、世界中に15のデータセンターを持っています。そ...