2023 年に可観測性はどのような新しいトレンドをもたらすでしょうか?

2023 年に可観測性はどのような新しいトレンドをもたらすでしょうか?

可観測性は新しい用語ではありませんが、近年のクラウドネイティブ技術の発展により、効率性と可用性の向上がもたらされる一方で、複雑さも増大しています。可観測性は、この複雑さを軽減する唯一の手段となり、これまでにないレベルの重要性が高まっています。

ガートナーは、応用可観測性を「2023 年のトップ 10 戦略的テクノロジー トレンド」の 1 つに挙げており、2026 年までに可観測性を正常に実装した組織の 70% が意思決定の遅延を削減し、対象となるビジネスまたは IT プロセスが競争上の優位性を確立できるようになると指摘しています。

では、クラウドネイティブ時代の可観測性における新たな課題とトレンドは何でしょうか?

1. クラウドネイティブは観測性の変化をもたらす

可観測性とは、システム メトリック、トレース、ログ、その他のデータを分析して完全な観測モデルを構築し、障害診断、根本原因分析、迅速な回復を実現することを指します。

この点に関して、Google は非常にシンプルな声明を出しています。それは、可観測性の核となる価値である迅速なトラブルシューティングです。

近年、可観測性はインターネット上でちょっとした有名人になっていますが、これは従来の監視の進化形でもあります。

従来の監視は、システムの外部からシステムの動作状態を観察する、運用と保守の観点から行われています。アプリケーション規模は一般的に小さく、サービス間の相互依存関係はありません。しきい値を通じて単一ホストのログとパフォーマンス指標を監視することが主な目的です。

クラウドネイティブ技術の発展により、コンテナやマイクロサービスベースのアプリケーションの規模が大きくなり、サービス間の依存関係がメッシュ構造をとるようになりました。複雑なクラウド環境と分散システムの複雑さとダイナミクスにより、障害の境界設定とコール トレースが非常に不明確になります。

たとえば、コンテナ化されたアプリケーションの多くは、すぐに使用でき、すぐにリリースできるという利点がありますが、大量のネットワーク トラフィックをキャプチャすることはできません。

この場合、従来の方法でネットワーク トラフィック パケットのキャプチャと分析を実行することは実際には非常に困難であり、クラウド環境における「ブラック ボックス」ネットワーク トラフィック監視の欠点が徐々に明らかになってきました。

これまでのログとパフォーマンス指標の監視機能は、クラウド ネットワークのトラフィック ログとパフォーマンス指標で補完する必要があり、同時に動的なフルリンク追跡機能と組み合わせて、多次元データの相関分析を実現し、アプリケーション全体の信頼性を保証する必要があります。

そこで、システム内部からスタートし、「ホワイトボックス」アプローチでシステムの動作を監視し、問題を発見するだけでなく、問題現象の背後にある本質を明確に説明することを求めるクラウドネイティブオブザーバビリティが提案されました。

可観測性の背後にあるインジケーター、ログ、イベント、リンク データ、診断ツールを組み合わせて使用​​することで、予防的予防、プロセス内処理、イベント後のレビューのための重要な意思決定の基盤が提供されます。

可観測性はインフラ自動化の要であり、優れた可観測性はクラウドネイティブの配当を効率的に放出するための前提条件であると言えます。

2. 観測可能性の3つの側面

Cloud Native Computing Foundation (CNCF) は、可観測性を、イベント ログ、リンク トレーシング、集計メトリックという 3 つのより具体的な研究方向に分類しています。

  • ログ記録

ログの役割は個別のイベントを記録することであり、これらの記録を通じて、どのメソッドが呼び出されたか、どのデータが操作されたかなど、プログラムの動作を後で分析できます。

ログを出力するのは確かに簡単ですが、ログを収集して分析するのは複雑になる可能性があります。数万のクラスター ノード、急速に変化するイベント情報、テラバイト単位のテキストを前にすると、送信と収集は簡単ではありません。

現在、イベント ログの観測可能性製品はすでにレッド オーシャンになっています。

ほとんどのログ管理ソリューションには、ログ収集、ログ集約、ログ保存、分析などの複数のモジュールが含まれています。具体的なプロセスとしては、ログ収集ツールがアプリケーション コンテナーで実行され、アプリケーションから直接メッセージを収集し、集約および分析のためにメッセージを中央ログ ストレージに転送します。

一般的なログ管理ツールには、ELK Stack、Fluentd、Loki などがあります。その中でも、Elastic Stack ログ ソリューションは、ログ管理のほぼすべてのプロセスをカバーします。

  • メトリクス

メトリックとは、システム内の特定の種類の情報の統計的集計を指します。主な目的は監視と早期警告です。たとえば、特定のメトリックがリスクしきい値に達すると、自動処理または管理者に介入を警告するイベントがトリガーされます。

一般的に使用される測定ツールには、Zabbix、Nagios、Prometheus、および Prometheus-operator や Thanos などの関連する高可用性展開ソリューションが含まれます。

  • トレース

トレースの主な目的は、呼び出しチェーンのどの部分でエラーが発生しているか、どのメソッドにブロックされているか、入力と出力が期待どおりかどうかなどを分析するなど、トラブルシューティングを行うことです。

クラウドネイティブ時代では、トレースはコールスタックに限定されません。外部からのリクエストには、複数の内部サービスからの調整された応答が必要です。この時点で、完全な呼び出しトレースは複数のサービスにまたがり、サービス間のネットワーク転送情報と各サービス内の呼び出しスタック情報が含まれます。したがって、分散システムでのトレースは、「フルリンク トレース」と呼ばれることがよくあります。

また、トレースにおける事柄は、ログ記録やメトリックとは異なります。

トレースは、特定のネットワーク プロトコルおよびプログラミング言語と密接に関連しています。サービス間の通信に HTTP または gRPC のどちらを使用するかは、トレースの実装に直接影響します。サービスが Java、Golang、Node.js のいずれで記述されているかによって、プロセス内のコールスタックの追跡方法も直接影響を受けます。

これにより、追跡ツール自体が非常に侵入的であり、通常はプラグイン プローブとして実装されることがわかります。また、追跡分野を単一の企業が独占することは困難であると判断しています。通常、異なる言語やネットワークを対象とする複数の製品が存在します。

近年、さまざまなリンクトレーシング製品が次々と登場しています。市場の主流ツールには、Datadog などのパッケージ化された商用ソリューション、AWS X-Ray や Google Stackdriver Trace などのクラウド コンピューティング ベンダー製品、SkyWalking、Zipkin、Jaeger などのオープン ソース コミュニティの優れた製品が含まれます。

一般的に、ログ、メトリック、トレースを接続することの最大の価値は、リクエスト メトリックの異常の検出、メトリックの相関関係の分析、レイヤーごとに詳細なトレースと特定のエラー ログまでドリルダウンするなど、プロセス全体を通じてエラーの根本原因を見つけるのに役立つことです。これにより、マクロから詳細なエラーの検出と根本原因の特定までのプロセス全体が自動化されます。

3. 可観測性はどこに向かうのか?

可観測性の問題は比較的複雑であり、すぐに使える最適な解決策が存在しないことは容易にわかります。

クラウドネイティブ シナリオにおける複雑な可観測性の問題に対処するために、主要ベンダーはさまざまな戦略を採用しています。

複数の製品を組み合わせて、さまざまなシナリオに合わせてさまざまなソリューションを顧客に提供する企業もあります。例えば、AWS には CloudWatch、AMP、AMG などの組み合わせがあり、Alibaba Cloud には ARMS、Link Tracking、Log Service SLS などがあります。

一部のメーカーは、Azure モニター、Vmware Tanzu Wavefront、Huawei Cloud CIE などの統合ソリューションを提供しています。

大手メーカーやオープンソース プロジェクトの発展と進歩により、近い将来、可観測性分野に新たなトレンドが生まれます。

  • トレンド1: 可観測性の業界標準の形成

まず、Prometheus はクラウドネイティブ時代のコンセンサス指標データ標準となっています。

OpenTracing と OpenTelemetry の推進により、リンク標準は徐々に主流になってきました。

OpenTelemetryは、CNCFが主導するクラウドネイティブ可観測性の標準プロトコルセットとして、この分野の海外企業の実践標準となっています。

一方、中国では同様の標準は形成されていないものの、CATやSkyWalkingなど国産オープンソースAPMシステムが相次いで登場している。 SkyWalking は、ビジネス コードへの非侵入、優れたパフォーマンス、活発なコミュニティ、完全な中国語ドキュメントなど、多くの優れた機能を備えているため、中国で非常に人気があります。

ログ分野では、データの構造化が進んでおらず、データ標準を形成するのが難しいものの、収集、保存、分析の面で Fluentd や Loki などの新しいオープンソース プラットフォームが登場しています。一方、Grafana は観測可能なデータを表示するための標準としてますます明確になりつつあります。

  • トレンド2: アプリケーション中心の観察視点の構築

より優れた観測可能性を備えた観測の観点は、アプリケーションの観点です。アプリケーションに基づいてインジケーター、リンク、ログを関連付け、徐々に成熟する eBPF プローブ テクノロジを使用して、グローバルなアプリケーション可観測性を迅速に実現します。主に非侵襲的なアプリケーション プローブを使用し、OpenTelemetry を補完してコード レベルの可観測性を実現します。

  • トレンド3: ビジネスの成功または失敗に焦点を当てる

「ビジネスファースト」の時代において、技術エンジニアが担保する核となるのは、ITシステムやソフトウェアではなく、ビジネスです。

ビジネスには複数のマイクロサービス システムが関係する場合があり、API 全体に関連する注文、ユーザー、さらには特定のトランザクションを追跡する必要があります。これは、可観測性とビジネスの組み合わせの重要な開発トレンドでもあります。

  • トレンド4: IT投資の増加

「可観測性」はコストを削減し、効率を高めるための優れたツールとして定義されており、多くの開発者は、可観測性プラットフォームをインストールすることでコストを削減し、ビジネスに価値を生み出すことができると考えています。

実際、観測可能性ツールは決して「安価」ではありません。基本的なツールへの投資に加えて、可観測性プラットフォームには完全なデータ ストレージ ソリューションも必要です。企業が優れた可観測性ソリューションを開発するための投資コストは低くありません。

米国企業の可観測性関連の投資を例にとると、企業全体のIT支出の5%~10%を占めています。

そのため、オブザーバビリティ製品の「コスト削減と効率化」は短期間で明らかになるものではなく、長期的な適用を通じて価値を生み出すものとなります。企業は投資を増やす準備を整えるだろう。

  • トレンド5: 可観測性とセキュリティの融合

セキュリティと可観測性の融合は世界中でトレンドになっています。

モルガン・スタンレーの「セキュリティ分析と観測可能性」という記事では、海外では上場後にDataDogに代表される企業がリリースした新機能の70%がセキュリティ関連であると言及されている。

その理由は非常に単純です。可観測性とは、システムの出力をチェックすることでシステムの内部状態を測定する能力です。システムのあらゆる側面を収集します。これらのデータを通じて、システム障害を分析することができ、当然ながらシステムが侵入されたかどうかも分析できます。

たとえば、DataDog は、現在のアクセス要求を分析して、どのインターフェースがハッカーによって盗聴される可能性があるか、または将来の DDoS 攻撃に備えられているかを区別する機能を提供します。

つまり、セキュリティ シナリオのために再度データ収集を必要とする従来のセキュリティ ツールとは異なり、収集されたデータはセキュリティにおいても役割を果たすことができます。

そのため、セキュリティと可観測性の融合は世界的なトレンドとなっています。

攻撃現場を追跡するために、状況認識や SIEM などの国内セキュリティ製品は、観測可能性と統合することを選択しました。

4. 結論

一般的に、真の可観測性プラットフォームとは、システムの形態やリアルタイムの状態に関するさまざまな情報を構造化された方法で収集し、一連の観察および測定方法を提供できるプラットフォームです。

センサーと同様に、開発者にとっては開発、テスト、運用・保守のプロセスが容易になり、単なる「監視」ではなく、システムの稼働状況をリアルタイムに把握できるようになります。

<<:  CloudOps 戦略に不可欠な 5 つのツール

>>:  中国と米国のクラウド大手間の利益格差は拡大している。中国のクラウドコンピューティングはなぜ利益が出ないのか?

推薦する

MongoDB Atlas がマルチクラウド データベース クラスターをサポートするようになりました

新しい MongoDB Atlas マルチクラウド クラスター機能は火曜日に一般提供が開始され、同社...

より良く、より安く:価値を犠牲にせずにクラウドコストを削減する 5 つの方法

企業は、どこから始めればよいかを知っていれば、クラウド プロジェクトで大幅なコスト削減を実現できる場...

Zookeeper テクノロジー: 分散アーキテクチャの詳細な説明、分散テクノロジーの詳細な説明、分散トランザクション

[[278655]] 1. 分散アーキテクチャの詳細説明1. 分散開発の歴史1.1 単一ポイント集中...

安全で信頼性の高いSAASサービスを構築するための3つの重要なポイント

SAAS サービスに関しては、誰もがよく知っています。近年、SAAS サービスはさまざまな業界に広が...

ウェブサイトの最適化を成功させるための良い習慣

良い習慣があれば、何をするにしてもスムーズに完了できるようになります。昔から、「良い習慣があなたの人...

分散型コンセンサスアルゴリズム: 想像以上に複雑

1. 分散システムの難しさ張大鵬は難しい問題に遭遇した。彼らの会社には貴重なデータを保存するサーバー...

推奨: Velocihost-6.5$/KVM/512m メモリ/10g SSD/1T トラフィック/G ポート

Velocihost の新年割引第 1 弾、純粋な SSD ハードディスク、KVM ベースの VPS...

4月の海外ドメインホスティング会社トップ10:HostGatorが第4位、Yahooが第7位

IDC Review Network (idcps.com) は 5 月 4 日に次のように報告しま...

ultravps-20% オフ/4 コンピュータ ルーム/KVM/2.8 ユーロ/1g メモリ/30g ハード ディスク/1T トラフィック

ベテラン ホスティング プロバイダー ultravps.eu は、psychz.net でホストされ...

dedipath: 月額 699 ドル、10Gbps 帯域幅 + 無制限トラフィック、専用サーバー、ニューヨーク + ロサンゼルス

dedipathは、10Gbpsの帯域幅、無制限のトラフィック、IPMI、組み込みの中国語Windo...

ユーザーの視点でSEOを行ってください。ユーザーが良いと言ってくれると本当に良いです

インターネットでは、誰もがよく知っている言葉があります。それは「ユーザー エクスペリエンス」です。百...

ベンチャーキャピタルはかわいいペット経済に関与している:コミュニティ+電子商取引モデルが最も人気がある

少し前、投資界の人物が、総合垂直ペットウェブサイトBoqi.comがゴールドマン・サックス(159....

北京市民は「北京政府サービス」アプレットを使用して1,000以上のサービスを処理できます。

現在までに、「北京政府サービス」ミニプログラム(「北京通」ミニプログラム)のサービス項目数は1,00...

20社以上のインターネット企業が共同でオンライン詐欺対策に取り組む

6月25日午前、アリババグループ、テンセント、百度、新浪、シャンダ、網易、アマゾン中国など21のイン...

SEO 担当者は、ランキングに関する誤解を解消し、大量のトラフィックを修正するにはどうすればよいでしょうか?

今日は、SEO を行っている友人たちがランキングの誤解を解き、ランキングではなくトラフィックの観点か...