Kafka を使い始める

著者: ninetyhe、Tencent CDG バックエンド開発エンジニア

古いものを見直して新しいものを学び、優れたフレームワークを繰り返し学習すれば、必ず何かが得られます。仕事上の理由により、特別なシナリオで Kafka を使用する必要があります。週末にカフカ情報を再度読み、多くのことを学びました。

アプリケーションシナリオ

非同期分解: 上流と下流の間に強い依存関係がないビジネス関係、または単一の要求に対してすぐに処理する必要のないビジネス。
システムバッファリング: 特に処理速度が遅いサービスの場合、サービスシステムのスループットの一貫性の問題を解決するのに役立ちます。
ピーク除去: 短期間で時折発生する極端なトラフィックに対して、バックエンドサービスを保護できます。
データストリーム処理: Spark を統合して実際のデータストリーム処理を実行します。

Kafka トポロジー図 (マルチコピーメカニズム)

上の図から、Kafka は分散されており、パーティションごとに複数のコピーがあることがわかります。同時に、クラスター全体の管理は Zookeeper によって管理されます。

Kafka コアコンポーネント

ブローカ

Kafka サーバーはメッセージの保存と転送を担当します。ブローカーは Kafka ノードを表します。ブローカーには複数のトピックを含めることができます

トピック

メッセージカテゴリ、Kafka はトピックに応じてメッセージを分類します

パーティション

トピックのパーティション。トピックには複数のパーティションを含めることができ、トピックメッセージは各パーティションに保存されます。トピックは複数のパーティションに分割できるため、Kafka には並列処理機能が提供されており、これが Kafka の高スループットの理由の 1 つです。
パーティションは物理的に複数のセグメントファイルで構成され、各セグメントは同じサイズで、順番に読み書きされます (ランダム書き込みが不要なため、Kafka が比較的高速である理由の 1 つでもあります)。各セグメントデータファイルは、セグメント内の最小オフセットを使用し、ファイル拡張子は .log になります。オフセット付きのメッセージを検索する場合は、バイナリ検索を使用して、メッセージが配置されているセグメントをすばやく見つけます。

オフセット

ログ内のメッセージの位置は、パーティション上のメッセージのオフセットとして理解でき、これはメッセージを表す一意のシーケンス番号でもあります。
また、マスターとスレーブ間で同期する必要がある情報でもあります。

プロデューサー

プロデューサー、Kafkaブローカーにメッセージを送信するクライアント

消費者

メッセージコンシューマー。Kafka ブローカーでメッセージを消費する役割を担います。

消費者団体

消費者グループ。各消費者はグループに属している必要があります。 (パーティションはグループ内の 1 つのコンシューマーのみが使用でき、コンシューマーグループは相互に影響を与えないことに注意してください。)

動物園の飼育員

Kafka クラスターを管理し、クラスターブローカー、トピック、パーティションなどのメタデータの保存を担当します。また、ブローカーの障害検出、パーティションリーダーの選出、負荷分散などの機能も担当します。

サービスガバナンス Kafka は分散パブリッシュ/サブスクライブシステムなので、クラスター間のデータ同期と一貫性が実現されれば、Kafka はメッセージを失わないのでしょうか?そして、クラッシュしたときにリーダーを選出するにはどうすればいいのでしょうか?

データ同期

Kafka では、パーティションにはリーダーと複数のフォロワーが存在します。プロデューサーがパーティションにデータを書き込む場合、データはリーダーにのみ書き込まれ、その後、データは他のレプリカに複製されます。各フォロワーは、定期的にリーダーにメッセージを受け取る消費者として理解できます。データが同期された後にのみ、Kafka はプロデューサーに ACK を返し、メッセージが保存されたことを通知します。

情報サービス

Kafka では、パフォーマンスを確保するために、マスターとスレーブのデータを同期するために強力な一貫性方式を使用しません。代わりに、同期レプリカのリストが維持されます。リーダーは、すべてのフォロワーが同期を完了するまで待つ必要はありません。 ISR 内のフォロワーがデータ同期を完了すると、プロデューサーに ack を送信し、メッセージの同期が完了したと見なすことができます。同時に、ISR 内のフォロワーがあまりにも遅れていることが判明した場合は、そのフォロワーは削除されます。

具体的なプロセスは以下のとおりです。

上記のアプローチでは、Kafka がメッセージを失わないことを保証することはできません。 Kafka は、メッセージが最大限失われないようにマルチコピーメカニズムを使用しますが、データがシステムページキャッシュに書き込まれているがまだディスクにフラッシュされていない場合、マシンが突然クラッシュしたり電源が失われたりすると、当然メッセージは失われます。

Kafka 障害回復

Kafka は Zookeeper によって管理されるため、ここでの選択メカニズムでは Zab (Zookeeper によって使用される) が使用されます。

プロデューサーはリーダーにメッセージを送ります。このとき、リーダーはデータの保存を完了して突然失敗し、プロデューサーに ack を返しません。
ZK 選挙を通じて、フォロワーの 1 人がリーダーになります。このとき、プロデューサーは新しいリーダーに再度要求し、データを保存します。

Kafka はなぜこんなに速いのでしょうか?

ディスクへの順次書き込み

Kafka はシーケンシャルディスク書き込みを使用するため、ランダム書き込みに比べてアドレスの検索にかかる時間が短縮されます。 (Kafka の各パーティションでは、メッセージが順序付けられます。

ページキャッシュ

Kafka は、通常使用するバッファの代わりに、OS システム内のページキャッシュを使用します。ページキャッシュは、実際には馴染みのないものではなく、新しいものでもありません。

Linux でメモリをチェックすると、バッファ/キャッシュが表示されることがよくあります。どちらも IO の読み取りと書き込みを高速化するために使用されます。キャッシュは読み取りに使用されます。つまり、ディスクの内容をキャッシュに読み込むことができるため、アプリケーションはディスクを非常に高速に読み取ることができます。バフは書き込みに使用されます。ディスクを開発して書き込む場合、通常はバッファに書き込んでからフラッシュすると非常に高速になります。 Kafka は両方の利点を活用します。Kafka は Scala で記述されていますが、Java 仮想マシン上で実行されます。それにもかかわらず、Kafka は JVM の制限を回避しようとします。ストレージにページキャッシュを使用するため、GC による JVM 内のデータの STW を回避できます。一方、ページキャッシュを使用すると、ゼロコピーも実現できます。これについては、後ほど詳しく説明します。

ゼロコピー

優れた Netty であれ、他の優れた Java フレームワークであれ、基本的にはゼロコピーによって CPU コンテキストの切り替えとディスク IO を削減します。もちろんカフカも例外ではありません。ゼロコピーの概念についてはここでは詳しくは繰り返しませんが、この概念について簡単に紹介したいと思います。

アプリケーションがデータを要求する従来のプロセス

ここで、従来の方法では、4 つのコピー、2 つの DMA、2 つの CPU が使用され、CPU が 4 回切り替わることが大まかにわかります。 _(DMA は、簡単に言えば、I/O デバイスとメモリ間でデータが転送されるときに、すべてのデータ転送作業が DMA コントローラに引き渡され、CPU はデータ転送に関連する作業には一切関与しなくなります)。

ゼロコピー方式

最適化により、CPU には 2 つのコンテキストスイッチと 3 つのデータコピーしかないことがわかります。 (Linux システムでは、システムコール関数「sendfile()」が提供されているため、システムコールは、カーネルバッファー内のデータをユーザー状態にコピーするのではなく、ソケットバッファーに直接コピーできます)。

パーティション分割

上で述べたように、Kafka はパーティショニングモードを採用しており、各パーティションは物理セグメントに対応しており、検索時にはバイナリ検索に基づいて素早く見つけることができます。これにより、データ読み取りクエリの効率が向上するだけでなく、並列操作を行う手段も提供されます。

データ圧縮

Kafka は、データに対して Gzip や Snappy などの圧縮プロトコルを提供します。これにより、メッセージ構造が圧縮され、帯域幅とデータ転送の消費が削減されます。

Kafka のインストール

JDKをインストールする

圧縮パッケージを使用する場合は環境変数を自分で設定する必要があるため、yum を使用して直接インストールすることをお勧めします。現在の Java バージョンを確認する方法を理解しておいてください。

 yum -y リスト Java*

必要なバージョンをインストールしてください。ここでは1.8です

yum インストール java-1.8.0-openjdk-devel.x86_64

インストールが成功したか確認する

Java バージョン

Zookeeperをインストールする

まず、公式サイトにアクセスしてインストールパッケージをダウンロードし、解凍する必要があります。

 tar -zxvf zookeeper-3.4.9.tar.gz

このファイルをコピーしてzoo.cfgという名前を付け、zoo.cfgで独自の設定を変更するだけです。

 cp zoo_sample.cfg zoo.cfg
 vim zoo.cfg

主な構成は次のように説明される。

 # Zookeeper の基本単位はミリ秒です。つまり、tickTime は 2000 ミリ秒です。他の Zookeeper 構成では、変換は tickTime に基づいて行われます。
ティックタイム=2000
 # クラスター内のフォロワー サーバー (F) とリーダー サーバー (L) 間の初期接続中に許容できるハートビートの最大数 (ティックタイムの数)。
初期制限=10
 #syncLimit: クラスター内のフォロワーサーバー (F) とリーダーサーバー (L) 間のリクエストとレスポンスの間で許容できるハートビートの最大数 (ティックタイムの数)
同期制限=5
 #データ保存フォルダ。 Zookeeperの動作中に保存する必要があるデータは2つあります。1つはスナップショットデータ（永続データ）で、もう1つはトランザクションログです。
データディレクトリ=/tmp/zookeeper
 ## クライアントアクセスポート
クライアントポート=2181

環境変数の設定

vim ~/.bash_profile
エクスポート ZK=/usr/ローカル/src/apache-zookeeper-3.7.0-bin
エクスポート PATH=$PATH:$ZK/bin
エクスポートPATH
 // 起動する
zkServer.sh 開始

以下は起動が成功した例です

Kafkaをインストールする

Kafkaをダウンロード

https://www.apache.org/dyn/closer.cgi?path=/kafka/2.8.0/kafka-2.8.0-src.tgz

Kafkaをインストールする

tar -xzvf kafka_2.12-2.0.0.tgz

環境変数の設定

エクスポート ZK=/usr/ローカル/src/apache-zookeeper-3.7.0-bin
エクスポート PATH=$PATH:$ZK/bin
エクスポート KAFKA=/usr/ローカル/src/kafka
 PATH=$PATH:$KAFKA/bin をエクスポートします

Kafkaを起動する

nohup kafka-server-start.sh 独自の設定ファイルパス/server.properties &

完了です！

<<: クラウドコンピューティング業界のアップグレードを支援するH3Cがクラウドネイティブ変革に関する洞察を共有

>>: レポート: サーバーレスは多くのソフトウェアスタックの重要な部分となっている

Taobao、JD.com、Amazon など、大企業がこのトリックを使用して Web サイトのコンバージョン率を高めています。

アプリケーションシナリオ

Kafka トポロジー図 (マルチコピー メカニズム)

Kafka コアコンポーネント

ブローカ

トピック

パーティション

オフセット

プロデューサー

消費者

消費者団体

動物園の飼育員

データ同期

情報サービス

Kafka 障害回復

Kafka はなぜこんなに速いのでしょうか?

ディスクへの順次書き込み

ページキャッシュ

ゼロコピー

アプリケーションがデータを要求する従来のプロセス

ゼロコピー方式

パーティション分割

データ圧縮

Kafka のインストール

JDKをインストールする

Zookeeperをインストールする

Kafkaをインストールする

推薦する

Kafka トポロジー図 (マルチコピーメカニズム)