3分でKafkaを完全に理解する

[[406253]]

1. Kafkaを理解する

Kafka とは何でしょうか?それは何に使われますか?

公式の定義は次のとおりです。

Kafka は、リアルタイムデータパイプラインとストリーミングアプリの構築に使用されます。水平方向にスケーラブルで、フォールトトレラント、非常に高速であり、何千もの企業で実稼働されています。

直訳すると、水平展開可能で信頼性の高いリアルタイムデータ処理システムということです！

リアルタイムデータ処理は名前から簡単に理解できます。データをリアルタイムで処理することを意味します。現在普及しているマイクロサービス開発において、最も一般的に使用されているリアルタイムデータ処理プラットフォームは、RabbitMQ や RocketMQ などのメッセージミドルウェアです。

これらのミドルウェアには主に 2 つの機能があります。

サービスの分離
交通ピークカット

Web アプリケーション開発の初期には、リクエスト数が急増したときに、処理するデータをキューチャネルにプッシュし、別のスレッドを開始してキュー内のデータを継続的にローテーションおよびプルすることで、プログラムの実行効率を高めていました。

ただし、リクエストの数が増加し続け、キューチャネル内のデータが常に高負荷状態になると、アプリケーションのメモリ使用量が非常に高くなります。注意しないと、メモリが不足し、プログラムメモリのオーバーフローが発生し、サービスが利用できなくなります。

ビジネス量が拡大し続けると、このモデルではアプリケーション内のニーズを満たすことができなくなります。そのため、ActiveMQ、RabbitMQ、RocketMQなどのさまざまなメッセージミドルウェアが誕生しました。

このモデルの本質は、プッシュされるデータが現在のアプリケーションのメモリに保存されるのではなく、データ処理を専門に担当する別のアプリケーションに保存され、それによってサービス分離が実現されることです。

メッセージミドルウェア: 主な役割は、メッセージを受信してディスクに保存できるようにすることです。他のサービスに障害が発生しても、データは失われません。データ消費量を監視することもできます。

アプリケーション: メッセージをメッセージミドルウェアにプッシュし、スレッドがメッセージミドルウェアから継続的にデータをプルして消費を確認できるようにします。

メッセージミドルウェアの導入後は、サービス開発全体が簡素化され、全員が自分のタスクに責任を持つようになります。

Kafka は本質的にはメッセージミドルウェアの一種です。 Kafka は LinkedIn から生まれ、2010 年に GitHub にオープンソース化されました。

データパイプラインの問題を解決するために、LinkedIn の開発チームは 2010 年頃にデータ交換に ActiveMQ を最初に採用しました。当時、ActiveMQ は LinkedIn のデータ転送システムの要件を満たすにはほど遠いものでした。さまざまな欠陥により、メッセージがブロックされたり、サービスが利用できなくなったりすることがよくありました。この問題を解決するために、LinkedIn は独自のメッセージングシステムを開発することを決定し、Kafka が誕生しました。

LinkedIn では、Kafka は 1 日あたり数十億件のメッセージのメトリックとユーザーアクティビティの追跡を効果的に処理できます。その強力な処理能力は業界で認められ、ビッグデータパイプラインの推奨テクノロジーとなっています。

2. アーキテクチャの紹介

まずは写真を見てみましょう。下の図は、Kafka の生成と消費のコアアーキテクチャモデルです。

これらの概念を理解していなくても問題ありません。一緒に説明します。

プロデューサー: プロデューサーはプロデューサーであり、メッセージのプロデューサーであり、メッセージのエントリポイントです。
ブローカー: ブローカーは Kafka インスタンスです。各サーバーには 1 つ以上の Kafka インスタンスがあります。簡単に言えば、Kafka サーバーです。 Kafka クラスターはクラスターを意味します。
トピック: メッセージの件名。メッセージキューとして理解できます。 Kafka データはトピックに保存されます。各ブローカーで複数のトピックを作成できます。
パーティション: トピックパーティション。各トピックには複数のパーティションを含めることができます。パーティションの役割は、ロードを実行し、Kafka のスループットを向上させることです。異なるパーティション内の同じトピックのデータは重複せず、パーティションは 1 つずつフォルダーで表されます。
レプリケーション: 各パーティションには複数のレプリカがあります。レプリカの役割はバックアップとして機能することです。プライマリパーティション (リーダー) は、スレーブパーティション (フォロワー) にデータを同期します。プライマリパーティション (リーダー) に障害が発生すると、バックアップパーティション (フォロワー) が選択され、引き継いでリーダーになります。 Kafka のレプリカのデフォルトの最大数は 10 であり、レプリカの数はブローカーの数より大きくすることはできません。フォロワーとリーダーは必ず異なるマシン上に存在し、同じマシンには同じパーティションのレプリカを 1 つだけ保存できます。
メッセージ: 送信された各メッセージの本文。
コンシューマー: コンシューマーはメッセージの消費者であり、メッセージの出口です。
コンシューマーグループ: 複数のコンシューマーグループを 1 つのコンシューマーグループに結合できます。 Kafka の設計では、同じパーティション内のデータは、コンシューマーグループ内の 1 つのコンシューマーのみが使用できます。同じコンシューマーグループ内のコンシューマーは、同じトピックの異なるパーティションからデータを消費できるため、Kafka のスループットも向上します。
Zookeeper: Kafka クラスターは、システムの可用性を確保するために、クラスターのメタデータを保存するために Zookeeper に依存しています。

つまり、Kafka は本質的にメッセージングシステムです。ほとんどのメッセージングシステムと同様に、その主な機能は次のとおりです。

プッシュプルモデルを使用して生産者と消費者を分離する
メッセージングシステム内のメッセージデータの永続性を提供し、複数の消費者が
高可用性クラスタサービス、マスタースレーブモードを提供し、水平拡張をサポートします。

ActiveMQ、RabbitMQ、RocketMQ との違いは、**パーティション** の概念があることです。

このパーティションは、作成するトピックに 5 つのパーティションがある場合、一度に 1,000 個のデータを Kafka にプッシュすると、これらの 1,000 個のデータはデフォルトで 5 つのパーティションに分散され、各パーティションに 200 個のデータが格納されることを意味します。

これを行う目的は、消費者がさまざまなパーティションからデータを簡単に取得できるようにすることです。同時に 5 つのスレッドを開始してデータをプルすると、各スレッドが 1 つのパーティションをプルするため、消費速度が非常に速くなります。

これが Kafka と他のメッセージングシステムの最大の違いです。

2.1 データの送信

他のミドルウェアと同様に、Kafka は毎回リーダーパーティションにデータを送信し、それをディスクに順番に書き込みます。次に、リーダーパーティションはデータを各フォロワーパーティションに同期します。マスターパーティションに障害が発生しても、サービスの正常な動作には影響しません。

では、Kafka はどのようにして対応するパーティションにデータを書き込むのでしょうか? Kafka には次の原則があります。

1. データを書き込む際に、書き込むパーティションを指定できます。指定されている場合は、対応するパーティションに書き込みます

2. パーティションが指定されていないが、データのキーが設定されている場合は、キー値に従ってパーティションがハッシュ化されます。

3. パーティションが指定されておらず、キーも設定されていない場合は、ポーリングによってパーティションが選択されます。

2.2 消費データ

プロデューサーと同様に、コンシューマーが Kafka クラスターからメッセージをアクティブにプルすると、リーダーパーティションからデータもプルされます。

ここでは、「消費者グループ」という用語に注目する必要があります。

複数のコンシューマーのシナリオを考慮して、Kafka は複数のコンシューマーを持つコンシューマーグループを形成するように設計できます。同じコンシューマーグループ内のコンシューマーは、同じトピックの下にある異なるパーティションからのデータを消費できます。重複した消費を防ぐために、同じパーティションはコンシューマーグループ内のコンシューマーによってのみ消費されます。

ただし、異なるグループが同じパーティションからデータを消費する可能性があります。

これを次のように理解することができます。コンシューマーグループはクライアントであり、メッセージの消費を高速化するために、クライアントは多くのコンシューマーで構成できます。

ただし、グループ内のコンシューマーの数がパーティションの数より多い場合、多くのコンシューマーがアイドル状態になります。

パーティションの数がグループ内のコンシューマーの数より多い場合、1 人のコンシューマーが複数のパーティションの消費を担当することになり、消費パフォーマンスが不均一になります。

したがって、実際のアプリケーションでは、コンシューマーグループ内のコンシューマーの数をパーティションの数と一致させることが推奨されます。

3. Kafkaのインストール

ただ理論を語っても無駄だ。 Centos7 を例に、kafka のインストールと使用方法を紹介します。

Kafka では、サービスインスタンスのメタデータを保存するために zookeeper が必要なので、kafka をインストールする前に、まず zookeeper をインストールする必要があります。

3.1. ZooKeeperをインストールする

Zookeeperのインストール環境はjdkに依存しているため、事前にjdkをインストールする必要があります。

 # jdk1.8をインストール
yum -y java-1.8.0-openjdk をインストールします

Zookeeperをダウンロードし、ファイルパッケージを解凍します。

 #zookeeperをオンラインでダウンロード
http://mirrors.hust.edu.cn/apache/zookeeper/zookeeper-3.4.12/zookeeper-3.4.12.tar.gz を取得します。 
 
 #解凍
tar -zxvf zookeeper-3.4.12.tar.gz

データとログのディレクトリを作成する

#データとログを保存するためのディレクトリを作成する
cd /usr/zookeeper/
 mkdirデータ
mkdir ログ
 
 #conf の下にある zoo_sample.cfg ファイルをバックアップし、名前を zoo.cfg に変更します。
 cd conf/
 cp zoo_sample.cfg zoo.cfg

ZooKeeper を構成する

#zoo.cfgファイルを編集する
vim zoo.cfg

dataDirとdataLogDirのストレージパスを再構成する

最後に、Zookeeperサービスを開始します

#Zookeeperのbinディレクトリに入る
cd zookeeper/zookeeper-3.4.12/bin 
 
 #Zookeeper を起動する
./zkServer.sh 開始
 
 #Zookeeper のステータスを照会する
./zkServer.sh ステータス
 
 #飼育係のステータスを閉じる
./zkServer.sh 停止

3.2. Kafkaをインストールする

公式 Web サイト http://kafka.apache.org/downloads.html にアクセスして、必要なバージョンをダウンロードしてください。最新の安定バージョン 2.8.0 をダウンロードしました。

 #kafkaインストールパッケージをダウンロードする
https://apache.osuosl.org/kafka/2.8.0/kafka-2.8.0-src.tgz を取得します。 
 
 # ファイルパッケージを解凍する
tar -xvf kafka-2.8.0-src.tgz

必要に応じて構成ファイル server.properties を変更します (オプション)

 #設定フォルダに入る
kafka-2.8.0-src/config をコピーします
 
 #server.propertiesを編集する
vim サーバーのプロパティ

server.properties ファイルの内容は次のとおりです。

ブローカーID=0
リスナー=プレーンテキスト://localhost:9092
ネットワークスレッド数=3
スレッド数=8
ソケット送信バッファバイト数=102400
ソケット受信バッファバイト数=102400
ソケットリクエスト最大バイト数 = 104857600
 log.dirs=/tmp/kafka-logs
パーティション数=1
データディレクトリあたりの回復スレッド数=1
オフセット.トピック.レプリケーション.係数=1
トランザクション状態ログレプリケーション係数=1
トランザクション.state.log。最小.isr=1
ログ保持時間=168
ログセグメントバイト=1073741824
 log.retention.check.interval.ms =300000
 zookeeper.connect =ローカルホスト:2181
動物園の飼育員。接続.timeout.ms=6000
グループ.initial.rebalance.delay.ms=0

重要なパラメータは 4 つあります。

broker.id: 一意のID
listeners=PLAINTEXT://localhost:9092: kafka サービスのリスニングアドレスとポート
log.dirs: ログ保存ディレクトリ
zookeeper.connect: zookeeperサービスのアドレスを指定します

必要に応じて対応する構成を変更できます。

3.3. Kafkaサービスを開始する

# binスクリプトディレクトリに入る
kafka-2.8.0-src/bin をコピーします

Kafkaサービスを開始する

nohup kafka-server-start.sh ../config/server.properties server.log 2> server.err &

3.4.トピックを作成する

パーティションが 1 つだけ含まれ、レプリカが 1 つだけある testTopic というトピックを作成します。

 # binスクリプトディレクトリに入る
kafka-2.8.0-src/bin をコピーします
 
 #トピックを作成する
kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic testTopic

トピックを表示するには、list topic コマンドを実行します。

 # binスクリプトディレクトリに入る
kafka-2.8.0-src/bin をコピーします
 
 #現在のkafkaのすべてのトピックをクエリする
kafka-topics.sh --list --zookeeper ローカルホスト:2181

出力：

テストトピック

3.5 メッセージの送信

Kafka には、ファイルまたは標準入力から入力を受け取り、それをメッセージとして Kafka クラスターに送信するコマンドラインクライアントが付属しています。デフォルトでは、各行は個別のメッセージとして送信されます。

プロデューサーを実行し、コンソールにメッセージを入力してサーバーに送信します。

 # binスクリプトディレクトリに入る
kafka-2.8.0-src/bin をコピーします
 
 #プロデューサーを実行し、testTopicトピックにメッセージを送信します
kafka-console-producer.sh --broker-list localhost:9092 --topic テストトピック

2 つの項目を入力して Enter キーを押します。

こんにちは、カフカ！
これはメッセージです

3.5.メッセージの受信

Kafka には、メッセージを標準出力にダンプするコマンドラインコンシューマーもあります。

 # binスクリプトディレクトリに入る
kafka-2.8.0-src/bin をコピーします
 
 #testTopic トピックからメッセージをプルするコンシューマーを実行します
kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic testTopic --from-beginning

出力は次のようになります。

こんにちは、カフカ！
これはメッセージです

IV.まとめ

この記事では主に、Kafka のアーキテクチャモデルとインストール環境について予備的な概要を説明します。誤解が生じるのは避けられません。ネットユーザーの皆様は批判や苦情を歓迎します。

スペースの制約により、Java 環境での Kafka の適用シナリオについては、次の記事で詳しく紹介します。

<<: Tektonパイプラインの作成に役立つ記事

>>: クラウドベースの継続的インテグレーション (CI)/継続的デリバリー (CD) プラットフォームの選択方法

3分でKafkaを完全に理解する

1. Kafkaを理解する

2. アーキテクチャの紹介

3. Kafkaのインストール

IV.まとめ

人気商品からのトラフィックの合理的な利用: 関連セールをより魅力的にする方法

6つの対外貿易ネットワーク推進チャネルの目録

bluevm-256m メモリ/10g ハードディスク/500g トラフィック/月額 1 ドル/新しいパネル

Alibaba Cloud、自社開発の高性能アクセラレータカードを使用した新しいFPGAコンピューティングインスタンスF3をリリース

あなたはまだWeiboを「小さなブログ」と見なしていますか？

簡単なレビュー：BandwagonHost Japan VPS、ソフトバンク回線使用、2.5〜10Gbpsの帯域幅、BandwagonHostがいかに優れているかを説明します

クラウドネイティブのヒント: CLI ツールを自動的に公開するにはどうすればよいでしょうか?

ウェブマスターはどうすればブログのプロモーションを再び魅力的にできるでしょうか?

クラウドセキュリティ: 2023 年の 5 つの予測

raksmart: 大規模トラフィックサーバー、回線: CN2/本土最適化/国際 BGP

推薦する

ライブストリーミングで収益を得るにはどうすればいいですか?

QQを盛り上げ、QQグループを宣伝するヒントを共有しましょう

企業がドメイン名を登録する際に注意すべき点を簡単に分析

5Gとエッジコンピューティング、どのように選択するのでしょうか?

SEOはますます方向性を見失いつつある。2013年は何をすべきか？（構造）

沈黙の後の目覚め: ウェブマスターがドメイン名 Comedy Star を使用してソーシャルグラフを構築

クラウドストレージ: 企業はどのようにデータストレージの拡張を計画すればよいでしょうか?

4年間懸命に努力したにもかかわらず、まだ何も達成されていないウェブサイト構築の私の経験の要約

ブランドマーケティングプロモーション：ブランドネーミングの6つのコツ！

分裂と再統合後、XiaoIceとMicrosoft Chinaは協力してAI産業ソリューションの実装を加速する

ランキングを獲得するために小説サイトを最適化する方法

SEO トラフィックサイトはどのようにして検索エンジンを通じてトラフィックを取得するのでしょうか?

Kubernetes ネットワークの 4 つのシナリオの分析

Google Chromeブラウザは「Do Not Track」プライバシー保護ポリシーをサポートしています

easyvm シンガポール VPS はいかがでしょうか?モバイルユーザーに適したデータ共有、Netflixのロック解除などをテスト済み（中国電信/中国聯通はバイパス）