Amazon EMR は、複数の動的にスケーラブルな Amazon EC2 インスタンスにわたって大量のデータを迅速かつ簡単に、コスト効率よく処理できるマネージド Hadoop フレームワークを提供します。また、Amazon EMR で Apache Spark、HBase、Presto、Flink などの他の一般的な分散フレームワークを実行したり、Amazon S3 や Amazon DynamoDB などの他の AWS データストレージサービス内のデータを操作したりすることもできます。 Amazon EMR は、ログ分析、Web インデックス作成、データ変換 (ETL)、機械学習、財務分析、科学的シミュレーション、バイオインフォマティクスなど、幅広いビッグデータの使用事例を安全かつ確実に処理できます。 Amazon EMR のバージョン管理されたリリース戦略を使用すると、Apache Hadoop や Spark エコシステムのアプリケーションなど、EMR クラスターで最も人気のあるオープンソース プロジェクトを簡単に選択して使用できます。ソフトウェアは Amazon EMR によってインストールおよび構成されるため、インフラストラクチャや管理タスクについて心配する時間を減らし、データに価値を付加することに多くの時間を費やすことができます。 アドバンテージ 1. 使いやすい Amazon EMR クラスターの起動には数分しかかかりません。ノードのプロビジョニング、クラスターのセットアップ、Hadoop 構成、クラスターの最適化について心配する必要はありません。 Amazon EMR がこれらのタスクを処理するので、ユーザーは分析に集中できます。 2. 低コスト Amazon EMR の料金設定はシンプルで予測可能です。1 分から始まり、使用した秒ごとに秒単位の料金を支払います。 10 ノードの Hadoop クラスターを 1 時間あたりわずか 0.15 ドルで起動できます。 Amazon EMR は Amazon EC2 スポットインスタンスとリザーブドインスタンスをサポートするように設計されているため、基本インスタンスコストを 50 ~ 80% 節約することもできます。 3. 柔軟性 Amazon EMR を使用すると、1 個、数百個、さらには数千個のコンピューティングインスタンスをプロビジョニングして、あらゆる規模のデータを処理できます。インスタンスの数は手動でも Auto Scaling でも簡単に増減でき、使用した分だけ支払うことができます。 4. 信頼性の高い操作 クラスターのデバッグと監視に費やす時間が短縮されます。 Amazon EMR は Hadoop をクラウド向けに最適化しており、クラスターを監視し、失敗したタスクを再試行し、パフォーマンスの低いインスタンスを自動的に置き換えます。 5. セキュリティ Amazon EMR は、インスタンスへのネットワークアクセスを制御するために Amazon EC2 ファイアウォール設定を自動的に構成し、ユーザーが定義した論理的に分離されたネットワークである Amazon Virtual Private Cloud (VPC) でクラスターを起動できます。 Amazon S3 に保存されているオブジェクトの場合、AWS Key Management Service またはカスタマー管理キーを介して、EMRFS による Amazon S3 サーバー側暗号化または Amazon S3 クライアント側暗号化を使用できます。追加の暗号化オプションと Kerberos 認証も簡単に有効にできます。 6. 柔軟性 クラスターを完全に制御できます。各インスタンスへのルートアクセス権があるため、追加のアプリケーションを簡単にインストールし、ブートストラップ アクションを使用して各クラスターをカスタマイズできます。さらに、カスタム Amazon Linux AMI を使用して Amazon EMR クラスターを起動することもできます。 Amazon EMR で何を構築できますか? 1. クリックストリーム分析 Amazon EMR を使用すると、クリックストリーム データを分析してユーザーをセグメント化し、さまざまなユーザーの好みを理解し、より効果的な広告を配信できます。 2. リアルタイム分析 Amazon EMR 上の Spark Streaming を使用して、Amazon Kinesis、Apache Kafka、またはその他のデータストリームからのリアルタイムデータを消費および処理します。フォールトトレラント方式でストリーミング分析を実行し、結果を Amazon S3 または HDFS に書き込みます。 3. ログ分析 Amazon EMR は、Web アプリケーションやモバイル アプリケーションによって生成されるさまざまなログを処理するために使用できます。 Amazon EMR は、ペタバイト単位の非構造化データや半構造化データを、アプリケーションやユーザーの洞察に役立つデータに変換するのに役立ちます。 4. 抽出、変換、ロード(ETL) Amazon EMR を使用すると、大規模なデータセットの分類、集約、マージなどのデータ変換ワークロード (ETL) を迅速かつコスト効率よく実行できます。 5. 予測分析 Amazon EMR 上の Apache Spark には、幅広いスケーラブルな機械学習アルゴリズム用の MLlib が含まれていますが、独自のライブラリを使用することもできます。データセットをメモリに保存することで、Spark は一般的な機械学習ワークロードに対して優れたパフォーマンスを提供できます。 6. ゲノミクス Amazon EMR は、膨大な量のゲノムデータやその他の大規模な科学データセットを迅速かつ効率的に処理します。研究者は AWS でホストされている無料のゲノムデータにアクセスできます。 |
<<: 従来の SAN や NAS と比較した分散ストレージの利点と欠点は何ですか?
>>: 「音」があなたのもとにやって来て、「ビジョン」が見える、テンセントクラウド+コミュニティオーディオおよびビデオ技術開発サロンがやって来ます
2016年の鐘が鳴りました。2015年を振り返ると、私たちはASOで戸惑い、怯え、迷ったかもしれませ...
将来を見据えたソリューション プロバイダーは、エッジ コンピューティングが私たちの生活のあらゆる部分...
ハイブリッド クラウドとマイクロサービスにより、環境間でのデータの統合とアクセスが容易になり、アプリ...
1. 最適化とプロモーションの関係SEO に詳しい友人は、SEO を長期間続けるとボトルネックが発生...
クラウド コンピューティング最適化サービス プロバイダーの Virtana の委託を受け、調査会社 ...
この記事は主にブランド成長を目指す企業を対象としており、交流を歓迎します。 Sina Weibo @...
企業ウェブサイトと一般ウェブサイトの間には大きな違いはありませんが、企業ウェブサイトの SEO 担当...
ウェブサイトを最適化します。多くのウェブマスターは外部リンクに力を入れています。もちろん、外部リンク...
今日では、人々は問題を解決するためにインターネットにますます頼るようになっています。たとえば、企業は...
先週の土曜日、私は饅頭を買いに出かけ、友達の家の前を通りかかりました。私は店に入ってしばらく座って、...
マイクロソフトは本日、教師と生徒が来年度に向けて新しいリモートおよびハイブリッド教育方法を導入できる...
COVID-19 パンデミックはクラウドの導入と拡大を加速させることが証明されており、クラウド中心の...
Dogyun は 6 月 18 日に特別プロモーションを開始しました。13 のデータセンターはすべて...
Providerservice は 2005 年に設立されたドイツの企業です。主な事業は、サーバーレ...
先週、「Kafka はどのようにして 1 秒あたり数百万件という超高速同時書き込みを実現するのか?」...