フォーカス |機械学習に役立つ 7 つのクラウド コンピューティング サービス

フォーカス |機械学習に役立つ 7 つのクラウド コンピューティング サービス

データ分析は、多くの組織がクラウド コンピューティング プラットフォーム上で実行する主要なコンピューティング タスクです。これは、IT 技術者がプログラミングに長けていること、科学者の研究室機器をコンピューターに直接接続してデータを記録する必要があること、またはデータ セットが非常に大きいため移行に非常に時間がかかることなどが理由であると考えられます。

[[247547]]

理由が何であれ、科学者やデータアナリストはリモート コンピューティングをますます採用するようになっています。機械学習、人工知能、データ分析のためのクラウドベースのツールの数が急増しています。これらのアプリケーションの一部はクラウドベースのドキュメント編集や電子メールであり、技術者はさまざまなデバイスから中央リポジトリにログインして、移動中やビーチなど遠隔地から作業することができます。クラウド コンピューティングはファイルのバックアップと同期を処理し、ワークフローを合理化します。

実際、データ分析はクラウド コンピューティングに適しています。データ セットが大きい場合、クラウド コンピューティング ユーザーは、レンタルしたハードウェア設備で大規模なジョブを実行し、作業をより速く、より効率的に完了できます。ユーザーはコンピュータを起動して処理に多くの時間を費やす必要はありません。クラウド コンピューティングでは、大容量のメモリを搭載した数十のクラウド コンピューティング インスタンスを起動し、数分以内に処理結果を観察するだけで済むため、時間とコストを節約できます。

クラウド コンピューティングを導入する組織には一定のリスクもあり、最大のリスクはユーザーのプライバシーに関する懸念です。一部のデータ分析にはユーザーの個人情報が含まれます。人々は研究室でデータを扱う際のセキュリティ問題に慣れすぎていて、クラウドで何が起こっているのかを知ることが困難です。

クラウド コンピューティング プロバイダーが採用しているプラ​​イバシー保護の慣行に人々が安心できるようになるまでには、しばらく時間がかかるでしょう。クラウド コンピューティング プロバイダーがセキュリティ コンサルタントをさらに雇用する可能性が高いことが認識されています。パーソナルコンピュータがグローバルインターネットに接続されている場合、それはすでにクラウドコンピューティングの一部であると言えるでしょう。

幸いなことに、いくつかの回避策があります。最も簡単な方法は、個人情報をランダムな ID に置き換えるなどの技術を使用してデータを匿名化することです。この方法は完璧ではありませんが、ハッカーがクラウド コンピューティングの防御を突破した後に発生する可能性のあるトラブルを大幅に軽減できます。

他にもいくつか利点があります。一部のプロバイダーはデータセットを一般に公開またはオープンソース化することがあり、これによりさらに多くの組み合わせが生成される場合があります。一部のクラウド コンピューティング プロバイダーは、ユーザーを引き付けるために独自のデータ セットを管理し、ストレージ コストを削減しています。ユーザーが希望する場合は、製品の売上と天気や太陽黒点などの公開データセット内の他の情報を相関させることができます。知るか?ここには奇妙な相関関係がたくさんあります。

ここでは、データ セット内の相関関係とシグナルを理解するのに役立つ 7 つの異なるクラウドベースの機械学習サービスを紹介します。

1. Amazon SageMaker

Amazon は、機械学習ツールをより使いやすくするために SageMaker を開発しました。 Amazon SageMaker は、さまざまな AWS ストレージオプション (S3、Dynamo、Redshift など) を組み合わせ、一般的な機械学習ライブラリ (TensorFlow、MXNet、Chainer など) の Docker コンテナにデータを転送します。最終モデルが独自の API としてデプロイされるまで、すべての作業は Jupyter Notebook を使用して追跡できます。 SageMaker はデータを Amazon のパブリッククラウド内のサーバーに移動するため、プロセスではなくアルゴリズムの検討に集中できます。アルゴリズムをローカルで実行したい場合は、いつでも Docker イメージをダウンロードして簡単に実行できます。

2. Microsoft Azure 機械学習

Microsoft は機械学習の将来を見据え、データ内のシグナルを見つけるための洗練されたグラフィカル ツールである Machine Learning Studio で機械学習に全力を注いでいます。 AI用のスプレッドシートのようなものです。数字を理解するためのフローチャートを作成するためのドラッグ アンド ドロップ インターフェイスがあります。ドキュメントには「コーディングは不要」と記載されていますが、これは技術的には正しいのですが、コードの作成に煩わされることなく効果的に使用するには、ユーザーはプログラマーのように考える必要があります。しかし、構文エラー、データ型、その他のプログラミングの楽しさが恋しい場合は、Python、R、またはその他のさまざまなオプションで記述されたモジュールをインポートできます。

最も興味深い選択肢は、Microsoft が AI から学んだことを活用して予測モデルを Azure パブリック クラウドで実行される Web サービスに変換するためのインフラストラクチャを追加したことです。そのため、ユーザーはキーボードとマウスをクリックするだけで、トレーニング セットを構築し、モデルを作成し、Azure サービスから JSON パケットで回答を提供できるようになります。

3. ビッグML

BigML は、BigML クラウド プラットフォームで使用したり、ローカルにインストールしたりできるデータ分析用のハイブリッド ダッシュボードです。メイン インターフェースは、数十の機械学習分類器、クラスタリング器、回帰器、異常検出器による分析を待機しているすべてのファイルを一覧表示するダッシュボードです。クリックすると結果が表示されます。

最近、同社は、スタックが有用な回答を提供する能力を強化する新しいアルゴリズムに重点を置いています。新しい Fusion コードは、複数のアルゴリズムの結果を統合して精度を向上させることができます。

BigML 独自のサーバー上の豊富な無料枠を活用することにより。ユーザーは、AWS、Azure、または Google Cloud Platform 上にプライベート デプロイメントを構築することもできます。これがまだ比較的公開されている場合、ユーザーのプライベート サーバーに展開されます。

4. データブリックス

Databricks ツールセットは、Apache Spark の開発者によって構築されました。彼らは、オープンソースの分析プラットフォームを採用し、いくつかの重要な速度強化を追加し、巧妙な圧縮とインデックス作成によってスループットを向上させました。 Delta と呼ばれるハイブリッド データ ストアは、大量のデータを保存して迅速に分析できる場所です。新しいデータが到着すると、既存のメモリに圧縮され、迅速に再分析できます。

Apache Spark の標準的な分析ルーチンはすべてこのデータで実行できますが、コードを分析するための統合ノートブックなど、Spark インフラストラクチャに待望の改善がいくつかあります。

Databricks は AWS および Azure と統合されており、消費量とパフォーマンスに基づいて価格が設定されます。各コンピューティング エンジンは Databrick 単位で測定されます。企業はより高速なモデルに対してより多くの費用を支払う必要があります。

5. データロボット

ここで紹介する方法の多くにより、ユーザーはキーボードをクリックするだけで機械学習モデルを構築できます。 DataRobot は、キーボードをクリックするだけで、数百のモデルを同時に構築できると主張しています。モデルが完成すると、ユーザーはそれらを調べて、より優れたモデルを見つけ、予測を続けることができます。その秘密は、超並列処理エンジンを使用すること、つまり、複数のマシンを使用して分析を実行することです。

DataRobot は、新しいアルゴリズムを実装し、現在のアルゴリズムを拡張することで拡大しています。同社は最近、Nutonian を買収しました。同社の Eureqa エンジンは、自動化された機械学習プラットフォームの時系列および分類モデルの作成機能を強化するはずです。このシステムは、より上級のユーザー向けに Python API も提供します。

DataRobot は、DataRobot Cloud を通じて、または組み込みエンジニアに付属するエンタープライズ ソフトウェア バージョンとして利用できます。

6. Google Cloud 機械学習エンジン

Google は、データ内のシグナルを見つけるための標準的なオープンソース ライブラリの 1 つである TensorFlow に多額の投資を行っており、現在、ユーザーは Google Cloud Platform でそれを試すことができます。 Google Cloud Machine Learning Engine の一部のツールはオープンソースであり、誰でも無料でダウンロードできます。また、一部は Google Cloud Platform の商用オプションの一部です。これにより、コードの大部分がオープンソースであり、Mac、Windows、Linux マシンのいずれでも実行できるため、ユーザーは自由に探索でき、ロックインを回避できます。

さまざまなツールもいくつかあります。最も簡単に導入できるツールは Colaboratory かもしれません。これは、Jupyter ノートブックを Google の TensorFlow バックエンドに接続し、ユーザーがコードを記述して実行を確認できるようにします。 Google は、実験を実施したい科学者向けに TensorFlow Research Cloud も提供しています。適切な場合、ユーザーは GPU または TPU を使用して、Google の高速ハードウェア上で機械学習モデルを実行できます。

7. IBM ワトソンスタジオ

Watsonは現在、IBMのリソースのほとんどを人工知能に投入している。 IBM Watson Studio は、クラウドまたはオンプレミスでデータを探索し、モデルをトレーニングするためのツールです。データが入ると、その結果が会社のダッシュボードに美しいグラフで表示されます。

最大の違いは、Watson Studio のデスクトップ バージョンかもしれません。ユーザーはクラウドベースのバージョンを使用してデータを探索し、弾力性のあるリソースと集中型リポジトリのすべての利点を享受できます。あるいは、ユーザーはファイアウォールのプライバシーとデスクトップの利便性を組み合わせて同じことを行うことができます。

各クラウドプラットフォームの機械学習モデル

多くの人は AI 研究のために 1 つのダッシュボードを選択したいと考えますが、選択肢を増やしても問題はありません。すべての前処理とデータクリーニングが完了すると、ユーザーは同じ CSV 形式のデータをこれらすべてのサービスに入力し、結果を比較して最適な選択肢を見つけることができます。これらのサービスの中には、すでにアルゴリズム間の自動比較機能を提供しているものもあります。複数使用しないのはなぜですか?

ユーザーは、進化を続ける数多くのオープン スタンダードも活用できます。たとえば、Jupyter ノートブックは通常、大きな変更を加えなくても実行されます。ユーザーは 1 つのプラットフォームで開発を行い、その後、ほとんどのコードをデータとともに移動して、別のプラットフォームで新しいアルゴリズムや異なるアルゴリズムをテストできます。

標準化にはまだ程遠い状況で、多くのアルゴリズムには奇妙で説明のつかない違いがあります。したがって、ユーザーは 1 つのアルゴリズムや 1 つのトレーニング方法だけを考慮するのではなく、できるだけ多くの異なるモデリング ツールを使用するようにする必要があります。

<<:  Oracle Cloudは顧客にエンドツーエンドのデータセキュリティを提供します

>>:  オラクル、企業向けにパーソナライズされたデジタルアシスタントを提供

推薦する

落下防止携帯電話に関するアップルの新特許:画面が自動的に保護シートを拡張

appleinsiderによると、米国特許商標庁は「電子機器のアクティブスクリーン保護」メカニズムと...

2012年インターネット製品・イノベーションサミットフォーラムが成功裏に終了

「2012年インターネット製品・イノベーションサミットフォーラム」が4月7日午後、北京国際会議センタ...

「コンテンツは王様、外部リンクは女王様」その両方を手に入れる方法

SEO担当者として、インターネットの急速な発展に伴い、業界内の競争はますます激しくなり、革新が特に重...

SEO3.0 は疑似概念ですか、それとも単なるビジョンですか?

SEO 3.0 は、昨年の MADCon のゲストによって提案されました。彼は、Google や B...

優れた Weibo マーケティング プロモーション プランとはどのようなものでしょうか?

ショートビデオ、セルフメディア、インフルエンサーのためのワンストップサービスWeibo は、企業のニ...

ドメイン名の盗難を防ぐ方法

ドメイン名はウェブサイト全体の核であり鍵です。ドメイン名が盗まれて他のレジストラに譲渡されると、ドメ...

Qianyun Technology SmartCMP v3.5が正式にリリースされました

SmartCMP ハイブリッド クラウド自動化管理プラットフォーム 3.5 は、アプリケーション配信...

Cheetah ブラウザが Youku の広告をブロック: 魚を捕まえるために池を排水する動き

文/鄭俊夕食後、携帯電話を閲覧していたところ、中国最大の動画サイト「Youku」の人気のWeibo投...

Renren.comがYouku Tudouに「参入」:先行者利益を失い、自らを救いたい

黄元芳海平「中国版Facebook」として知られるRenren(RENN.NYSE)は、SNSプラッ...

電子商取引ウェブサイトを宣伝し最適化する方法について簡単に説明します

電子商取引の発展は急速で、さまざまなウェブサイトの設立も業界全体の進歩を加速させています。時間の経過...

ウェブラインサービス: $7/VPS/3g メモリ/40g SSD/3T トラフィック/ニューヨーク

webline-services.com は 2009 年に設立されたホスティング会社です。ニューヨ...

クラウド移行の危険を回避するための 2 つの事例

[[438978]]クラウドで従業員を支援ニールセンのCIO、パトリック・ディニーン氏は、ニールセン...

アトリビューション分析のやり方がわからないと、チャンネルのコンバージョンやユーザー数の増加がどんどん悪くなるのも当然です。

APPは開発され、広告も行われ、チャネルも選択され、予算も確保されましたが(いつも足りない気がします...

Ramnode - VPS 生涯長期割引 6.5% オフ

ramnode.comは現在、ローエンドVPS販売ランキングで1位にランクされています。米国西海岸の...

パブリッククラウドプロバイダーのサイバーセキュリティ戦略が失敗する理由

米国政府による潜在的な規制は、AWS などのクラウド コンピューティング プロバイダーとその顧客に影...