この記事から始めて、プログラム自体の知識について書くことに多くのエネルギーを費やすつもりはありません。結局のところ、これはさまざまな本で見つけることができる内容です。残りの学習は、組み込み関数の使用と、特に pycurl、re、threading などのモジュールの使用方法であり、これらには徐々に慣れていく必要があります。 勉強中に質問がある場合は、この記事のコメント欄に投稿してください。時間があれば、できる限りお答えします。 プログラム要件 少し規模の大きいウェブサイトの場合、SEO の効果を分析したり、Baidu や Google などの動向を把握したりするために、定期的にランキングを監視する必要があるキーワードが多数あることがよくあります。 重要な問題は、データ収集が完全に自動化されているかどうかです。 Google Analytics を頻繁に使用してデータ分析を行っていると、データ分析のニーズが多様であることを感じるでしょう。さまざまな次元の完全なデータを事前に持っている場合にのみ、データ不足に制限されることなく、当初のアイデアに従って分析を行うことができます。 Google Analytics などの優れたツールは、このデータを完全に自動的に収集し、トラフィックの多様な分析を実行するための SEO の基盤を築きます。同様に、分析の自由度を高めたい場合は、できるだけ多くの種類の履歴データを記録する必要があります。これを日常的な作業として実行すると非常に長い時間がかかるため、自動収集が重要になります。 ランキングを監視するための既存の主なソリューションは、商用ソフトウェアの Rank Tracker を使用することですが、理想的とは言えない側面もあります。たとえば、既存のソフトウェアのほとんどには、機能が柔軟でないという問題があります。さらに、最大の欠点の 1 つは、実行するにはグラフィカル インターフェイスを備えたシステムを見つける必要があることです (Java で実装されており、複数のオペレーティング システム バージョンがあるため、必ずしも Windows である必要はありません)。 DIY Python スクリプトの場合は、Linux システムの crontab (システムレベルのスケジュールされたタスク) に配置し、スケジュールされた時間に自動的に実行して生データを収集できます。次に、必要に応じて別のスクリプトを使用して生データを処理し、さまざまな次元で分析を実行します。一般的に必要なのは、Linux システムを搭載した低構成の VPS と、合計 100 行以下の Python コードです (Windows でもこれらを実現できますが、比較的面倒です)。 次に、より具体的なニーズを分析します。ここにいくつかの原則があります: 1. データ量が多すぎてハードディスクに負担がかかる場合(毎日数GBのログを解析するなど)を除き、考えられる限り多くのデータを記録します。分析のニーズは常に変化するため、包括的なデータは準備に役立ちます。 2. 上記と同様に、データ量が極端に多い場合を除き、必ずすべての履歴データを保存してください。大量のデータを扱う場合には、実際の状況に応じて一定期間のデータを保存することも必要です(例えば、最初の 3 年間は毎月コピーを保存し、現在の 1 年間は毎週コピーを保存するなど)。多くの場合、履歴データの比較は非常に重要です。 3. データが非常に単純な場合は、txt を使用して行ごとに保存します。データが比較的単純な場合は、csv を使用して行と列ごとに保存します。データが比較的複雑な場合は、MongoDB などのキー値 NoSQL ストレージの使用を検討できます。データがより複雑な場合は、MySQL などのリレーショナル データベースを使用して保存します。しかし、これらは絶対的なものではなく、実際の状況によって異なります。 現在のニーズでは、キーワードのランキング傾向を監視することが目的であるため、通常は最大で数千個のキーワードを監視すれば十分です。おそらく、ウェブサイトは比較的大きく、数十万のキーワードのランキングを知りたいでしょう。しかし、ランキングの傾向を理解するために、すべてのキーワードをクエリする必要はありません。サンプルとして、その一部をランダムに選択するだけで済みます。 キーワードは多くても数千個しかないため、ランキングデータは 1 日に 1 回記録するのが最適です (安定性を確保するという条件で、Google は 1 つの IP に対して 1 日に 5000 語以上、Baidu は数万語をクエリできます)。また、データ自体は主にキーワード、ランキング、ランディングページのURLなどで構成されており、ファイルサイズが非常に小さいため、データのコピーは毎日保存されます。 データの保存方法としては、一般的に csv を選択することをお勧めします。 Excel スプレッドシート (xls) とまったく同じ方法でデータを保存します。 コードの実装 これらのコードには次のランタイム環境が必要です。 Linux オペレーティング システム Pythonのサードパーティモジュールpycurl Python で Web ページをダウンロードする最も簡単な方法は次のとおりです。
urllib2 モジュール自体は優れた機能を備えていますが、pycurl モジュールにはまだまだ及びません。また、少し複雑な操作を行う場合は、urllib2 モジュールよりも pycurl モジュールを使用する方がはるかに便利です。 Pycurl は使いこなさなければならないモジュールの 1 つですが、使い始めるには少々面倒かもしれません。ここでは、便利に使用できるように自分でモジュールを作成しました。
簡易収集に必要なダウンロード機能がこのモジュールに統合されました。ユーザーエージェントのローテーション、自動 301/302 リダイレクト、現在の URL を REFERER として使用する巧妙な方法などです。このモジュールのコードは後でゆっくり理解できますが、今は使い方を知っておく必要があります。 まず、Python スクリプトが配置されているディレクトリに移動し、前のコードを curl.py として保存し、同じディレクトリに新しいファイルを作成して、次のテスト コードを入力します。
|
<<: SEO最適化に別れを告げ、フォーラムを使ってウェブサイトを宣伝しましょう
>>: プライベートソーシャルネットワークPathがさらに4000万ドルの資金調達を実施
サーバー アプリケーションをコンテナ経由でクラウドに移行する場合は、コンテナ オーケストレーションを...
最近、友人から、Google Search Console (GSC) の多くの Web ページが「...
SEO メトリクスとは何ですか? ページ評価要因とどう違うのですか? 基本的に、SEO メトリクスは...
昨日はロマンチックな中国のバレンタインデーでした。愛に満ちたこの夜に、BaiduとGoogleはつい...
ウェブサイトをクエリする際の包含価値は、常にウェブマスターの関心事です。包含されたウェブサイトの数は...
ローカルWeiboもWeiboであり、Sina WeiboやTencent Weiboからの圧力にも...
このタイトルを見ると、特別トラフィックとは何なのか少し混乱するかもしれません。特別トラフィックとは、...
工業情報化省は、虚偽の申告を是正し、ウェブサイトの申告情報の正確性を向上させるために、特別なビデオ会...
インターネットのビジネスモデルには 3 つのレベルがあります。最下層は製品中心、次がプラットフォーム...
最近、App Annie は「2020 年の世界モバイル市場予測」レポートを発表しました。このレポー...
【はじめに】私が設立した七星会研究所には、每涛研究を専門とする研究員がいます。この記事を読めば、We...
SEO 初心者、あるいは永遠に SEO 初心者である人々がいます。彼らは目覚めない限り、決して成長で...
ガートナーの予測データによると、世界のIT支出は2024年に5.1兆米ドルに達し、2023年から8%...
9月20日、AppleのiOS 11システムが正式にリリースされました。業界では、新しいバージョンの...
2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っていますB2B 電...