IIS ログからスパイダーのクロール時間を分析して、クイックコレクション Web サイトを作成し、元のコンテンツをタイムリーに保護します。

IIS ログからスパイダーのクロール時間を分析して、クイックコレクション Web サイトを作成し、元のコンテンツをタイムリーに保護します。

ウェブマスターは、権威の高いウェブサイトがオリジナル コンテンツを収集し、そのオリジナル コンテンツが他のウェブサイトの所有物になってしまうことに不満を漏らすことがよくあります。今日は、例を挙げてこの問題を解決する方法をご紹介します。

最も単純なケースでは、雑誌で元の記事を公開し、変更せずに盗用し、他の雑誌に違反している場合は、Bedificififigs of Publus of Publus of(biention of bedific)に基づいて、Bedifice of shing ops on sightの出版物に基づいて、Bedが提示することができます。どちらのパーティー、特にバイドゥは、2つの異なるWebサイトで公開された記事の内容が同じであると判断したため、最初に公開されたことはありませんでした。 Baiduの前の私の記事はそれを含み、すぐにBaiduに含まれていたので、私の記事は本来ではありませんでした。

Baidu が Web コンテンツのインデックス作成に時間がかかる場合、どうすれば問題を解決できるでしょうか。Baidu に Web ページをできるだけ早くインデックスさせるには、一般的に 2 つの方法があります。1 つは PING サービスを使用することです。これは、記事を公開した直後に Baidu に PING して記事のアドレスを伝えるというものです (PING サービスの概要と使用方法については、Baidu Webmaster Platform を参照するか、著者にお問い合わせください)。これは通常、権威のあるニュース ソース サイトを対象としています。Baidu は小規模なサイトを無視しているようです。2 つ目の方法は、この記事で焦点を当てている、公開する適切なタイミングを選択することです。

1. Baiduスパイダーのクロール間隔と規則性

Baidu Spider は、Baidu の単なるプログラムです。Web ページを自動的に訪問してコンテンツをクロールします。いわゆるニュース泥棒と同じ原理で動作しますが、この泥棒を歓迎する点が異なります。スパイダーはウェブサイトにずっといるわけではありません。大規模なウェブサイトでは、多くのスパイダーがさまざまなウェブページを訪問し、その結果、スパイダーが毎秒ウェブサイトで活動していることになります。しかし、そのような大規模なサイトであっても、特定のウェブページ(ウェブサイトのホームページなど)に関しては、スパイダーは通常、数秒から数時間、または数日に一度の間隔で訪問します。これがスパイダーのクローリング間隔です。

規則性についてお話ししましょう。私たちは、数分または数時間ごとに訪問するなど、比較的一定の周期で特定の Web サイト (Web ページ) をクロールします。これは例で説明できます (データは Web Log Explorer で分析され、分類と要約のために Excel にエクスポートされます)。

上の画像は、筆者が集計したウェブサイトのホームページのスパイダークローリングパターンです(当初は2日間の1時間ごとのデータをリストアップしたかったのですが、データが多すぎてまとめて公開できないことがわかったため、1日のうち午前8時から午後18時までのデータを選択して分析する必要がありました)。

上図の時間列は、スパイダーがホームページをクロールした実際の時間を示しており、概要列は、時間に基づいて作成者が作成した大まかな概要です(一部のデータは除外できます)。上図から、スパイダーの一般的なクロールルールがわかります。

午前中は、1 時間が一般的に 10 ~ 15 分、25 ~ 30 分、40 ~ 45 分、55 ~ 60 分の 4 つの期間に分けられます。

午後の各時間も4つの期間に分かれていますが、0分、15分、30分、45分という時間(またはそれくらい)で表されます。同時に、2日目のデータを分析しましたが、基本的に同じでした。これにより、クモの規則性に関する私の判断が強化されました。実際、過去10日間のデータを数え、同様のパターンを見つけました。

2. クモの規則性の実用化

クモの這うパターンを理解することで、事前に食料を準備することができます。私のテスト結果によると、17:43に記事を公開し、ホームページを更新することに成功しました。その結果、クモは17:44頃に予想通りにホームページをクロールし、関連する記事を含めました。

3. 要約:

この記事では、「インスタントコレクション」の概念について詳しく説明します。インスタントコレクションとは、公開された記事が特定の時間にスパイダーによってたまたまキャプチャされることを意味します。この意味では、スパイダーがまだウェブサイトをクロールしていて、コンテンツがオリジナルである限り、ウェブサイトの重みに関係なく、数秒で収集できます。スパイダーによってBaiduインデックスライブラリにドラッグされた後、後でどのように処理、精製、ランク付けするかについては、別のトピックです。この記事では、元の記事を書くことを主張するが、ホームページで独自の統計ツールを追加して、特定の検索エンジンのクロールを記録し、頻繁にパブリックを獲得するために頻繁に出版することができます。数秒で、著者によって示されたホームページのクモの時間間隔は基本的に約15分です。それを転載して、リンクを残して、すべてのウェブマスターが新しい年に実現し、Kステーションから離れてください。


元のタイトル: IIS ログからスパイダーのクロール時間を分析して、クイックコレクション Web サイトを作成し、元のコンテンツを時間内に保護します。

キーワード: スパイダークローリング、インスタントコレクション、ウェブマスター、ウェブサイト、ウェブサイトプロモーション、収益化

<<:  Yunyun Search は検索業界にどのような新しい要素をもたらすのでしょうか?

>>:  3大QQサイトが降格した理由を分析し、そこから何がわかりましたか?

推薦する

Hosthink/1g メモリ/SSD/G ポート/トルコ

Hosthinkは2010年に設立されたトルコの商人です。主な事業は、マネージド型とアンマネージド型...

NatCDN: アジア太平洋地域の高防御無料CDN、CC攻撃を無視し、安全で無制限の防御

natcdn セキュア CDN は 2009 年に設立されました。無制限の防御、複数のノード、香港と...

おすすめ: ramnode - 5.8% オフ/VPS クリスマス プロモーション

Ramnode はクリスマスに向けて、生涯 VPS 割引コード XMAS42 の 58% 割引で大々...

4つの主要ソーシャルコメントツールの速度比較

この評価方法は、Youyan、Duoshuo、Dianzila、Login のコメント ツール コー...

かつて年間数百万ドルを稼いだWowa減量ネットワークの全体最適化計画

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています最近、個人...

ローカルデコレーションウェブサイトの運営から得たインスピレーション:ウェブサイトの過剰最適化の罠に陥らないようにする

SEOER を表す言葉を探すとしたら、「重労働の悲劇」としか言いようがありません。彼らは一日中ウェブ...

デジタルチャイナが正式にアマゾンウェブサービス(AWS)の中国戦略パートナーに

2020年9月10日、今年のAWSオンラインテクノロジーサミットにおいて、アマゾンウェブサービス(北...

低価格プロモーション:peakservers-通常VPS/SSD VPS/バックアップVPS

ピークサーバーズはかなり変わったビジネスです。本当に驚きました。すぐになくなるだろうと思っていました...

sharktech (Shark Data Center): 20% 割引コード (レア)、ロサンゼルスの高防御サーバー

米国のSharktech(Shark Data Center)では、めったに大きな割引はありません。...

ビジネスイノベーションの加速 マルチクラウド管理はエンタープライズ開発に必須ですか?

現在、クラウド コンピューティング業界とインターネット アプリケーションがかつてないほど発展しており...

テンセントはWeiboやOasisに対抗するために「Youji」を立ち上げるのか?

インスタグラムは国内で長年人気を博してきたが、ついにソーシャルサークル型製品に大手インターネット企業...

「もしタオバオが鉄道の切符を販売できるようになったらどうなるだろう?」少なくとも予約で圧倒されることはないだろう。

電子商取引企業は概して「ダブルイレブン」オンラインショッピング戦争を生き延びた■ 春節の旅行ラッシュ...

ファーウェイクラウドスマート石炭混合ソリューション2.0がリリースされ、石炭産業の「質的変化」を加速

石炭は長い間中国におけるエネルギー消費の主な源であり、中国の経済と社会の発展に大きく貢献してきました...

Bステーションブランド共同マーケティング戦略!

あらゆるものが共同ブランド化できる世界では、共同ブランド化はもはや人々を驚かせるものではなくなったよ...

#黒5# bacloud: 年間 20 ユーロから、米国/オランダ/リトアニア、超高性能 + 500Mbps 帯域幅 (トラフィック無制限)

今から 11 月 30 日まで、bacloud はブラック フライデー期間中に大規模なプロモーション...