以前、クローラー プロキシ Web サイトをクロールしたところ、ポートに対して何らかの処理が行われており インストールリナックス
ウィンドウズ
原理セレンについてSelenium は、複数のプラットフォーム上で複数のブラウザを操作し、ブラウザの実行、ページへのアクセス、ボタンのクリック、フォームの送信、ブラウザ ウィンドウの調整、右クリックやドラッグ アンド ドロップの操作、ドロップダウン ボックスやダイアログ ボックスの処理など、さまざまなアクションを実行できる Web 自動テスト ツールです。QA 自動テストに不可欠なツールです。 PhantomJsについてPhantomJs は、レンダリング エンジン (QtWebkit) と JS エンジン (JavascriptCore) を備えた、ページのないブラウザーと見ることができます。 PhantomJs には、DOM レンダリング、JS 実行、ネットワーク アクセス、Web ページのスクリーンショットなど、複数の機能があります。 PhantomJS は、主に PhantomJS のサイレント モード (ブラウザーを開かずにバックグラウンドで実行される) の理由で、Chromedriver や Firefox の代わりに使用されます。 クロールの例小さなテスト - zhidaow.com タイトルをクロールまずは簡単な例を見てみましょう。以前は、このようなコンテンツは一般的にrequests+BeautifulSoupまたはScrapyを使用して処理されていました。 from selenium import webdriverbrowser = webdriver.PhantomJS('D:\phantomjs.exe') # ブラウザーの初期化。Win では phantomjs パスを設定する必要があり、Linux では空白のままにできます。url = ' # アクセス パスを設定します。browser.get(url) # Web ページを開きます。title = browser.find_elements_by_xpath('//h2') # xpath を使用して要素を取得します。for t in title: # 出力をトラバースします。print t.text # テキストを出力します。print t.get_attribute('class') # 属性値を出力します。browser.quit() # ブラウザーを閉じます。例外が発生した場合、タスクブラウザでPhantomJSを閉じることを忘れないでください。複数のPhantomJSが実行され、コンピュータのパフォーマンスに影響を与えるためです。 元のタイトル: Selenium+PhantomJS+Xpath で Web ページの JS コンテンツをクロールする キーワード: JS |
imidc の南アフリカ データ センターの南アフリカ VPS は、労働者の日を祝って 40% 割引...
Ramnode の最高割引が再び登場しました。60 % オフの割引コード: SRSLY40 。この割...
Pacificrack の最新のプロモーションメールには、Windows シリーズの VPS が 6...
近年、Weiboマーケティングは企業によって活用されており、「Love Is Not Blind」は...
[[252760]] re:Invent 2018は成功裏に終了しました皆さんもすでに生み出された情...
故人となったトークショーの巨匠、馬冀氏の一人息子である馬東氏は、14年以上勤めたテレビ業界を離れる選...
weloveservers は KVM をインストールし、Windows VPS に接続しました。デ...
cmivps の 618 プロモーション: 香港 CMI ラインの VPS、年間支払いで 30% オ...
5月19日、筆者は「社内SEO研修についてお話しましょう」というタイトルの記事を書きました。この記事...
COVID-19パンデミックの影響により、オンライン電子商取引業界は急速に発展しました。コミュニティ...
多くのウェブマスターは、毎日百度のアルゴリズムを研究しています。実は、検索エンジンはユーザーに役立つ...
9月11日、2020テンセントグローバルデジタルエコシステムカンファレンス高速インテリジェントコンピ...
最近、有名な分析機関IDCが2019年中国政府クラウドサーバーオペレーター市場シェアレポートを発表し...
Baidu のアルゴリズムルールが変更された後、ユーザーエクスペリエンスに重点が置かれたため、著者の...
ケータリング O2O 起業には現実的な対応が求められます。最近、私はチームと協力して長沙でオフライン...