スクレイピーデータをExcelとして保存

スクレイピーデータをExcelとして保存

背景

Scrapy はデフォルトで csv として保存でき、Excel で開くことができます。 scrapy crawl spider_name -o data.csvを使用するだけです。しかし、csv 形式には、中国語のエンコードの問題やカンマ区切りなど、多くの不便な点があります。これらは解決できますが、一般ユーザーにとってはまだ十分に使いやすいとは言えません。

そこで、データを xlsx ファイルに直接保存して、すべての問題を完全に解決することを考えました。主にScrapyのpipeline.pyとpythonのオープンソースライブラリOpenPyxlを使用しました。

パイプラインについて

pipelineは、Scrapy のモジュールです。スパイダーによってデータがキャプチャされた後、 pipelineによって処理されます。通常、 pipelineには複数の「プロセス」があり、データはこれらの「プロセス」を順番に通過します。製品が特定の「プロセス」に合格しない場合は、廃棄されます。

pipelineには一般的にいくつかの用途があります。

  • クリーンな HTML データ (たとえば、不要なタグをクリーンにする)
  • データがキャプチャされたことを確認する(たとえば、特定のフィールドが含まれているかどうかを確認する)
  • 重複をチェックする(重複データをフィルタリングする)
  • キャプチャしたデータをデータベースに保存する

ここでは最後の関数を使用し、xlsx ファイルとして保存します。

OpenPyxlについて

OpenPyxlは、Excel 2007 xlsx/xlsm ファイルを読み書きするための Python ライブラリです。では、早速、いくつか例を挙げてみましょう。

 from openpyxl import Workbookwb = Workbook() # class instanceiationws = wb.active # worksheet をアクティブ化ws['A1'] = 42 # A1 テーブルにデータを入力しますws.append(['Kobe', '1997', 'Guard', 'Season reimbursement']) # データの行を追加しますwb.save('/home/alexkh/nba.xlsx') # ファイルを保存します

元のタイトル: Excel として保存された Scrapy データ

キーワード: Excel

<<:  Python エンベロープを使用してメールと添付ファイルを送信する

>>:  [翻訳] リクエストとlxmlを使用したWebスクレイピング

推薦する

racknerdはどうですか?最新のダラスデータセンターAMDシリーズVPS評価データを共有

racknerdはどうですか? Racknerdは今朝、米国中部の都市ダラスで「AMD Ryzen9...

imidc: 50% 割引、年間 48 ドル、香港 VPS/台湾 VPS、512M メモリ/1 コア/20g SSD/500g トラフィック

imidc は、直接接続の香港 VPS と台湾 VPS (cn2 ネットワーク) を 50% 割引で...

「スマート企業はクラウドを楽しむ」、初のSAP中国クラウドカンファレンスが開催されました

2019 年 6 月 5 日、上海 - 本日、第 1 回 SAP クラウド カンファレンスが上海で盛...

ハイパーコンバージェンス?クラウドネットワーク統合?統合に関する考察

[[405083]]この記事はWeChatの公開アカウント「zartbot」から転載したもので、著者...

自動車モデル会社のウェブサイトの簡単な SEO 診断

1. あなたのウェブサイトから判断すると、誰かがすでに最適化していますが、結果はまあまあです。ランキ...

weloveservers-50G ハードディスク/無制限のウェブサイト構築/1T トラフィック/仮想ホスト/年間 5 USD の支払い

weloveservers は、ほぼ 1 年前からある新しい VPS プロバイダーです。最も有名なの...

Pacificrack: 「定額制 VPS」が 50% オフ、最低 $10/年、1G RAM/1 コア/20g SSD

Pacificrackは本日、新製品シリーズ「PR-M」を正式に発売しました。KVM仮想化はそのまま...

justvps: 月額 1.54 ドルから利用可能な英国の VPS、1G メモリ/1 コア/20g NVMe/300M 帯域幅/無制限トラフィック

justvps.pro は、今から 1 月 20 日まで、英国ロンドン データ センターの VPS ...

Youku Tudou が 2012 年第 4 四半期および通期の財務報告を発表

Sina Technology News: 北京時間 3 月 1 日早朝のニュースとして、Youku...

テクノロジーと食品が出会うとき、Oracle NetSuite Cloud ERPがDomino'sのスマートな管理クラウドマップを構築

ケータリング業界の事業運営に関しては、再現可能な成功事例や参考にできる標準的な答えを見つけるのが難し...

food.net ドメイン名について: あらゆる人をカバーする 6 つのカテゴリ

昨今、人々の生活水準は向上し、衣食住の問題は基本的に解決され、人々の追求は健康的な食生活へと変わりま...

日本におけるLinode、Vultr、Conohaの簡単な比較

日本のデータセンターのVPSは、登録したくない国内のウェブマスターにとって希少なリソースです。地理的...

多くのウェブサイトが含まれているのに、ランキングに載っていないのはなぜですか?

月収10万元の起業の夢を実現するミニプログラム起業支援プラン多くのウェブサイトは含まれていますが、ラ...

仮想マシンは理解するのが難しいと誰が言ったのでしょうか?では、簡単に理解してみましょう(JVM)

[[328100]] 1: JVMとは何か考えてみて下さい、JVM とは何でしょうか? JVM は何...

ソーシャルメディアマーケティングの利点

ソーシャル メディアの台頭は、近年のインターネットの発展傾向です。海外のFacebookやTwitt...