【Udemy】「PythonによるWebスクレイピング」でスクレイピングを勉強した

Pythonでwebスクレイピング
Pythonでwebスクレイピング
Python

こんにちは

悟です。(@rxf7oqjSU4v473O

今回はオンライン学習プラットフォームのUdemyにて、PythonによるWebスクレイピング入門 〜業務効率化への第一歩〜 を受けたので、プログラミングど素人なりの感想を書いていきます。

この講座をおすすめできる人

Webスクレイピングに興味のある人

毎日同じサイトにアクセスして情報を入手している人

pythonでデータ分析をしてみたい人

Webスクレイピングとは?

Webスクレイピングはブラウザ上の情報を自動で抽出しそれを加工するまでの手法を言います。

具体例
  • 株価のスクレイピングし、値上がり状況などをチェックする。
  • オークションの価格をスクレイピングし、欲しい商品や売りたい商品の市場を確認する。

スクレイピングでは一度に大量の情報を得られるメリットがありますが、スクレイピングが禁止されているサイトや、サイトのHTML構造の影響を受けたりするので注意が必要です。

自分で運用していくためにはこのあたりの知識が必要になりますが、とりあえず「人力では取得しきれない膨大なデータを取得し分析することができる」

この講義の内容

講座の内容を簡単にまとめているので、受講の際に参考にしてください。

環境構築

利用するサイトは、講師である○○先生が用意したローカルサイトをしようします。

もしwebデザインやローカル環境を構築できる人であれば、自分でローカルサイトを作ってみて、いろいろ試してみるのもいいかもしれません。

スクレイピングに使用するライブラリはSeleniumです。

他にスクレイピングができるものにBeautifulSoupがありますが、この講義では利用しません。

サイトへの自動ログイン

パスワード付きのサイトに対して自動でログインできるようになります。

テキストデータの自動抽出

web上の場所を指定して、テキストを取得します。

また、まとめて取得した後、CSV形式に出力する方法も学ぶため、ここまでできればExcel上での分析も可能になります。

ランキングサイトからのデータ抽出

ローカルサイトを使って、様々な情報を取得します。

画像の抽出

PythonライブラリのPillowを使って画像を取得する方法を学びます。

感想

 良かった点

  • Pythonでwebブラウザを起動させたり、初心者に優しい学習手順だった
  • スクレイピングからデータの整形まで一通り学ぶことができる

悪かった点

  • メジャーなスクレイピング用ライブラリ「Beautifulsoup」を学べない
  • HTMLやCSSの知識が必要
  • あくまで、「第一歩」なので、アプリ化などはできない

webを触る機能を作るときは、たいていの場合HTMLやCSSの知識が必要なのでさほどマイナスというわけではないです。

しかし、「Beautifulsoup」について学べないのはマイナス点かなと思います。

Pythonのスクレイピングといえば、Beautifulsoupがメジャーなので、スクレイピング用のライブラリを使えないのは少し残念でした。

総評

この講義についてまとめると、あくまでも「スクレイピングの第一歩」であり、今後深い学習をするための足掛かり的なものになります。

Python初心者の私にとっては、ブラウザの起動がたった1行でできたり、数行で大量のデータを処理できるのは感動モノでした。

講義時間が少々短いですが、他に応用可能な内容ばかりだったので、スクレイピングについて学ぶことができるのではないかと思います。