ITの隊長のブログ

ITの隊長のブログです。Pythonを使って仕事しています。最近は機械学習をさわりはじめたお(^ω^ = ^ω^)

読んだ「PythonによるWebスクレイピング」

スポンサードリンク

PythonによるWebスクレイピング

PythonによるWebスクレイピング

これこれ。

ざっと感想としては、自然言語処理以外はよかったかなーという印象。この本は英語のサイトを前提にしているので日本語のtipsとしては別の本や情報が必要かなと思った。

* 第Ⅰ部スクレイパーを作る
    * 1章 最初のWebスクレイパー
    * 2章 高度なHTMLパーシング
    * 3章 クローリングを開始する
    * 4章 APIを使う
    * 5章 データを格納する
    * 6章 文書を読む
* 第Ⅱ部 高度なスクレイピング
    * 7章    汚れたデータをクリーニング
    * 8章 自然言語の読み書き
    * 9章 フォームとログインでクロール
    * 10章 JavaScriptのスクレイピング
    * 11章 画像処理とテキスト認識
    * 12章 スクレイピングの落とし穴を避ける
    * 13章 Webサイトをスクレイパーでテストする
    * 14章リモートでスクレイピング

自分のこれまでのクローラーってネットの情報を適当にあさって作ってきたクローラーなので、本で勉強するのは初めてだった。なので第一部はエラーハンドリングなどが勉強になった。

後半のほうは実務や趣味で雑ながらやってきたことが多かったので真新しい情報はなかったかなという気持ち。あ、T○rのやつは闇っぽくてよかった(褒め言葉)

クローラーの基礎を勉強するなら良いと思う本でした。

今自分がほしいなと思う情報はクラウドを使った分散クローラーとか作りたいなーと思っていたので、別の情報や本を探さなきゃ。