- 作者: Ryan Mitchell,嶋田健志,黒川利明
- 出版社/メーカー: オライリージャパン
- 発売日: 2016/03/18
- メディア: 大型本
- この商品を含むブログ (2件) を見る
これこれ。
ざっと感想としては、自然言語処理以外はよかったかなーという印象。この本は英語のサイトを前提にしているので日本語のtipsとしては別の本や情報が必要かなと思った。
* 第Ⅰ部スクレイパーを作る * 1章 最初のWebスクレイパー * 2章 高度なHTMLパーシング * 3章 クローリングを開始する * 4章 APIを使う * 5章 データを格納する * 6章 文書を読む * 第Ⅱ部 高度なスクレイピング * 7章 汚れたデータをクリーニング * 8章 自然言語の読み書き * 9章 フォームとログインでクロール * 10章 JavaScriptのスクレイピング * 11章 画像処理とテキスト認識 * 12章 スクレイピングの落とし穴を避ける * 13章 Webサイトをスクレイパーでテストする * 14章リモートでスクレイピング
自分のこれまでのクローラーってネットの情報を適当にあさって作ってきたクローラーなので、本で勉強するのは初めてだった。なので第一部はエラーハンドリングなどが勉強になった。
後半のほうは実務や趣味で雑ながらやってきたことが多かったので真新しい情報はなかったかなという気持ち。あ、T○rのやつは闇っぽくてよかった(褒め言葉)
クローラーの基礎を勉強するなら良いと思う本でした。