2018-10-08

bs4でscript,style,commentタグを除去する

Python

from bs4 import BeautifulSoup, Comment


def preprocessing(soup):
    # コメントタグの除去
    for comment in soup(text=lambda x: isinstance(x, Comment)):
        comment.extract()

    # scriptタグの除去
    for script in soup.find_all('script', src=False):
        script.decompose()

    # styleタグの除去
    for style in soup.find_all('style', src=False):
        style.decompose()

    return soup

soup = BeautifulSoup(html, 'lxml')
soup2 = preprocessing(soup)

便利。素晴らしい。

消したいタグはxxx.decompose()で除去できると思う。

2018-10-08

アウトドア用のSNS？「The dyrt」

ビジネス

thedyrt.com

英語読めないからはっきりとはわからんが、キャンプ地のレビューだったり、なにかポイントためたりすることができるっぽい。こんなサービスもあるのね

ビジネスモデルってなんじゃろと調べているがよくわからん。これ英語勉強する必要があるな。。。きになるサービス見つけても理解できないし意味ない。

はー、でも、キャンプ地の１週間の天気とか情報とか載っているのですごい。日本には対応していないっぽい。

こういうビジネスもあるのね。勉強になる。

2018-10-08

TF-IDFを理解しようと頑張った

Python 機械学習

先月ぐらいから自然言語処理頑張ろうとして入門っぽいTF-IDFをPythonから理解しようとしたけど使いどころわからんくて無事死亡。

今日は式から理解しようとしてやってみた。

対数がわからん

やさしく学ぶ機械学習を理解するための数学のきほん ~アヤノ&ミオと一緒に学ぶ機械学習の理論と数学、実装まで~

作者: LINE Fukuoka株式会社立石賢吾
出版社/メーカー: マイナビ出版
発売日: 2017/09/21
メディア: 単行本（ソフトカバー）
この商品を含むブログ (2件) を見る

ぐぐってもいいけど、この本もっていたので軽く理解。

式がわからん

Python機械学習プログラミング達人データサイエンティストによる理論と実践 (impress top gear)

作者: Sebastian Raschka,株式会社クイープ,福島真太朗
出版社/メーカー: インプレス
発売日: 2016/06/30
メディア: 単行本（ソフトカバー）
この商品を含むブログ (4件) を見る

$tfidf(t, d) = tf(t, d) \times idf(t, d)$

※tf-idfって書きたいのにハイフンが引き算になるのでつらい

tfはあるドキュメントdの単語の出現頻度
idfは逆文章頻度

$idf(t,d) = \log \frac{n_{d}}{1 + df(t, d)}$

$n_{d}$ はドキュメントの総数
df(t, d)は単語tを含んでいるドキュメントdの個数を表す。分母の1はdfが0の場合ゼロ除算を防ぐため

scikit-learnに実装されている式は下記らしい

$idf(t, d) = \log \frac{1 + n_{d}}{1 +df(t, d)}$

tfidfはこちら

$tfidf(t, d) = tf(t, d) \times (idf(t, d) + 1)$

ある文章dで出現頻度が大きいtは重要である可能性が高い
しかし、とある文章を感情分析したい場合、肯定的、否定的な文章どちらにも同じ単語が出現することはよくある
そこで多くの文章中dに存在する単語tは、１つの文章の特徴としてはなりづらくしよう -> idf

ってな感じかな

idfは分母と分子が同じだと1になり、対数で計算すると0になるので、値は小さくなる（はず

なるほど。

scikit-learnで試す

from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

# 形態素解析した文章毎の半角スペース区切りの単語
# surfaces = [['映画 エイリアン レビュー あらすじ'], ...]

vectorizer = TfidfVectorizer()
x = vectorizer.fit_transform(surfaces)

# ベクトル器から単語リストを取得
terms = vectorizer.get_feature_names()

# 全単語数が確認できる
print(len(terms))

# 文章毎に単語のベクトルを取得
vec_matrix = x.toarray()

# (全文章数, 全単語数)のベクトル
# vec_matrix.shape

# tfidf値が0より大きいものだけ取得する
words = []
for doc in range(len(surfaces)):
    feature_index = x.toarray()[doc, :].nonzero()[0]
    tfidf_scores = zip(feature_index, [vec_matrix[doc, x] for x in feature_index])
    for w, s in [(terms[i], s) for (i, s) in tfidf_scores]:
        words.append(w)

# 単語のカウント
word_dict = {}
for w in words:
    if w in word_dict.keys():
        word_dict[w] += 1
    else:
        word_dict[w] = 1

word_df = pd.DataFrame([[k, v] for k, v in word_dict.items()], columns=['word', 'count'])
word_df.head()

これで重要そうな単語を確認することができる？

（ちなみにこれを実装したときに確認した単語リストは前処理が甘くjs,css,htmlのタグ名が多く上がっていた。。。orz）

2018-10-07

読んだ「PythonによるWebスクレイピング」

書評

PythonによるWebスクレイピング

作者: Ryan Mitchell,嶋田健志,黒川利明
出版社/メーカー: オライリージャパン
発売日: 2016/03/18
メディア: 大型本
この商品を含むブログ (2件) を見る

これこれ。

ざっと感想としては、自然言語処理以外はよかったかなーという印象。この本は英語のサイトを前提にしているので日本語のtipsとしては別の本や情報が必要かなと思った。

* 第Ⅰ部スクレイパーを作る
    * 1章　最初のWebスクレイパー
    * 2章　高度なHTMLパーシング
    * 3章　クローリングを開始する
    * 4章　APIを使う
    * 5章　データを格納する
    * 6章　文書を読む
* 第Ⅱ部　高度なスクレイピング
    * 7章    汚れたデータをクリーニング
    * 8章　自然言語の読み書き
    * 9章　フォームとログインでクロール
    * 10章　JavaScriptのスクレイピング
    * 11章　画像処理とテキスト認識
    * 12章　スクレイピングの落とし穴を避ける
    * 13章　Webサイトをスクレイパーでテストする
    * 14章リモートでスクレイピング

自分のこれまでのクローラーってネットの情報を適当にあさって作ってきたクローラーなので、本で勉強するのは初めてだった。なので第一部はエラーハンドリングなどが勉強になった。

後半のほうは実務や趣味で雑ながらやってきたことが多かったので真新しい情報はなかったかなという気持ち。あ、T○rのやつは闇っぽくてよかった（褒め言葉）

クローラーの基礎を勉強するなら良いと思う本でした。

今自分がほしいなと思う情報はクラウドを使った分散クローラーとか作りたいなーと思っていたので、別の情報や本を探さなきゃ。

2018-10-07

リアルタイム犯罪通知アプリ「Citizen」

ビジネス

www.citizen.com

おもろい。ニューヨーク市でしか利用できないのかな？多分実験しているんだろうと思う。

近くで事件が発生したら、アプリで通知され、ユーザーはそれを確認し行動に移すことができる。

日本だとどうなるんかな。万引き犯とかコンビニ間だけでも連携できそう。

ITの隊長のブログ

ITの隊長のブログです。Rubyを使って仕事しています。最近も色々やっているお（^ω^ = ^ω^）

bs4でscript,style,commentタグを除去する

アウトドア用のSNS？「The dyrt」

TF-IDFを理解しようと頑張った

対数がわからん

式がわからん

scikit-learnで試す

読んだ「PythonによるWebスクレイピング」

リアルタイム犯罪通知アプリ「Citizen」