英語読めないからはっきりとはわからんが、キャンプ地のレビューだったり、なにかポイントためたりすることができるっぽい。こんなサービスもあるのね
ビジネスモデルってなんじゃろと調べているがよくわからん。これ英語勉強する必要があるな。。。きになるサービス見つけても理解できないし意味ない。
はー、でも、キャンプ地の1週間の天気とか情報とか載っているのですごい。日本には対応していないっぽい。
こういうビジネスもあるのね。勉強になる。
英語読めないからはっきりとはわからんが、キャンプ地のレビューだったり、なにかポイントためたりすることができるっぽい。こんなサービスもあるのね
ビジネスモデルってなんじゃろと調べているがよくわからん。これ英語勉強する必要があるな。。。きになるサービス見つけても理解できないし意味ない。
はー、でも、キャンプ地の1週間の天気とか情報とか載っているのですごい。日本には対応していないっぽい。
こういうビジネスもあるのね。勉強になる。
先月ぐらいから自然言語処理頑張ろうとして入門っぽいTF-IDFをPythonから理解しようとしたけど使いどころわからんくて無事死亡。
今日は式から理解しようとしてやってみた。
やさしく学ぶ 機械学習を理解するための数学のきほん ~アヤノ&ミオと一緒に学ぶ 機械学習の理論と数学、実装まで~
ぐぐってもいいけど、この本もっていたので軽く理解。
Python機械学習プログラミング 達人データサイエンティストによる理論と実践 (impress top gear)
※tf-idfって書きたいのにハイフンが引き算になるのでつらい
tf
はあるドキュメントd
の単語の出現頻度idf
は逆文章頻度df(t, d)
は単語t
を含んでいるドキュメントd
の個数を表す。分母の1
はdf
が0の場合ゼロ除算を防ぐためscikit-learnに実装されている式は下記らしい
tfidfはこちら
d
で出現頻度が大きいt
は重要である可能性が高いd
に存在する単語t
は、1つの文章の特徴としてはなりづらくしよう -> idfってな感じかな
idf
は分母と分子が同じだと1になり、対数で計算すると0になるので、値は小さくなる(はず
なるほど。
from sklearn.feature_extraction.text import TfidfVectorizer import pandas as pd # 形態素解析した文章毎の半角スペース区切りの単語 # surfaces = [['映画 エイリアン レビュー あらすじ'], ...] vectorizer = TfidfVectorizer() x = vectorizer.fit_transform(surfaces) # ベクトル器から単語リストを取得 terms = vectorizer.get_feature_names() # 全単語数が確認できる print(len(terms)) # 文章毎に単語のベクトルを取得 vec_matrix = x.toarray() # (全文章数, 全単語数)のベクトル # vec_matrix.shape # tfidf値が0より大きいものだけ取得する words = [] for doc in range(len(surfaces)): feature_index = x.toarray()[doc, :].nonzero()[0] tfidf_scores = zip(feature_index, [vec_matrix[doc, x] for x in feature_index]) for w, s in [(terms[i], s) for (i, s) in tfidf_scores]: words.append(w) # 単語のカウント word_dict = {} for w in words: if w in word_dict.keys(): word_dict[w] += 1 else: word_dict[w] = 1 word_df = pd.DataFrame([[k, v] for k, v in word_dict.items()], columns=['word', 'count']) word_df.head()
これで重要そうな単語を確認することができる?
(ちなみにこれを実装したときに確認した単語リストは前処理が甘くjs,css,htmlのタグ名が多く上がっていた。。。orz)
これこれ。
ざっと感想としては、自然言語処理以外はよかったかなーという印象。この本は英語のサイトを前提にしているので日本語のtipsとしては別の本や情報が必要かなと思った。
* 第Ⅰ部スクレイパーを作る * 1章 最初のWebスクレイパー * 2章 高度なHTMLパーシング * 3章 クローリングを開始する * 4章 APIを使う * 5章 データを格納する * 6章 文書を読む * 第Ⅱ部 高度なスクレイピング * 7章 汚れたデータをクリーニング * 8章 自然言語の読み書き * 9章 フォームとログインでクロール * 10章 JavaScriptのスクレイピング * 11章 画像処理とテキスト認識 * 12章 スクレイピングの落とし穴を避ける * 13章 Webサイトをスクレイパーでテストする * 14章リモートでスクレイピング
自分のこれまでのクローラーってネットの情報を適当にあさって作ってきたクローラーなので、本で勉強するのは初めてだった。なので第一部はエラーハンドリングなどが勉強になった。
後半のほうは実務や趣味で雑ながらやってきたことが多かったので真新しい情報はなかったかなという気持ち。あ、T○rのやつは闇っぽくてよかった(褒め言葉)
クローラーの基礎を勉強するなら良いと思う本でした。
おもろい。ニューヨーク市でしか利用できないのかな? 多分実験しているんだろうと思う。
近くで事件が発生したら、アプリで通知され、ユーザーはそれを確認し行動に移すことができる。
日本だとどうなるんかな。万引き犯とかコンビニ間だけでも連携できそう。
面白い!って思ったサービスの紹介をやろうと思った。
一番はビジネスモデルの情報収集を習慣にするため。本当は気になるものだけをやりたいけど、それじゃ自分のスコープ外は追えないと思うので、適当に気になった、得た情報を書いてく。
目標はビジネスを理解したい。
はい。ってことでやる。
日本のスタートアップでぐぐったら出てきたサービス。
動画みたけど、aws紹介動画まで簡単ではないが、よくできていると思う。
企業分析が大体7日かかる作業をこのサービスを使えば、1時間で終わりますよ。ってのが売りっぽい。
それにより、作業コスト、人件費を抑えることができますよ。ということらしい。
そもそもそういう情報ってどうやって集めてるんじゃろ?
資料請求、一旦トライアルで登録しないとUIは判断できないけど売りっぽいので多分いい感じなのかな?
よくわからんが、サイトだけ見るに、経営・営業企画での活用ができるとのこと。
ふーむ。そういう人たちには便利なのかね