ITの隊長のブログ

ITの隊長のブログです。Pythonを使って仕事しています。最近は機械学習をさわりはじめたお(^ω^ = ^ω^)

MacやUbuntuでgrepでひらがな・カタカナ・漢字を検索する

スポンサードリンク

過去の記憶では下記のように実行するとうまくいった覚えがあるようなないような。。。

$ cat hogehoge.csv | grep -E '[ぁ-んァ-ン0-9]' | head
grep: Invalid collation character

しかし、Ubuntuで実行するとよくわからんエラーが。。。

で、色々探したり教えてもらった結果、-Pオプションを使ってあげるとうまくいくことがわかりました。その辺をメモ。

その前に、MacOSの場合はggrepをインストールしてください。自分はMacOSのデフォルトでインストールされているgrepを扱うことはできないです。

$ brew install ggrep
$ alias grep='ggrep'

ひらがな、カタカナ、漢字を検索する

-Pを使うことでPerlで使われているものと同じ正規表現(Perl正規表現)をつかえるようにするとのこと。

greymd.hatenablog.com

$ cat hogehoge.csv | grep -P '\p{Hiragana}' | head # ひらがな
$ cat hogehoge.csv | grep -P '\p{Katakana}' | head # カタカナ
$ cat hogehoge.csv | grep -P '\p{Han}' | head # 漢字

orebibou.com

これでうまくいきました!!!!ここ最近違うOSごとに使える正規表現で苦しめられていたから泣きそうになってた(´・ω・`)

とりあえずうまくいったのでよかった