シリーズの第3回。
前回は、われわれ日本人が使いがちな文字種の分別はどうすればいいのかについてまとめてみた。
イジハピ! : 【第578回】UnicodeプロパティとPerl正規表現(その2:\d、\w、\sの範囲と/a修飾子(超便利!))
結果はこんな感じだった。
・全角ひらがな [\p{Hiragana}・ー゠]か[ぁ-ん・ー゠] // カッコや丸で囲まれたひらがなは考慮していません
・全角カタカナ [\p{InKatakana}・ー゠]か[ァ-ン・ー゠] // カッコや丸で囲まれたカタカナは考慮していません
・漢字 \p{Han}か[\{Han}\x{3220}-\x{3244}\x{3280}-\x{32B0}] // 後ろの方はカッコや丸で囲まれた漢字を考慮しています
・半角カタカナ [ヲ-゚]か[。-゚]
・半角英数字 \wただし修飾子/aを使う(アンダースコアが入ることに注意)
・半角英字 \p{PosixAlpha}か[a-zA-Z]
・半角数字 \dただし修飾子/aを使う(アンダースコアが入らないことに注意)
・半角空白文字 \sただし修飾子/aを使う
でもなんだか、覚えることが多くて結局バッドノウハウという気がする。
特に上半分の方、もう少しスッキリ書けないだろうか。
続きを読む
前回は、われわれ日本人が使いがちな文字種の分別はどうすればいいのかについてまとめてみた。
イジハピ! : 【第578回】UnicodeプロパティとPerl正規表現(その2:\d、\w、\sの範囲と/a修飾子(超便利!))
結果はこんな感じだった。
・全角ひらがな [\p{Hiragana}・ー゠]か[ぁ-ん・ー゠] // カッコや丸で囲まれたひらがなは考慮していません
・全角カタカナ [\p{InKatakana}・ー゠]か[ァ-ン・ー゠] // カッコや丸で囲まれたカタカナは考慮していません
・漢字 \p{Han}か[\{Han}\x{3220}-\x{3244}\x{3280}-\x{32B0}] // 後ろの方はカッコや丸で囲まれた漢字を考慮しています
・半角カタカナ [ヲ-゚]か[。-゚]
・半角英数字 \wただし修飾子/aを使う(アンダースコアが入ることに注意)
・半角英字 \p{PosixAlpha}か[a-zA-Z]
・半角数字 \dただし修飾子/aを使う(アンダースコアが入らないことに注意)
・半角空白文字 \sただし修飾子/aを使う
でもなんだか、覚えることが多くて結局バッドノウハウという気がする。
特に上半分の方、もう少しスッキリ書けないだろうか。
続きを読む