2010年1月1日金曜日

全角・半角や機種依存文字の変換

全角・半角や機種依存文字を変換して統一したい場合は以下のようにします。機種依存文字も変換してくれますが、マイナス記号「ー」、長音「ー」、波ダッシュ「~」など対応していないものもあります。

>>>import unicodedata
>>>s = u’アイウ123’
>>>print unicodedata.normalize(‘NFKC’, s)
アイウ123

NFKCはテキスト正規化処理方法の指定。NFKCの他にNFC,NFDの3種類がある。

 

0 件のコメント:

コメントを投稿