Pythonで正規表現:キャレットの役割

正規表現ではキャレット(^)は特別な役割をしている。

  • 正規表現の先頭にキャレットがあるとそれは対象になる文字列の先頭でマッチングを検証することを意味する。
^abc

の正規表現では文字列abcdはマッチするが、dabcはマッチしない。

  • 文字クラス(角括弧で括られた文字の和集合、例[0-9abc]。この位置で和集合のどれかの文字であるとマッチする)の先頭にキャレットがあるとその補集合、つまりこの和集合のどの文字でもないとマッチすることを意味する。
[^0-9abc]

この正規表現ではこの和集合以外の文字であるとマッチする。

[^a]

これも有効な表現である。

  • この二つの位置以外ではキャレットは特別な意味を持たない。因みに
^a

は先頭の文字がaである文字列でマッチする。

^[^a]

は先頭の文字がa以外である文字列でマッチする。

Pythonで正規表現:先読みアサーション(再論)

具体的な例から考察しよう。ファイル名は基幹名(basename)と拡張子(extension)をドット(.)で区切って表現する。例えば、ファイル名abc.txtはabcが基幹名で、txtが拡張子である。

例えば多くのファイル名のマッチングのタスクで、特定の拡張子を持つファイル名をマッチングから外したいとする(例えば拡張子bat)。

この逆、つまり特定の拡張子を持つファイル名のみマッチングさせたいという処理は極めて簡単である。正規表現で書くと

.*[.]bat$

区別に関心のない基幹名(ドットを含めて)はドットで終わる任意の長さの任意の文字列とのマッチだから.*[.]となる。
この処理の逆、つまり特定の拡張子を持つファイル名をマッチングから除外しそれ以外の多くの拡張子を持つファイル名をマッチさせたいというのが本来のタスクである。このようなばあいに使えるのが「先読みアサーション」である。「先読みアサーション」には否定と肯定とがあるが、ここでは否定を使う。

パターンAパターンB

パターンAまでマッチングが進んだ時点でこれ以降がパターンBであるかどうかをその時点で検証し、であるとマッチングは失敗とする。ないとマッチングは継続する。問題に即して正規表現で書くと

.*[.](?!bat$)

先読みアサーション(否定)は(?!正規表現)と書く。この時点以降の文字列がこの正規表現とマッチするか検証する。それ以降で例えばbatchではマッチしない。rebatもマッチしない。マッチするものはbatのみである。これがマッチするとマッチング作業は失敗である。それがマッチしないと、後はなんの制限もなしにマッチさせればよいので最終的な正規表現は以下のようになる:

.*[.](?!bat$).*$

後読みアサーションというものもある。これも否定と肯定がある。この否定は(?<!..)と書く。例えば「ファイル名の基幹名がabc以外であるとマッチする」というような処理で使える。ファイルの基幹名がabc以外の全てのファイル名にマッチする正規表現は以下のようになる。

(?<!^abc)[.].*$

これは左からドットの位置まで探索を進め、そこで振り返って先頭からドットまでの間の文字列がabcであるとマッチングは失敗とする。それ以外では探査を右に進め通常のマッチングを続ける。この例では.*$となっているので文字列の最後まで任意の長さの任意の文字列がマッチされる。しかし結果としてマッチされる文字列は[.].*$の部分のみである。基幹名もマッチさせるには以下のようにする:

.*(?<!^abc)[.].*$

これで基幹名がabc以外の全てのファイル名がマッチされる。拡張子がなんであれ、基幹名がabcのファイル名はマッチに失敗する。

先読み(後読み)アサーションはこのように上手く使うと大変の便利な機能である。

 

サーン・ジャイアントは千年以上前の作品

これは最近のNewScientistの記事のタイトルである。

サーン・ジャイアントの画像

記事によればこの遺構の年代測定が始めて行われて予想に反して千年以上も古いものであることがわかったという。というのはこの遺構の最古の記録は300年ほど前であり、地元のサーン・アバス(Cerne Abbas)村の教会のものである。これ以前にはこの遺構の記録はない。

この遺構(像)はサーン・アバス村を見下ろす丘の側面に見えるもので、溝を掘りそこに白チョークを敷き詰めて創ったものである。

英国にはこのような遺構が三つある。他の二つはLong Man at Wilmingtonとアフィントン・ホワイト・ホース(Uffington White Horse)である。 Uffington White Horseは以前このブログでも取り上げたものであるが確実に先史時代のものである。

Pythonで正規表現:先読みアサーション

拡張子を持ったファイル名の全てにマッチした正規表現は簡単で


.*[.].*$

となる。

次に拡張子batを持つファイル名以外のファイル名の全てにマッチした正規表現を見てみよう。


.*[.]bat$

と書くと目的に反対に拡張子batを持つファイル名のみにマッチする正規表現になる。


.*[.]([^b]..|.[^a].|..[^t])$

と書くと拡張子の部分は「先頭の文字bがない三文字か、真ん中に文字bがない3文字か、末尾に文字tがない三文字か」のマッチ要求になりよさそうだ。しかし拡張子は三文字とは限らない。

もっとすっきりと表現できる正規表現がある。それが先読みアサーションである。詳細は正規表現 HOWTOにある。


.*[.](?!bat$)[^.]*$

ここで(?!..)は否定先読みアサーションと呼ばれる記述で、今のばあいこの記述位置に文字列bat$があるとマッチは失敗となる(つまり最後尾がbatなっていると失敗)。ないと先に進む。[^.]*$は最後尾から文字.を含まない任意の長さの文字列という意味である。

正規表現 HOWTOには「このパターンで [^.]* を使うことで、ファイル名に複数のドットがあったときにも上手くいくようになります。」とあるが意味不明である。例えば、abc.cd.exeのようなファイル名を考える。このばあいabc.cd.までが.*[.]によってマッチングがされ、[^.]*$によってexeをマッチングする。

 
.*[.]      abc.cd.
[^.*]$      exe

従って複数のドットを処理しているのは.*[.]の部分のように思える。

Pythonで正規表現:氏名

最後に残ったのが氏名行である。困ったことに氏名を特定する手掛りはほとんどなにもない。ここでは安直に残った行データが氏名行であるする。

全体を纏めると:

  • 最も規則が厳しい郵便番号行を始めに検出する。
  • 次に電話番号行を特定する。
  • その次に住所行を確定する。
  • 残った行データが氏名データである。

これらをLibreOfficeのマクロに組み込む。

【実行例】

LibreOffice・Calcの実行画面

このマクロはここにある。

Pythonで正規表現:住所

住所録の住所行の検出の問題である。

手掛りは住所特有な文字だろう。


#coding: utf-8
import re
msgs = ['仙台市泉区天神澤', \
        '山梨県東八代郡大沢町', \
        '東京都千代田区霞ヶ関', \
        '北海道小樽市小牧二丁目2-3', \
        '山県有朋',\
        '布施市介']
for i, msg in enumerate(msgs):
    ms = []
    m1 = re.search(r'都|道|府|県', msg)
    ms.append(m1)
    m2 = re.search(r'郡|市', msg)
    ms.append(m2)
    m3 = re.search(r'区|町|村|大字', msg)
    ms.append(m3)
    m4 = re.search(r'丁|番|号|字', msg)
    count = 0
    for m in ms:
        if bool(m):
            count+=1
    if count >= 2:
        
        print(msg, ' OK')
    else:
        print(msg, ' NG')

規模の大きさをグループにして探す。「都・道・府・県」という文字を含んでいること。次は「郡・市」、次は「区・町・村・大字」、最後は「丁・番・号・字」。プログラムではこれらのグループ化された文字を二ヶ所以上含んでいると住所としてしている。従って「山県有朋」や「布施市介」は住所でない。

Pythonで正規表現:電話番号

郵便番号については既に議論した。次は電話番号行を特定するための正規表現である。
電話番号行は
行の先頭が’電話’、’Tel’、’TEL’で始まる文字列の行(例:電話022-222-4444)。または0から9の半角数字、記号’-‘、記号'(‘、記号’)’の文字からのみなる文字列(例:022(222)2345や022-227-2345)とする。
この条件をPythonで書くと:


#coding: utf-8
import re
msgs = ['電話022-222-2222', 'Tel022-222-2345', 'TEL022-228-5678', \
        '022(2267)5678', '234-3456-4567', '456局345(65678)','34+456+4567']
for i, msg in enumerate(msgs):
    m1 = re.search(r'^電話|Tel|TEL', msg)
    #print(i, m1)
    m2 = re.search(r'[^0-9-()]', msg)
    #print(i, m2)
    if bool(m1) or not bool(m2):
        print(msg, ' OK')
    else:
        print(msg, ' NG')

m1は文の先頭に’電話’等の文字列があることを条件にしている。m2は当該の位置にない文字を指定している。つまり、0から9まで半角数字、記号’-‘、記号'(‘、記号’)’以外のものがあるとマッチする。文字列のどこかに該当する文字があるとマッチする1文字マッチの条件である。m2にはその文字が代入される。その文字列の最後まで探して該当する文字がないとm2はNoneになる。つまり、除外した文字のみでできている文字列であるかどうかを判定できる。

結果は
電話022-222-2222 OK
Tel022-222-2345 OK
TEL022-228-5678 OK
022(2267)5678 OK
234-3456-4567 OK
456局345(65678) NG
34+456+4567 NG
となる。

Pythonによる正規表現はここが詳しい。

内蔵の助(くらのすけ)谷と佐々成政(ささなるまさ)

黒部渓谷、岳、立山連峰周辺の地図を眺めていると「長次郎谷」、「源次郎尾根」、「作朗越」など人の名前に由来すると思われるものが地形の名前に使われていることがある。これらはこの周辺の山を案内した地元の案内人の名前であるが、「内蔵の助谷」と古風な名前の谷がある。これは現在の「黒四ダム」の少し下流で左岸に流れ込んでいる谷である。

この谷の名前は古風なはずで戦国時代の武将の名前に由来する。その武将は佐々内蔵之助成政という。天正12年(1584年)、越中を支配していた成政が越中から信州に出て、浜松まで行き家康に面会したとされるときに通過したルートが、「早月入りを伊折から大窓を越えて立山の東面に入り、内蔵の助平の岩窟で泊まり、内蔵の助谷を下った」という伝説があるという(「黒部渓谷」)。

Pythonで正規表現:郵便番号

ユーザ・インタフェースで難しいのは入力であると言われている。ここでは自由形式で入力した住所録のデータ(氏名・郵便番号・住所・電話番号)から、氏名、郵便番号、住所、電話番号の文字列を取り出すことを考えた。全くの自由であると処理方法が極めて複雑ななるので、ここではこれらの文字列はそれぞれ一行に書かれているとするが、氏名をはじめに書くときもあれば、郵便番号最初に書くばあいもある。問題は行毎に書かれている文字列を判定する作業である。

最も簡単なものは郵便番号行で「〒」(例:〒888-8888)ではじまる。または行末が「数字3文字-数字4文字」(例:888-8888)、または「数字7文字」(例:8888888)になっているという条件に合う行がそれであるとする。

このような条件に有った文字列を調べるには「正規表現」が便利である。このような正規表現をPythonで書くと以下のようになる:


#coding: utf-8
import re
msgs = ['〒123-4567', '123-4567',  '1234567', '123-45']
for i, msg in enumerate(msgs):
    m1 = re.search(r'^〒', msg)
    m2 = re.search(r'\d{3}\-\d{4}$', msg)
    m3 = re.search(r'\d{7}$', msg)
    if bool(m1) or bool(m2) or bool(m3):
        print(msg, ' OK')
    else:
        print(msg, 'NG')

結果は
〒123-4567 OK
123-4567 OK
1234567 OK
123-45 NG

となり、期待した結果がでる。

郵便番号行の検出が最も簡単である。次は電話番号行の検出、住所行の検出、氏名行の検出を考える。氏名行の検出が手掛りがなく最も困難であると思われる。

黒部渓谷の阿曽原(アゾハラ)

黒部渓谷の中流域に阿曽原(アゾハラ)という地名がある。この地名の由来について「黒部渓谷」(冠松次郎著)に記載があった。それによれば「湯の湧き出る熱いところ」の意味だそうだ。事実こに地域は黒部渓谷のなかでも最も湯が湧き出る量が多いところの一つで、熱湯が川に流れ込むところがいく筋があるという。

現在ではここには温泉山小屋があって「高熱隧道」(吉村昭著)で「胞雪崩」で倒壊した宿舎跡地にその温泉山小屋は建っている。