PythonでXML/HTMLをパースする場合、
と
の大きく2つが存在しています。
前者は以前このブログでも紹介していますので、ご覧下さい。DOMベースなので気軽にパース処理することができる反面、少々処理が重いです。
一方後者は、XPATHと呼ばれる問い合わせ言語(まぁ、SQLのようなもんです)をある程度理解する必要はありますが、メモリもそんなに使わず大変高速なため、phactoryではよく使っています。
今日はこのlxmlを使ってタグ抽出する方法を紹介します。
BeautifulSoupとは、HTML/SGML/XMLをパージングするPythonライブラリです。
ネーミングにセンスを感じさせるこのライブラリは、実用として考えても大変有用なライブラリです。
これを使い始めると、ありとあらゆるHTML/XMLをいじり倒したくなります。