"beautifulsoup" カテゴリのページ

Python: lxmlを使って高速にaタグを取得する方法

PythonでXML/HTMLをパースする場合、

 

  • SAXベースのlxml

の大きく2つが存在しています。

前者は以前このブログでも紹介していますので、ご覧下さい。DOMベースなので気軽にパース処理することができる反面、少々処理が重いです。

一方後者は、XPATHと呼ばれる問い合わせ言語(まぁ、SQLのようなもんです)をある程度理解する必要はありますが、メモリもそんなに使わず大変高速なため、phactoryではよく使っています。

今日はこのlxmlを使ってタグ抽出する方法を紹介します。

Python: BeautifulSoupで、HTML/XMLをらくらくパージング

BeautifulSoupとは、HTML/SGML/XMLをパージングするPythonライブラリです。 ネーミングにセンスを感じさせるこのライブラリは、実用として考えても大変有用なライブラリです。 これを使い始めると、ありとあらゆるHTML/XMLをいじり倒したくなります。

カテゴリー