2010年1月8日金曜日

PythonでRSS

PythonでRSSを使うには以下の方法があります。一般的にはXMLパーサを使うか専用モジュールを使います。

  1. 正規表現(re)で取り出す
  2. XMLパーサ(ElementTree)でパース
  3. 専用モジュール(feedparser)

feedparserはeasy_installに対応しているので、以下のようにしてインストールできます。

>easy_install.exe feedparser

RSSには以下の種類があります。RSSはバージョン間の互換性がなく、またバージョン番号が大きい方が最新と言うわけでもありません。1.0と2.0がよく使われています。

  • RDF Site Summary(RSS 0.9, 1.0)
  • Rich Site Summary(RSS0.91)
  • Really Simple Syndication(RSS2.0)

feedparserは各バージョンの差異(例えば、日時を表すpubDateやDateなど)を吸収してくれます。

import feedparser
url = “http://pipes.yahoo.com/poolmmjp/ej_translation_api?_render=rss&text=python”
d = feedparser.parse(url)
for item in d[‘item’]:
    title = item.title
    desc = item.desc
    print title, ‘=’, desc

0 件のコメント:

コメントを投稿