用于 Python 的 RSS

来源: 作者: 2007-12-25 出处:pcdog.com

.net  access  python  xml  安全  
上一页 1 2 3 4 5 下一页 

  RSS.py

  Mark Nottingham 编写的 RSS.py 是用于 RSS 处理的一个 Python 库。它非常完善并且编写的很好。它需要 Python 2.2 和 PyXML 0.7.1。它的安装是非常简单;您只需从 Mark 的主页中下载 Python 文件并将它复制到您的 PYTHONPATH 中的某处。

  大多数 RSS.py 的用户本身只需要关心它所提供的两个类: CollectionChannel 和 TrackingChannel 。后者似乎是这两个类中更有用的一个。 TrackingChannel 是一个包含以每一项的关键字为索引的所有的 RSS 数据的数据结构。 CollectionChannel 是一个类似的数据结构,但它的结构更像 RSS 文档本身,它的顶层通道信息使用 URL 表示的散列值指向项细节。您很可能会使用 RSS.ns 结构中的实用程序名称空间声明。 清单 1是一个简单的脚本,它将下载并解析用于 Python 新闻的 RSS 供给,并以一个简单的清单形式打印来自各项的所有信息。

  清单 1:使用 RSS.py 的一个简单练习from RSS import ns, CollectionChannel, TrackingChannel
#Create a tracking channel, which is a data structure that
#Indexes RSS data by item URL
tc = TrackingChannel()
#Returns the RSSParser instance used, which can usually be ignored
tc.parse("http://www.python.org/channews.rdf")
RSS10_TITLE = (ns.rss10, 'title')
RSS10_DESC = (ns.rss10, 'description')
#You can also use tc.keys()
items = tc.listItems()
for item in items:
  #Each item is a (url, order_index) tuple
  url = item[0]
  print "RSS Item:", url
  #Get all the data for the item as a Python dictionary
  item_data = tc.getItem(item)
  print "Title:", item_data.get(RSS10_TITLE, "(none)")
  print "Description:", item_data.get(RSS10_DESC, "(none)")

  我们从创建一个 TrackingChannel 实例开始,并且将从 http://www.python.org/channews.rdf 上的 RSS 供给解析得到的数据填入其中。RSS.py 使用元组作为 RSS 数据的属性名称。对于那些不习惯 XML 处理技术的人来说,这种方式看上去也许不太寻常,但它对于精确了解原始的 RSS 文件中的内容的确是一种很有效的方式。因此,一个 RSS 0.91 title 元素被认为不同于一个 RSS 1.0 中的同名元素。应用程序有足够的数据来忽略这个差异,如果您愿意,可以通过忽略每个元组的名称空间的部分来忽略这个差异;但基本的 API 是与初始 RSS 文件的语法相结合的,所以这个信息没有丢失。在代码中,我们使用这个属性数据来聚集用于显示的新闻供给中的所有项。请注意,我们很仔细地不去假定任何特殊的项可能会有什么属性。我们使用如下代码所示的安全的形式来检索属性。


更多内容请看PCdog.com--Python编程  Python相关文章专题
上一页 1 2 3 4 5 下一页 
上一篇:可爱的 Python: 自然语言工具包入门
下一篇:Python Web 服务开发者: 第 1 部分