semplice esempio che estrae l'indirizzo di tutte le immagini da un file html

   1 import HTMLParser
   2 
   3 class MioParser(HTMLParser.HTMLParser):
   4 
   5   def handle_starttag(self, tag, attrs):
   6     print "inizio TAG: <%s>" % tag
   7     #verifica tag <img>
   8     if tag=="img":
   9       attributi=dict(attrs)
  10       #l'indirizzo dell'immagine e' un attributo: <img src="...">
  11       print "Trovata immagine: URL da scaricare:",attributi["src"]
  12 
  13   def handle_endtag(self, tag):
  14     print "fine TAG: <%s>" % tag
  15 
  16 parser=MioParser()
  17 parser.feed(open('miofile.html').read())
  18 parser.close()

CookBook/ModuloHTMLParser (last edited 2008-02-01 08:15:40 by manzo)