BOOKING

2018年9月30日星期日

Python 正则表达式抓去页面中的URL链接

正则表达式抓去页面中的连接

import urllib2
import re
import urlparse


req= urllib2.urlopen("http://www.ttmeiju.vip/")
#print (req.read())

def get_address():
   
     p = re.compile("(?<=href=\"\/meiju\/).+?(?=\")|(?<=href=\').+?(?=\')")
     result = req.read()
     matchs = p.findall(result)
   
     for i in range(1,len(matchs)):
         
          target = urlparse.urljoin('http://www.ttmeiju.vip/meiju/',matchs[i])
          print (target)
          f = open("test.txt",'a')
          f.write(target+'\n')
          f.close()
         
get_address()

没有评论:

发表评论