正则表达式抓去页面中的连接
import urllib2
import re
import urlparse
req= urllib2.urlopen("http://www.ttmeiju.vip/")
#print (req.read())
def get_address():
p = re.compile("(?<=href=\"\/meiju\/).+?(?=\")|(?<=href=\').+?(?=\')")
result = req.read()
matchs = p.findall(result)
for i in range(1,len(matchs)):
target = urlparse.urljoin('http://www.ttmeiju.vip/meiju/',matchs[i])
print (target)
f = open("test.txt",'a')
f.write(target+'\n')
f.close()
get_address()
没有评论:
发表评论