Python 正则表达式抓去页面中的URL链接

2018年9月30日星期日

Python 正则表达式抓去页面中的URL链接

正则表达式抓去页面中的连接

import urllib2
import re
import urlparse

req= urllib2.urlopen("http://www.ttmeiju.vip/")
#print (req.read())

def get_address():

p = re.compile("(?<=href=\"\/meiju\/).+?(?=\")|(?<=href=\').+?(?=\')")
result = req.read()
matchs = p.findall(result)

for i in range(1,len(matchs)):

target = urlparse.urljoin('http://www.ttmeiju.vip/meiju/',matchs[i])
print (target)
f = open("test.txt",'a')
f.write(target+'\n')
f.close()

get_address()

没有评论:

发表评论

订阅：博文评论 (Atom)

MW.ZHANG | 锱铢人生路

BOOKING

2018年9月30日星期日

Python 正则表达式抓去页面中的URL链接

没有评论:

发表评论