最新下载
热门教程
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
Python提取网页中的超链接地址方法
时间:2014-08-21 编辑:简简单单 来源:一聚教程网
最近正在学习Python,打算用作爬虫开发。既然要做爬虫,首先就要抓取网页,并且从网页中提取出超链接地址。
下面是最简单的实现方法,先将目标网页抓回来,然后通过正则匹配a标签中的href属性来获得超链接,代码如下:
代码如下 | 复制代码 |
import urllib2 url = 'http://www.111com.net/' req = urllib2.Request(url) links = re.findall(r'href\=\"(http\:\/\/[a-zA-Z0-9\.\/]+)\"', doc) |
如果抓取的111cn的内容他就会把所有的以http开头的连接地址全部提取出来了,其实就是获取当前页面的外链了。
-
上一个: PHP设计模式-单例模式学习笔记
相关文章
- PHP导出数据超时的优化建议解读 10-31
- PHP之mysql位运算解析 10-31
- Laravel实现登录跳转功能解析 10-31
- php双向队列解读 10-31
- Laravel异常上下文解决教程 10-24
- php数组查询元素位置方法介绍 10-24