python正则表达式：提取网页中的img链接。

metaphy

UID: 4732
帖子: 1
积分: 2
在线时间: 10 分钟

1^# metaphy 发表于 2007-04-03 15:45

python正则表达式：提取网页中的img链接。

<IMG alt="新宝来HS五彩上市" src="http://autopic.sohu.com/auto_images/piclib/76/79/Img1147976_small.JPG" border=0 class=img></A></TD></TR>

我想把网页中的img链接取出来。具体：
匹配<img 或<IMG 开头的，然后中间有其他字符，然后有个src=" ，最后以.jpg 或 .JPG结尾

我是这样写的：
regx = r"""<IMG\s*src\s*="?(\S+)"?"""
matchs = re.search(regx,line)
if matchs!=None:
      allGroups = matchs.groups()
      for img in allGroups:
         print img

有3个问题：
1.为什么我取出来的后面有个" 引号？
2.为什么不能匹配小写的<img  ?
3.为什么<img 　和 src 中间有字符就取不出来了？

ocean390

UID: 13725
帖子: 3
积分: 6
在线时间: 10 分钟

2^# ocean390 发表于 2007-04-03 17:35

1.因为匹配是从左向右的，而且是贪婪的，(\S+)会把引号吃进去。
2.要使表达式不区分大小写，要添加一个标志。
3.\s*只能匹配空白字符，所一img和src有字符的时候取不出来。

phpbird

UID: 19263
帖子: 20
积分: 46
在线时间: 10 分钟

3^# phpbird 发表于 2007-04-04 23:56

建议用htmlparser

ghostwwl

UID: 5349
帖子: 12
积分: 27
在线时间: 10 分钟

4^# ghostwwl 发表于 2007-04-05 14:53

python有一个专门调试 python正则的工具你找找看
我写正则一直都用那个调试

metaphy

UID: 4732
帖子: 1
积分: 2
在线时间: 10 分钟

5^# metaphy 发表于 2007-04-09 14:53

楼上的，是个什么工具？

zysno1

UID: 16944
帖子: 5
积分: 11
在线时间: 10 分钟

6^# zysno1 发表于 2007-05-11 14:19

一个python的正则测试器，叫kodos。你可以去看看。我一直用这个。