为什么老是匹配不到？

newbuding

UID: 26757
帖子: 1
积分: 2
在线时间: 10 分钟

1^# newbuding 发表于 2006-10-11 20:03

为什么老是匹配不到？

正在打算改进百度mp3的下载程序，但找到某个歌曲的列表的时候进行连接匹配，

[Copy to clipboard] [ - ]

CODE:

link_a_re=re.compile('<a [^>]*>.*</a>$').search(j)

总是匹配不到！

在python的提示符下面测试可以通过，用vim测试也能找到，可从网上抓下来的html怎么就不行呢？

怀疑是文件格式的问题(dos,unix)，但无法解决，高人赐教！

ttvast

UID: 15420
帖子: 51
积分: 117
在线时间: 3 小时

2^# ttvast 发表于 2006-10-11 21:23

老弟，后面加$干什么啊，难道</a>这个东西一定要在行末吗？

newbuding

UID: 26757
帖子: 1
积分: 2
在线时间: 10 分钟

3^# newbuding 发表于 2006-10-11 23:02

是的，匹配</a>在行末的字符串

limodou

UID: 17491
帖子: 110
积分: 252
在线时间: 16 小时

4^# limodou 发表于 2006-10-12 08:35

因为你的.*是一种“贪婪”模式，改为.*?试试。

Leacen

UID: 34475
帖子: 175
积分: 402
在线时间: 1 天 18 小时

5^# Leacen 发表于 2006-10-12 08:49

re.findall("http://mp3.baidu.com/m?.*\+.*\",j)
试试

newbuding

UID: 26757
帖子: 1
积分: 2
在线时间: 10 分钟

6^# newbuding 发表于 2006-10-12 10:37

QUOTE:

原帖由 limodou 于 2006-10-12 08:35 发表
因为你的.*是一种“贪婪”模式，改为.*?试试。

已经改为

[Copy to clipboard] [ - ]

CODE:

link_a_re=re.compile('<a [^>]*>.*?</a>$').search(j)

但是仍然不能匹配

详细一点的说
比方说我已经找到歌曲目录的url：
http://mp3.baidu.com/m?tn=baidump3&ct=134217728&lm=-1&li=500&word=%C7%A7%C0%EF%D6%AE%CD%E2+%D6%DC%BD%DC%C2%D7

用urllib模块抓下来进行匹配

[Copy to clipboard] [ - ]

CODE:

mp3samesonghtml=urllib.urlopen(i).readlines()
for i in mp3samesonghtml:
  #匹配一个</a>在末尾的行
  link_a_re=re.compile('<a [^>]*>.*?</a>$').search(i)
  if link_a_re:
print i[link_a_re.start():link_a_re.end()]

结果是无输出

limodou

UID: 17491
帖子: 110
积分: 252
在线时间: 16 小时

7^# limodou 发表于 2006-10-12 11:03

你上面的正则式没有分组，等于全匹配上了。你加上分组()，然后使用groups()得到一个list，选择你要的结果就行了。