大侠帮忙:一个模式匹配的问题

tikico

UID: 30600
帖子: 23
积分: 52
在线时间: 10 分钟

1^# tikico 发表于 2006-03-21 23:51

大侠帮忙:一个模式匹配的问题

a ='吖 ā [吖嗪] (āｑíｎ) '
a是类似以上的字符串，我要把其中 [吖嗪] 变成 [吖嗪]
我的思路是：找出a中所有的[....]生成一个列表，然后去掉里面的html标记得到一个列表，然后将a中所有的[...]
替换成没有html的列表，得到的两个列表都没问题，就是替换中出来毛病，请高手指点！

[Copy to clipboard] [ - ]

CODE:

#将所有[]里面的内容读到s1里面

s1 = re.compile('\[[^\]]*\]',re.S|re.M).findall(a)
dd = []
for x in s1:
x1 = re.compile('\<[^\>]*\>',re.S|re.M).sub('',x) #将[]内的html标记（<>里面的内容）去掉
dd.append(x1)

这样得到了两个列表，其中s1是含有html标记的，dd是没有html标记的，我想把a里面所有的x1替换成dd

[Copy to clipboard] [ - ]

CODE:

ff = re.sub(s1[0],dd[0],a)
while i<len(s1):
ff = re.sub(s1[i],dd[i],ff)
print s1[i]
print dd[i]
i +=1
print ff

这种做法循环多次，不能达到目的，不知道这里该怎么替换？

limodou

UID: 17491
帖子: 110
积分: 252
在线时间: 16 小时

2^# limodou 发表于 2006-03-22 09:47

因为s1, 和 dd 都是解析出来后的结果，那么它们应该不用再解析了。可以简单的使用replace

[Copy to clipboard] [ - ]

CODE:

for i in range(len(s1)):
a = a.replace(s1[i], dd[i])
print a

或使用re.sub也可以，但要使用re.escape将特殊字符作一个处理，这样不会认为是正则表达式规则了，如：

[Copy to clipboard] [ - ]

CODE:

for i in range(len(s1)):
a = re.sub(re.escape(s1[i]), dd[i], a)
print a

还可以在更简化，一次就做完：

[Copy to clipboard] [ - ]

CODE:

#coding=cp936
import re

a ='吖 ā [吖嗪] (āｑíｎ) '

def do_sub(m):
return re.sub(r'<.*?>', '', m.group())
a = re.sub(r'\[.*?\]', do_sub, a)
print a

只不过你的要求好象有问题。象[这个是与前一个对应的。你把它去掉的话，就对应不上了。后面那个也是。

另外可以通过 .*? 这种方式来处理，使用r可以简化字符串的书写。下面是在python文档中的一段话，关于?的，可以参考一下：

QUOTE:

*?, +?, ??

The "*", "+", and "?" qualifiers are all greedy; they match as much text as possible. Sometimes this behaviour isn't desired; if the RE <.*> is matched against '<H1>title</H1>', it will match the entire string, and not just '<H1>'. Adding "?" after the qualifier makes it perform the match in non-greedy or minimal fashion; as few characters as possible will be matched. Using .*? in the previous expression will match only '<H1>'.

tikico

UID: 30600
帖子: 23
积分: 52
在线时间: 10 分钟

3^# tikico 发表于 2006-03-22 10:54

恩，先消化一下！

tikico

UID: 30600
帖子: 23
积分: 52
在线时间: 10 分钟

4^# tikico 发表于 2006-03-22 11:06

严重感谢limodou大侠，特别是那个.*?省了我不少事，谢谢！