大侠帮忙:一个模式匹配的问题

大侠帮忙:一个模式匹配的问题

a ='<p>吖<span lang=EN-US> ā [</span>吖嗪<span lang=EN-US>] (ā</span>q<span
lang=EN-US>í</span>n<span lang=EN-US>) '
a是类似以上的字符串,我要把其中 [</span>吖嗪<span lang=EN-US>] 变成 [吖嗪]
我的思路是:找出a中所有的[....]生成一个列表,然后去掉里面的html标记得到一个列表,然后将a中所有的[...]
替换成没有html的列表,得到的两个列表都没问题,就是替换中出来毛病,请高手指点!

[Copy to clipboard] [ - ]
CODE:
#将所有[]里面的内容读到s1里面

s1 = re.compile('\[[^\]]*\]',re.S|re.M).findall(a)
dd = []
for  x in s1:
    x1 = re.compile('\<[^\>]*\>',re.S|re.M).sub('',x)  #将[]内的html标记(<>里面的内容)去掉
    dd.append(x1)

这样得到了两个列表,其中s1是含有html标记的,dd是没有html标记的,我想把a里面所有的x1替换成dd

[Copy to clipboard] [ - ]
CODE:
ff = re.sub(s1[0],dd[0],a)
while i<len(s1):
    ff = re.sub(s1[i],dd[i],ff)
    print s1[i]
    print dd[i]
    i +=1
print ff

这种做法循环多次,不能达到目的,不知道这里该怎么替换?
因为s1, 和 dd 都是解析出来后的结果,那么它们应该不用再解析了。可以简单的使用replace

[Copy to clipboard] [ - ]
CODE:
for i in range(len(s1)):
    a = a.replace(s1[i], dd[i])
print a

或使用re.sub也可以,但要使用re.escape将特殊字符作一个处理,这样不会认为是正则表达式规则了,如:

[Copy to clipboard] [ - ]
CODE:
for i in range(len(s1)):
    a = re.sub(re.escape(s1[i]), dd[i], a)
print a

还可以在更简化,一次就做完:

[Copy to clipboard] [ - ]
CODE:
#coding=cp936
import re

a ='<p>吖<span lang=EN-US> ā [</span>吖嗪<span lang=EN-US>] (ā</span>q<span lang=EN-US>í</span>n<span lang=EN-US>) '

def do_sub(m):
    return re.sub(r'<.*?>', '', m.group())
a = re.sub(r'\[.*?\]', do_sub, a)
print a

只不过你的要求好象有问题。象[</span>这个</span>是与前一个<span>对应的。你把它去掉的话,就对应不上了。后面那个也是。

另外可以通过 .*? 这种方式来处理,使用r可以简化字符串的书写。下面是在python文档中的一段话,关于?的,可以参考一下:

QUOTE:
*?, +?, ??

The "*", "+", and "?" qualifiers are all greedy; they match as much text as possible. Sometimes this behaviour isn't desired; if the RE <.*> is matched against '<H1>title</H1>', it will match the entire string, and not just '<H1>'. Adding "?" after the qualifier makes it perform the match in non-greedy or minimal fashion; as few characters as possible will be matched. Using .*? in the previous expression will match only '<H1>'.

恩,先消化一下!
严重感谢limodou大侠,特别是那个.*?省了我不少事,谢谢!