请教用正则表达式解析html

fox

UID: 10534
帖子: 106
积分: 243
在线时间: 15 小时

1^# fox 发表于 2008-03-11 20:03

请教用正则表达式解析html

请教如何用正则表达式解析html里的文本
原文是Perl Unicode Regular Expression 
存在data中
使用re=data[/.[^<]*/x]
puts "#{re}"
结果是Perl Unicode Regular Expression
首部的<>没有拆掉！
请高手指教

workingbird

UID: 25292
帖子: 1
积分: 2
在线时间: 10 分钟

2^# workingbird 发表于 2008-03-11 20:41

Ruby的正则表达式还没有开始学。
在C＃里面，这个正则表达式应该可以这样写。
reg = @" (<[^>]*>)*(?<myInnerText>[^<]*)(<[^>]*>)*

希望对你有所启发。

martin

UID: 13584
帖子: 173
积分: 397
在线时间: 1 天 17 小时

3^# martin 发表于 2008-03-12 09:54

引用:

原帖由 fox 于 2008-3-11 20:03 发表
请教如何用正则表达式解析html里的文本
原文是Perl Unicode Regular Expression
存在data中
使用re=data[/.[^