使用正则表达式解析的初步体会(固定格式网页解析)

2016-01-29 13:24 12 1 收藏

使用正则表达式解析的初步体会(固定格式网页解析),使用正则表达式解析的初步体会(固定格式网页解析)

【 tulaoshi.com - ASP.NET 】

用IE WebControl解析网页得到特定网页中的特定数据：
Set oDocument = Form2.m_IE.Document
Set oelement = oDocument.Forms("searchdetail")
Set oListTableElement = oelement.children(0).children(0)
这样的好处是简单，但坏处是：如何读取以及节点值究竟是什么含意这些信息，不太好抽取出来放到外面，作为灵活配置的文件。
因为它属于一个Childnodes一个Childnodes这么遍历的，无法灵活设定深度以及含义。
又体验了一把正则表达式，专门处理了北京式门户的站点HTML，由于北京式门户的12个省总排行榜页面中总包含这样的固定代码：

发现下面的式子可以把一系列值解析到一个又一个的MatchCollection中。
我用的是"The Regulator"工具，试验结果如下：
也就是Collection“hiddentonenames”总是XX名的集合，按序排列；
Collection“hiddenspnames”总是XX名的集合，按序排列；
Collection“hiddensingers”总是XX名的集合，按序排列；
以此类推。
在C#中，可以用如下代码得到各个集合的值：
foreach(Match match in matchCollection)
{
Group groupToneNames = match.Groups["hiddentonenames"];
Group groupSpNames = match.Groups["hiddenspnames"];
Group groupSingers = match.Groups["hiddensingers"];
}
这样，我可以针对这各种门派的Portal风格写出专门的正则表达式，但让他们输出的Collections名字都是一样的，从而让获取

一个铃声的各个字段的代码固定下来。
以后更新，只需要修改各个门派的正则表达式即可。
感谢王辉的《Web页面爬行实践》精彩文章！

来源:http://www.tulaoshi.com/n/20160129/1490076.html

上一篇： .NET策略是如何创建起来的
下一篇：《仙境传说奥德赛》白金攻略【巴士速攻】

看过《使用正则表达式解析的初步体会(固定格式网页解析)》的人还看了以下文章更多>>

正则表达式的使用 ASP

标签： Web开发

代码如下： % ' -------------------------------------------------------------- ' Match 对象 ' 匹配搜索的结果是存放在 Match 对象中，提供了对正则表达式匹配的只读属性的访问。 ' Match 对象只能通过 RegExp 对象的 Execute 方法来创建，该方法实际上返回了 Match 对象的集合。 ' 所有的 Match 对象属性都是只读的。在执行正则表...

Javascript正则表达式测试网页

标签： Web开发

你平时如何测试正则表达式？直接写在大段的代码中，然后等待程序运行到那里，再用alert显示结果？或者是临时写一个页面，测试完成后把它丢掉？你可以试一下我这个页面，虽然它很粗糙，但是测试正则表达式也足够了:)) 一、说明： 1. 我的本意为交流技术．本人水平很菜．因此所贴出的代码中，会有不足之处． 2. 代码可任意修改．如果你...

正则表达式的语法

标签： Web开发

正则表达式的功能实在太强大了~以下为找到的一个关于正则表达式基本语法的介绍：首先让我们看两个特殊的符号'^'和'$'。他们的作用是分别指出一个字符串的开始和结束。例子如下： "^The"：表示所有以"The"开始的字符串（"There"，"The cat"等）； "of despair$"：表示所以以"of despair"结尾的字符串； "^abc$"：表示开始和结尾都是"abc"...

正则表达式的应用

标签： Web开发

一、正则表达式概述二、正则表达式在VBScript中的应用三、正则表达式在VavaScript中的应用四、示例一、正则表达式概述如果原来没有使用过正则表达式，那么可能对这个术语和概念会不太熟悉。不过，它们并不是您想象的那么新奇。请回想一下在硬盘上是如何查找文件的。您肯定会使用？和 * 字...

正则表达式使用详解(2)

标签： Web开发

在对正则表达式有了较为全面的了解之后，我们就来看一下如何在Perl，PHP，以及JavaScript中使用正则表达式。通常，Perl中正则表达式的使用格式如下： operator / regular-expression / string-to-replace / modifiers 运算符一项可以是m或s，分别代表匹配运算和替换运算。其中，正则表达式一项是将要进行匹配或替换...

查看更多精彩>>