XANCI 发表于 2012-2-7 13:31:44

[XANCI的RM高级教程]WebParser中的RegExp

WebParser中的RegExp

一、RegExp

RegExp就是用来匹配WebParser抓取到的页面信息的字符串,详细的这里不讲,只讲里RM最常用的方法

RegExp="(?siU)search1(.*)endsearch1.*search2(.*)endsearch2"

(?siU)表示忽略大小写、忽略换行,并返回第一个发现的匹配
(.*)抓取所有在search1和endsearch1之间的内容
.*表示跳过所有在endsearch1和search2之间的内容

二、实例

我们先用浏览器打开一个天气RSS的地址
http://xml.weather.com/weather/local/CHXX0008?cc=*&unit=m&dayf=3
右键空白处点查看页面源代码,以开头这一段为例<?xml version="1.0" encoding="UTF-8"?>
<!-- This document is intended only for use by authorized licensees of The-->
<!-- Weather Channel. Unauthorized use is prohibited.Copyright 1995-2012, -->
<!-- The Weather Channel Interactive, Inc.All Rights Reserved.            -->
<weather ver="2.0">
<head>
    <locale>en_US</locale>
    <form>MEDIUM</form>
    <ut>C</ut>
    <ud>km</ud>

    <us>km/h</us>
    <up>mb</up>
    <ur>mm</ur>
</head>
<loc id="CHXX0008">
    <dnam>Beijing, China</dnam>
    <tm>1:23 PM</tm>

    <lat>39.93</lat>
    <lon>116.40</lon>
    <sunr>7:18 AM</sunr>
    <suns>5:40 PM</suns>
    <zone>8</zone>
</loc>

<cc>
    <lsup>2/7/12 1:00 PM Local Time</lsup>
    <obst>Beijing, CHINA</obst>
    <tmp>-4</tmp>假如我们需要日出日落时间和当前温度
RegExp="(?siU)<sunr>(.*)</sunr>.*<suns>(.*)</suns>.*<tmp>(.*)</tmp>"
此时StringIndex=1返回"7:18 AM",StringIndex=2返回"5:40 PM",StringIndex=3返回"-4"

三、工具

下面这个工具可以帮助测试Url和RegExp

dllz335 发表于 2012-2-7 13:32:24

抢沙发
呵呵

小别胜新婚 发表于 2012-2-7 13:35:33

出新教程了说,包子碉堡了,菜鸟表示之前出的那些都还没看懂{:soso_e141:}

语笑嫣然 发表于 2012-2-7 13:35:46

依然看不懂,不过收藏着留以后用吧~

超跑女神 发表于 2012-2-7 14:20:23

先收藏再细看!!

ecoo168 发表于 2012-2-16 19:36:48

hao dong xi zhichi le



---------------------------------------------------------------------------------------------------------------------

ecoo168于2012-2-16 19:37补充以下内容:
zenme xiazai a

---------------------------------------------------------------------------------------------------------------------

rambokay 发表于 2012-2-22 00:12:21

请问有没有关于中国天气网的实例?还有抓取了这些信息之后如何跟相关图片连接、显示?

jyf823691221 发表于 2012-4-8 15:24:18

好东西 收下了

QQ109494 发表于 2012-5-13 09:57:40

这是自己最需要的!!

magicma0 发表于 2012-6-13 23:36:57

以后会用上的
页: [1] 2 3 4 5
查看完整版本: [XANCI的RM高级教程]WebParser中的RegExp