[XANCI的RM高级教程]WebParser中的RegExp
WebParser中的RegExp一、RegExp
RegExp就是用来匹配WebParser抓取到的页面信息的字符串,详细的这里不讲,只讲里RM最常用的方法
RegExp="(?siU)search1(.*)endsearch1.*search2(.*)endsearch2"
(?siU)表示忽略大小写、忽略换行,并返回第一个发现的匹配
(.*)抓取所有在search1和endsearch1之间的内容
.*表示跳过所有在endsearch1和search2之间的内容
二、实例
我们先用浏览器打开一个天气RSS的地址
http://xml.weather.com/weather/local/CHXX0008?cc=*&unit=m&dayf=3
右键空白处点查看页面源代码,以开头这一段为例<?xml version="1.0" encoding="UTF-8"?>
<!-- This document is intended only for use by authorized licensees of The-->
<!-- Weather Channel. Unauthorized use is prohibited.Copyright 1995-2012, -->
<!-- The Weather Channel Interactive, Inc.All Rights Reserved. -->
<weather ver="2.0">
<head>
<locale>en_US</locale>
<form>MEDIUM</form>
<ut>C</ut>
<ud>km</ud>
<us>km/h</us>
<up>mb</up>
<ur>mm</ur>
</head>
<loc id="CHXX0008">
<dnam>Beijing, China</dnam>
<tm>1:23 PM</tm>
<lat>39.93</lat>
<lon>116.40</lon>
<sunr>7:18 AM</sunr>
<suns>5:40 PM</suns>
<zone>8</zone>
</loc>
<cc>
<lsup>2/7/12 1:00 PM Local Time</lsup>
<obst>Beijing, CHINA</obst>
<tmp>-4</tmp>假如我们需要日出日落时间和当前温度
RegExp="(?siU)<sunr>(.*)</sunr>.*<suns>(.*)</suns>.*<tmp>(.*)</tmp>"
此时StringIndex=1返回"7:18 AM",StringIndex=2返回"5:40 PM",StringIndex=3返回"-4"
三、工具
下面这个工具可以帮助测试Url和RegExp
抢沙发
呵呵 出新教程了说,包子碉堡了,菜鸟表示之前出的那些都还没看懂{:soso_e141:} 依然看不懂,不过收藏着留以后用吧~ 先收藏再细看!! hao dong xi zhichi le
---------------------------------------------------------------------------------------------------------------------
ecoo168于2012-2-16 19:37补充以下内容:
zenme xiazai a
---------------------------------------------------------------------------------------------------------------------
请问有没有关于中国天气网的实例?还有抓取了这些信息之后如何跟相关图片连接、显示? 好东西 收下了 这是自己最需要的!! 以后会用上的