分享:怎么用火车头采集指定特征的网址、图片 src

分享:怎么用火车头采集指定特征的网址、图片 src

前些天用火车头从一个列表页采集一些网址,源码简化如下:

[xhtml] view plain copy

111

222

333

我要采集到第二个链接,就是链接后指定有个IMG的,这个常用来采集热门帖子等,当时写的网址采集规则:

[xhtml] view plain copy

(*)

却发现怎么都采集不对,最后想到原因:火车头从源码的前面开始匹配,每个链接都有

[xhtml] view plain copy

[参数]

就是把模糊匹配(*)给换成了[参数],就这样简单,分享给大家。

大数据观察


分享到:


相關文章: