前些天用火车头从一个列表页采集一些网址,源码简化如下:
[xhtml] view plain copy
我要采集到第二个链接,就是链接后指定有个IMG的,这个常用来采集热门帖子等,当时写的网址采集规则:
[xhtml] view plain copy
却发现怎么都采集不对,最后想到原因:火车头从源码的前面开始匹配,每个链接都有
[xhtml] view plain copy
就是把模糊匹配(*)给换成了[参数],就这样简单,分享给大家。
大数据观察
閱讀更多 大科技最新鮮 的文章
2018-08-08 15:15:49 大科技最新鮮
前些天用火车头从一个列表页采集一些网址,源码简化如下:
[xhtml] view plain copy
我要采集到第二个链接,就是链接后指定有个IMG的,这个常用来采集热门帖子等,当时写的网址采集规则:
[xhtml] view plain copy
却发现怎么都采集不对,最后想到原因:火车头从源码的前面开始匹配,每个链接都有
[xhtml] view plain copy
就是把模糊匹配(*)给换成了[参数],就这样简单,分享给大家。
大数据观察
閱讀更多 大科技最新鮮 的文章