前些天用火車頭從一個列表頁採集一些網址,源碼簡化如下:
[xhtml] view plain copy
我要採集到第二個鏈接,就是鏈接後指定有個IMG的,這個常用來採集熱門帖子等,當時寫的網址採集規則:
[xhtml] view plain copy
卻發現怎麼都採集不對,最後想到原因:火車頭從源碼的前面開始匹配,每個鏈接都有
[xhtml] view plain copy
就是把模糊匹配(*)給換成了[參數],就這樣簡單,分享給大家。
大數據觀察
閱讀更多 大科技最新鮮 的文章
2018-08-08 15:15:49 大科技最新鮮
前些天用火車頭從一個列表頁採集一些網址,源碼簡化如下:
[xhtml] view plain copy
我要採集到第二個鏈接,就是鏈接後指定有個IMG的,這個常用來採集熱門帖子等,當時寫的網址採集規則:
[xhtml] view plain copy
卻發現怎麼都採集不對,最後想到原因:火車頭從源碼的前面開始匹配,每個鏈接都有
[xhtml] view plain copy
就是把模糊匹配(*)給換成了[參數],就這樣簡單,分享給大家。
大數據觀察
閱讀更多 大科技最新鮮 的文章