「原創」「python自學筆記」python爬蟲之騰訊動漫技术頭條網

本篇是python自學的第一個里程碑，如python自學第一篇的計劃，完成一個簡單的爬蟲。

爬蟲說是簡單，但是用一門正在學習的語言實現起來還是廢了點勁。

本人比較喜歡漫畫所以第一個目標就是爬點漫畫來看看，第一個目標就選擇了一個漫畫站。從週二開始，到今天週四，花了快8個小時攢出了一個能動的爬蟲，爬取一個連接的漫畫。下面就來說說這裡的心路歷程。

先給大家看看選中的漫畫目標，隨機選的，不喜勿噴

爬取這個頁面的時候，還是非常輕鬆的，主要使用了requests和beautifulSoup，輕輕鬆鬆就抓取到了標題和開始閱讀的正文url。

title=bs.find('h2',class_='works-intro-title')

...
 
relative_url=bs.find('a',class_='works-intro-view')['href']

但是進入正文的url後，就傻眼了，怎麼也獲取不到圖片的

標籤，這是怎麼回事呢，於是打印出beautifulSoup的內容看了一下才知道，原來漫畫的主體部分都是js動態加載的，抓出來的都是代碼而不是真正的html標籤。

於是開始了搜索解決方案，最後選擇了selenium+chromedriver的方式來加載整個頁面。

selenium直接使用pip安裝，chromedriver請在下面地址下載

http://npm.taobao.org/mirrors/chromedriver/

請按照你的chrome瀏覽器的版本進行下載，下載的chromedriver解壓到python.exe所在的文件夾。（這個應該是可以配置路徑的，但我是一個初學者，請原諒我的愚笨，我還沒有學到這個）。

這個時候再讀取

就已經可以讀取到了

ul=bs.find('ul',class_='comic-contain')
lis=ul.findAll('li')
For li in lis:
 img_class="lazy" src="//p2.ttnews.xyz/loading.gif" data-original=li.img['src']

但是下載了兩個圖片後，突然就報錯了，再次debug整個beautifulsoup才發現，圖片都是懶加載的，為了響應速度，前臺也是想盡了辦法。

這時，我的第一個想法是把查找下一個圖片的js方法找到，但是打開瀏覽器的network一看，每一個圖片是直接請求的，而不是通過統一的接口請求的

而且在所有加載的js資源中搜索了一圈也沒有查到圖片的相關操作（有點笨），所以就採用了暴力的方法，使用selenium+js模擬向下滾動

For step in range(50,100000,50):
 js="varq=document.getElementById('mainView').scrollTop="+str(step)
 driver.execute_script(js)

終於，所有圖片在暴力下拉下，全部加載了，之後的下載也簡單多了。

詳細代碼請見：

https://gitee.com/dean2083/python-learning

day3

堅持總會有收穫。

分享到:

閱讀更多 塵埃中的清風 的文章

關鍵字: 漫畫騰訊網絡爬蟲

「原創」「python自學筆記」python爬蟲之騰訊動漫

相關文章:

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

為什麼只有edg賺錢？

網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？

我們買的新商品房還沒有拿到房產證，怎麼轉賣最好？

為什麼突厥人可以成功復國？是大唐的刀不鋒利了麼？

小高層16層高樓間距60米哪一層比較好？

金銀花盆栽好養嗎？怎麼養？

長城對於抵禦古代匈奴和蒙古人起到了多大作用？

什麼樹可以嫁接臘梅？

行情堪憂，還有多少教育機構的老師們五一假期有課上的？課時量多不多？

在農村“立夏節”都有哪些民間習俗？

男朋友失望分手，但對我還有感覺，答應我兩個月之後可以在一起，我應該怎麼做，才能改變之前他對我的看法？

工程分包乙方人員傷殘誰承擔？

有哪些看起來毫不相關的兩個歷史人物實際上有過聯繫？

13年雪鐵龍世嘉自動擋7萬多公里，沒有水泡事故，多少錢能買？

22+吃土少女17年就有駕駛證了，今年才開始開車，想買個二手昂克賽拉，或者有什麼好建議嗎？

如何騎車去臺灣騎行？

本人預算5萬左右，想買一輛二手法系車！求推薦？

14年進口馬自達5PK進口10年道奇酷威買哪個划算？

2020年，河南教育行業國務院特殊津貼推薦，河南大學並列第三，大家怎麼看？

本田CRV2019款1.5T舒適版油耗高嗎？

國外疫情如果沒有得到有效控制，世界會發生什麼事情？頭腦風暴？

本田XRV這款車的整體表現怎麼樣？我想買1.5T自動豪華版，全款多少錢？

現在存款有14萬，借了5萬還沒收回來，該做什麼好？

2070super和5700xt買哪個比較好？

生完二胎後，感覺自己有點抑鬱，總是想發火，特別煩躁，怎麼辦？

人這一生遇到的人和事為什麼感覺都像是必然的經歷？

現在校內校外到底教的是美式英語還是英式英語還是混搭英語？

上有老下有小，我們真的跳不出這個人生循環了嗎？

如果外面正在下小雨，你會突然想起了誰？

初中同學許久未見大學期間突然聯繫請吃飯，態度還良好，我給推了，會不會讓人很煩？

現在我覺得認真對某個人說我喜歡你什麼的這種話好惡心，我愛你更說不出口，好惡心，是什麼心理？

劇版的《何以笙簫默》和《再見王瀝川》哪一個更好看呢？

計算機專業本科能夠進入字節跳動、華為這些公司做開發嗎？是否還需要繼續讀研？

生完二胎的你們，現在有什麼感想？

華北適合種植蠶豆嗎？

華為手機更新EMUI10.1系統後效果咋樣？

大熱天蜜蜂老是爬到箱外結群正常嗎？

辣椒正是生長最佳期，偏偏有的辣椒苗蔫，不是病蟲害是咋回事？

手機相機發展的最終形態會是怎樣的？

華為為什麼不出一款5寸全面屏手機呢？我想應該會有很多人支持吧？

生吃山芋，生吃胡蘿蔔，還有哪些蔬菜可以生吃呢？

為什麼馬鈴薯不宜過早過遲播種？

疫情愈發嚴重，原油為何反而大漲？

生菜球很好吃，怎麼種植才能高產呢？

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？ ？

大家幫忙看看這個房子如果要砸牆的話，怎麼改比較好？

意蜂夏季喝什麼水降溫？

黃瓜種子催芽後種植需要打底水嗎？

書友們展示一下自我感覺發揮較好的作品，一起學習？

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？？