在下載電視劇的時候發現,一個一個下載太麻煩了。這不符合程序員的習慣。我的口號是“能拿程序完成的,絕不用人工完成”。今天和大家談python爬網的小程序,希望給大家帶來一些便利。一方面python非常容易上手,爬網又是一個景點的使用場景, 這個代碼不但可以用來爬視頻,略加修改我們以爬各種數據,例如圖片,商品信息等,看看小夥伴你是不是可以舉一反三,學到悟到。
分析需求:
一鍵下載,全部自動完成,無需人工干預
大體規劃:
準備採用python語言完成
代碼不超過30行,準備搞定此事
項目實施:
1. 裝好迅雷軟件
2. 準備開發環境
python 2.7
3.開發工具:pyCharm 2019.3
4. 開始編碼
a) 第一段依賴庫導入
re是正則表達式的庫,urllib是url操作模塊,Tk是剪貼板
b) 第二段獲取網頁的源碼
c) 第三段通過正則表達式的分組功能,開始獲取電視劇下載的URL地址,綠色部分可根據網站URL的結構進行正則表達式的調整
d) 將下載地址組織好後,拷貝到剪切板,並觸發迅雷的下載
e) 一個main方法,作為調用程序的入口點,綠色部分可改為你想下載視頻的網站頁面地址
現在只需要run起來,就直接跳出迅雷下載了,所有的下載地址我們已經都爬到了。點擊“立即下載”就OK了。
現在只需要run起來,就直接跳出迅雷下載了,所有的下載地址我們已經都爬到了。點擊“立即下載”就OK了。
總結:
1. python非常容易上手
2. 爬網是一個經典的使用場景
3. 這個代碼不但可以用來爬視頻,略加修改我們以爬各種數據,例如圖片,商品信息等,總之大有用處
最後附上完整代碼,練習的時候如果有問題,歡迎在評論區告訴我,我隨時在線答疑。
想更詳細瞭解python爬蟲技術的同學,可以移步 觀看視頻教程,瞭解如何在各類網站提取數據。
<code>#!/usr/bin/python
import re
import urllib
from Tkinter import Tk
def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html
def getDownload(html):
reg = r"/<code>
閱讀更多 東方瑞通 的文章