Python爬蟲入門實戰之貓眼電影數據抓取！

2019-04-07 14:39:54 編程python新視野

前言

本文可能篇幅較長，但是絕對乾貨滿滿，提供了大量的學習資源和途徑。達到讓讀者獨立自主的編寫基礎網絡爬蟲的目標，這也是本文的主旨，輸出有價值能夠真正幫助到讀者的知識，即授人以魚不如授人以漁，讓我們直接立刻開始吧，本文包含以下內容：

Python環境搭建與基礎知識
爬蟲原理概述
爬蟲技術概覽
貓眼電影排行數據抓取
Ajax數據爬取貓眼電影票房
更多進階，代理、模擬登陸、APP 爬取等…..

Python環境搭建與基礎知識

Python環境搭建

Anaconda安裝

此處筆者並不會介紹Python軟件的安裝，有讀者可能會疑問Python都不安裝，我怎麼學習先進的Python知識呢？不要著急，此處筆者介紹了一種新的Python快速安裝方式，即直接安裝Anaconda，Anaconda是什麼呢？ Anaconda 是一個Python的發行版，包括了Python和很多常見的Python庫, 和一個包管理器cond，Anaconda是專注於數據分析的Python發行版本，包含了conda、Python等720多個科學包及其依賴項，適用於企業級大數據分析的Python工具。在數據可視化、機器學習、深度學習等多方面都有涉及。不僅可以做數據分析，甚至可以用在大數據和人工智能領域。有讀者可能會疑問這和爬蟲有什麼關係呢，當然有關係，在編寫爬蟲程序的過程中需要使用Python庫，而Anaconda就已經包含這些經常使用庫，這對安裝Python庫感到頭疼的讀者再好不過了。當然這一切都是免費的，接下來我們就開始安裝美妙的Anaconda吧。首先從Anaconda官網下載對應版本的Anaconda，如果下載速度過慢推薦使用國內的清華大學開源軟件鏡像站選擇對應的Anaconda下載，Anaconda的官網下載頁面如下圖所示：

本文推薦下載Python3.6對應的版本，以筆者為例電腦環境為：Windows-64Bit，下載的對應版本為：Anaconda3-5.2.0-Windows-x86_64，下載完成後打開安裝包如下圖所示：

點擊 next

點擊 I Agree

選擇 Just Me ，點擊 next

選擇安裝目錄，點擊next

Python學習群：683380553，有大牛答疑，有資源共享！是一個非常不錯的交流基地！歡迎喜歡Python的小夥伴！

勾選 Add Anaconda to my PATH environment variable ，然後點擊 install 安裝即可

IDE環境搭建

IDE筆者推薦使用Pycharm，其中免費的社區版已經能夠滿足我們的需求，使用教程可以參考CSDN博客Pycharm簡單使用教程，或者直接在CSDN搜索pycharm教程獲取更多知識。此處可以詳細介紹下

1.1Python 基礎技術

我不會介紹過於基礎內容，因為這些內容互聯網上已經大量免費的基礎入門教程了，但是筆者會給大家提供一些互聯網的免費學習資源和方法，讓大家快速學會編寫爬蟲程序所需要的Python基礎知識和進階知識，而對於基礎的爬蟲我們需要掌握的Python知識有以下：

數據類型
列表
循環語句
判斷語句
函數

Python基礎

對於完全沒有Python基礎的讀者，可以學習下面的快速入門

Python3 教程 | 菜鳥教程
Python教程 | 廖雪峰的官方網站
Python 教程| 簡明教程
Python教程™
笨辦法學Python | 看雲
The Python Tutorial | Python 3.6.6 documentation

Python官方文檔，具有絕對的權威和全面，但是文檔本身是英文，所以對大部分初學者來說並不是很友好，下面是國人翻譯的Python版本，對英文感冒的讀者可以選擇該版本學習:

Python 入門指南 | python tutorial 3.6.3 documentation 一些入門的書籍推薦
《Python編程從入門到實踐》
《Python基礎教程（第3版）》 Python進階對於想要提升自己技術的讀者，接下的書籍和資料應該是很符合你的胃口了：
The Python Standard Library
《Python CookBook 3》
《流暢的Python》
《Python學習手冊（第4版）》
《Python核心編程（第3版）》
《數據結構 Python語言描述》
《Python高性能編程》

爬蟲是什麼

爬蟲原理

爬蟲是什麼？爬蟲從本質上說就是在模擬HTTP請求，記住這句話，這就是我們後面經常需要做的事情。一般用戶獲取網絡數據的方式有兩種： a. 瀏覽器提交HTTP請求--->下載網頁代碼--->解析成頁面。 b. 模擬瀏覽器發送請求(獲取網頁代碼)->提取有用的數據->存放於數據庫或文件中。爬蟲就是在做第二種事情，大致過程如下: i. 通過HTTP庫向目標站點發起請求，即發送一個Request，請求可以包含額外的headers等信息，等待服務器的響應 ii. 如果服務器正常響應，會得到一個Response，Response的內容便是所要獲取的頁面內容，類型可能有HTML、JSON、二進制文件（如圖片、視頻等類型）。 iii. 得到的內容可能是HTML，可以用正則表達式、網頁解析庫進行解析。可能是JSON，可以直接轉成JOSN對象進行解析，可能是二進制數據，可以保存或者進一步處理 iv. 保存形式多樣，可以保存成文本，也可以保存至數據庫，或者保存成特定格式的文件。許多讀者可能不知道上面具體在做什麼，那麼接下來我們通過瀏覽器抓包分析上面的過程，筆者推薦使用Chrome，對開發者很友好，後續我們會經常使用到，Chrome下載，如果下載速度較慢，建議使用國內Chrome鏡像下載安裝。首先打開瀏覽器在地址欄輸入 https://www.baidu.com/ (讀者也可以使用其他網頁測試比如咱們的https://gitbook.cn/)，回車，百度頁面映面而來，然後按下F12，瀏覽器開發者選項的快捷鍵，選擇Network欄目，打開界面下圖所示：

按下F5刷新頁面：

欄目裡面更新了大量的數據包，這些包就是瀏覽器請求的數據，我們想要的數據就在這些請求裡面

第一列Name:請求的名稱，一般會將URL的最後一部分內容當作名稱。
第二列Status: 響應的狀態碼，這裡顯示為200，代表響應是正常的。通過狀態碼，我們可以判斷髮送了請求之後是否得到了正常的響應。
第三列Type: 請求的文檔類型。這裡為document, 代表我們這次請求的是一個HTML文檔,內容就是一些HTML代碼。
第四列initiator: 請求源。用來標記請求是由哪個對象或進程發起的。
第五列Size: 從服務器下載的文件和請求的資源大小。如果是從緩存中取得的資源，則該列會顯示from cache。
第六列Time:發起請求到獲取響應所用的總時間。
第七列Waterfall:網絡請求的可視化瀑布流。接下來我們分析請求的詳細組成，比如點第一個請求即Name為www.baidu.com的請求，如下圖所示：

我們看到響應中分General部分，請求頭、響應頭

General一般包含以下部分：

Request URL為請求的URL
Request Method為請求的方法
Status Code為響應狀態碼，
Remote Address為遠程服務器的地址和端口

Response Headers一般包含以下部分(響應(服務端->客戶端[response]))：

HTTP/1.1為響應採用的協議和版本號 200 (狀態碼) OK(描述信息)
Location為服務端需要客戶端訪問的頁面路徑
Server為服務端的Web服務端名
Content-Encoding為服務端能夠發送壓縮編碼類型
Content-Length為服務端發送的壓縮數據的長度
Content-Language為服務端發送的語言類型
Content-Type為服務端發送的類型及採用的編碼方式
Last-Modified為服務端對該資源最後修改的時間
Refresh為服務端要求客戶端1秒鐘後，刷新，然後訪問指定的頁面路徑
Content-Disposition為服務端要求客戶端以下載文件的方式打開該文件
Transfer-Encoding為分塊傳遞數據到客戶端
Set-Cookie為服務端發送到客戶端的暫存數據
Connection為維護客戶端和服務端的連接關係

Request Headers 一般包含以下部分(請求(客戶端->服務端[request]))：

GET(請求的方式) /newcoder/hello.html(請求的目標資源) HTTP/1.1(請求採用的協議和版本號)
Accept為客戶端能接收的資源類型
Accept-Language為客戶端接收的語言類型
Connection為維護客戶端和服務端的連接關係
Host: localhost為連接的目標主機和端口號
Referer告訴服務器我來自於哪裡
User-Agent為客戶端版本號的名字
Accept-Encoding為客戶端能接收的壓縮數據的類型
If-Modified-Since為緩存時間
Cookie為客戶端暫存服務端的信息
Date為客戶端請求服務端的時間而我們需要做的就是模擬瀏覽器提交Requests Headers獲取服務器的響應信息，從而得到我們想要的數據，想要深入瞭解的讀者請訪問HTTP | MDN文檔瞭解更多信息。

爬蟲能抓什麼樣的數據

在網頁中我們能看到各種各樣的信息，最常見的就是用戶能夠看到的網頁頁面，而通過瀏覽器的開發者工具對網頁請求進行抓包時我們可以看見大量的請求，即有些網頁返回的不是HTML代碼，可能是json字符串，各種二級制數據，比如圖片、音頻、視頻等，當然還有些是CSS、JavaScript等文件。那麼即瀏覽器能夠獲取的數據，爬蟲程序都能獲取到，而瀏覽器的數據是翻譯給用戶看到的信息，即只要能夠在瀏覽器訪問到的信息，爬蟲程序就都能夠抓取下來。

爬蟲技術概覽

^_^:本節介紹爬蟲經常使用到的技術，比如請求：requests，信息提取：Xpath，Re正則，json，存儲：CSV，MySQL， MongoDB，模擬瀏覽器Selenium，保證在項目實戰中涉及的技術讀者都會，也就是這裡需要講清楚這些技術的使用方法，

第一個請求

Requests庫

Requests庫，官方文檔是這樣描述：Requests 唯一的一個非轉基因的 Python HTTP 庫，人類可以安全享用。警告：非專業使用其他 HTTP 庫會導致危險的副作用，包括：安全缺陷症、冗餘代碼症、重新發明輪子症、啃文檔症、抑鬱、頭疼、甚至死亡。 Requests 是以PEP 20 （即著名的Python之禪）的箴言為中心開發的，下面就是Requests的開發哲學，望讀者能夠細細品讀，寫出更加Pythonic的代碼。

Beautiful is better than ugly.(美麗優於醜陋) Explicit is better than implicit.(直白優於含蓄) Simple is better than complex.(簡單優於複雜) Complex is better than complicated.(複雜優於繁瑣) Readability counts.(可讀性很重要)

在2.1中我們談到爬蟲的原理就是進行HTTP請求然後得到響應，在響應中提取我們想要的信息並保存。而Requests庫就是利用Python模擬HTTP請求的利器。如果讀者已經安裝了Anaconda，那麼Requests庫就已經可用了，如果沒有Requests庫，讀者可以在命令行中（win+R 輸入 cmd）pip install requests 安裝requests庫，接下來就開始我們的第一個請求吧！使用Requests發送HTTP請求非常簡單，接下來我們就以GitChat為例：

# 導入requests 模塊
import requests
# 發起Get請求並返回Response對象，包含服務器對HTTP請求的響應
response = requests.get('https://gitbook.cn/')
# 打印 響應狀態碼
print(response.status_code)
# 打印 str類型的響應體，比如一個普通的 HTML 頁面，需要對文本進一步分析時，使用 text
print(response.text)
複製代碼

部分運行的結果如下圖所示：

Requests不僅支持Get方式請求，比如Post請求：

# 導入 requests 模塊
import requests
# 需要提交的表單數據
data = {
 'name': 'ruo', 'age': 22
}
# 發起Post請求
response = requests.post("http://httpbin.org/post", data=data)
# 響應體內容
print(response.text)
複製代碼

部分運行的結果如下圖所示：

當然Requests還支持更多的請求方式，比如以下請求，筆者就不一一演示了，最常用的請求就是以上Get和Post兩種請求方式。

# PUT請求
requests.put(“http://httpbin.org/put”) 
# DELETE請求
requests.delete(“http://httpbin.org/delete”)
# HEAD請求
requests.head(“http://httpbin.org/get”) 
# OPTIONS請求
requests.options(“http://httpbin.org/get”) 
複製代碼

由於大多數服務器都會通過請求頭中的User-Agent識別客戶端使用的操作系統及版本、瀏覽器及版本等信息，所以爬蟲程序也需要加上此信息，以此偽裝瀏覽器；如果不加上很可能別識別出為爬蟲，比如當我們不加Headers對知乎進行get請求時：

# 導入 requests 模塊
import requests
# 發起Get請求
response = requests.get("https://www.zhihu.com")
# 狀態碼
print(response.status_code)
# 響應體內容
print(r.text)
複製代碼

返回的內容如下圖所示：

我們可以看見返回的400的狀態碼，及請求無效，接著我們在請求裡添加Headers，然後添加User-Agent信息，再次嘗試請求：

# 導入 requests 模塊
import requests
# 在Headers中添加User-Agent字段信息
headers = {
 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'
}
# 發起Get請求
response = requests.get("https://www.zhihu.com", headers=headers)
# 狀態碼
print(response.status_code)
# 響應體內容
print(response.text) 

複製代碼

返回的內容如下圖所示：

可以看見請求成功，並返回了正確的響應狀態碼和響應體。想要更深入的學習Requests的讀者可以訪問Requests官方原文文檔或者中文文檔。

提取信息

當我們通過HTTP請求獲取到響應後，加下來就需要提取響應體中的內容，此處筆者介紹兩種常用的提取方法，一個是正則表達式，另一個是Xpath。

正則表達式

正則表達式是一個很強大的字符串處理工具，幾乎任何關於字符串的操作都可以使用正則表達式來完成，作為一個爬蟲工作者，每天和字符串打交道，正則表達式更是不可或缺的技能。有了它，從HTML裡提取想要的信息就非常方便了。讀者可以通過正則表達式 | 廖雪峰的官方網站快速入門，也可以通過 Python正則表達式 | 菜鳥教程學習Python中操作正則和使用正則，Python的官方文檔中Python標準庫的6.2節也對Re有詳細的介紹和使用教程。初次接觸正則表達式的讀者可能會覺得有些抽象，有點難入門，因為畢竟正則表達式本身就是一種小型的、高度專業化的編程語言，以上的入門教程瞭解後，這裡給讀者介紹一個提取信息通用的正則字符串 .*?，該規則能夠以非貪婪的方式匹配任意字符，後面我們會經常使用到。比如我們需要匹配

Chapter 1 - 介紹正則表達式

標籤中的內容，我們可以:

# 導入 re 模塊
import re
# 待匹配文本
h1 = 'Chapter 3.2.1 - 介紹正則表達式
'
# 將正則字符串編譯成正則表達式對象，方便在後面的匹配中複用 

pat = re.compile('(.*?)
', re.S)
# re.search 掃描整個字符串並返回第一個成功的匹配
result = re.search(pat, h1)
# 匹配的整個表達式的字符串，group() 可以一次輸入多個組號，在這種情況下它將返回一個包含那些組所對應值的元組。
print(result.group(0))
# 匹配的第一個括號內的字符串，group() 可以一次輸入多個組號，在這種情況下它將返回一個包含那些組所對應值的元組。
print(result.group(1))
複製代碼

以下是匹配結果：

Xpath

XPath即為XML路徑語言（XML Path Language），它是一種用來確定XML文檔中某部分位置的語言。 XPath基於XML的樹狀結構，提供在數據結構樹中找尋節點的能力。起初XPath的提出的初衷是將其作為一個通用的、介於XPointer與XSL間的語法模型。但是XPath很快的被開發者採用來當作小型查詢語言，在爬蟲中提取信息也是不錯的好幫手。讀者可以通過 Xpath 教程 | 菜鳥教程學習Xpath的原理及編寫方法，也可以訪問CSDN博客中搜索Python Xpath學習更多Python中Xpath的基本操作，接下來介紹編寫“編寫”的技巧和在Python中使用的方法，之所以加上“編寫”，讀者看下面便知。還記得在２.１爬蟲原理中使用的瀏覽器的開發者工具嗎，我們可以通過這個工具直接獲取對應節點的Xpath規則，從而達到快速利用Xpath提取網頁信息的目的，例如提取貓眼電影TOP100榜中的電影信息，首先打開瀏覽器輸入http://maoyan.com/board/4，將鼠標移動到需要提取的信息（電影名稱）上，右鍵選擇檢查，如下圖所示：

接著我們選擇下面的元素，右鍵選擇Copy-->xpath，如下圖所示：

獲取了該節點的xpath規則了，接下來我們編寫Python程序驗證該規則是否能夠真正提取電影名：

import requests
# 導入lxml庫的etree模塊
from lxml import etree
headers = {
 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'
}
url = 'http://maoyan.com/board/4' 

response = requests.get(url, headers=headers)
html = response.text
# 調用HTML類進行初始化
html = etree.HTML(html)
# 粘貼我們copy的xpath，提取電影名 “霸王別姬”
result_bawangbieji = html.xpath('//*[@id="app"]/div/div/div[1]/dl/dd[1]/div/div/div[1]/p[1]/a')
#　打印節點標籤包含的文本內容
print(result_bawangbieji[0].text)
# 提取該頁面所有電影名，即選擇所有'dd'標籤的電影名
result_all = html.xpath('//*[@id="app"]/div/div/div[1]/dl/dd/div/div/div[1]/p[1]/a')
#　打印所有提取出的電影名
print('該頁面全部電影名：')
for one in result_all:
 print(one.text)
複製代碼

結果如下圖所示，我們成功提取了HTML中電影名的信息：

存儲信息

TEXT 文本存儲

如果讀者學習了Python的基礎知識，那麼應該比較熟悉這種基本信息存儲方式，即直接將我們需要存儲的信息寫入文件中，比如常見的TEXT文件，如果不熟悉的讀者可以通過 Python文件讀寫 - Python教程™ 快速概覽，下面我們就對3.2.2中Xpath提取的電影名進行文件存儲操作：

import requests
from lxml import etree
headers = {
 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'
}
url = 'http://maoyan.com/board/4'
response = requests.get(url, headers=headers)
html = response.text
# 調用HTML類進行初始化
html = etree.HTML(html)
# 粘貼我們copy的xpath，提取電影名 “霸王別姬”
result_bawangbieji = html.xpath('//*[@id="app"]/div/div/div[1]/dl/dd[1]/div/div/div[1]/p[1]/a')
#　打印節點標籤包含的文本內容
print(result_bawangbieji[0].text)
# 提取該頁面所有電影名
result_all = html.xpath('//*[@id="app"]/div/div/div[1]/dl/dd/div/div/div[1]/p[1]/a')
#　打印所有提取出的電影名
print('該頁面全部電影名：')
for one in result_all:
 print(one.text)
# 將這一頁電影名存儲至TEXT文件中，'a' 指打開一個文件進行追加。 如果文件存在，則文件指針位於文件末尾。也就是說，文件處於追加模式。如果文件不存在，它將創建一個新文件進行寫入。 

with open('film_name.text', 'a') as f:
 for one in result_all:
 f.write(one + '\n')
複製代碼

存儲結果如下圖所示：

CSV存儲

CSV文件即逗號分隔值（也稱字符分隔值，因為分隔符可以不是逗號），是一種常用的文本格式，以純文本形式存儲表格數據，包括數字或者字符。Python中已經內置CSV文件操作的模塊，只需要導入就可以進行CSV存儲操作，下面我們就將3.2.2中Xpath提取的電影名進行CSV文件存儲操作：

import requests
from lxml import etree
# 導入CSV模塊
import csv
headers = {
 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'
}
url = 'http://maoyan.com/board/4'
response = requests.get(url, headers=headers)
html = response.text
html = etree.HTML(html)
result_bawangbieji = html.xpath('//*[@id="app"]/div/div/div[1]/dl/dd[1]/div/div/div[1]/p[1]/a')
print(result_bawangbieji[0].text)
result_all = html.xpath('//*[@id="app"]/div/div/div[1]/dl/dd/div/div/div[1]/p[1]/a')
print('該頁面全部電影名：')
for one in result_all:
 print(one.text)
# 將這一頁電影名存儲至CSV文件中：
with open('film_name.csv', 'a', newline='') as f:
 csv_file = csv.writer(f)
 for one in result_all:
 csv_file.writerow([one.text])
複製代碼

CSV文件存儲結果如下圖所示：

MySQL 存儲

MySQL 是最流行的關係型數據庫管理系統，如果讀者沒有安裝MySQL可以通過phpstudy 2018 下載下載phpstudy快速安裝MySQL 在Python2中，連接MySQL的庫大多是使用MySQLdb，但是此庫的官方並不支持Python3，所以這裡推薦使用的庫是PyMySQL，讀者可以通過 Python+MySQL數據庫操作（PyMySQL）| Python教程™ 學習PyMYSQL操作MySQL的相關方法和實例，接下來我們就嘗試將3.2.2中Xpath提取的電影名存儲到MySQL中，沒有該模塊的讀者可以通過（win+R 輸入 cmd）pip install pymysql 安裝pymysql庫。

import requests
from lxml import etree
# 導入pymysql模塊
import pymysql
# 打開一個數據庫連接
db = pymysql.connect(host='localhost', user='root', password='root', port=3306, db='spider', use_unicode=True, charset="utf8")
# 獲取MySQL的操作遊標，利用遊標來執行SQL語句
cursor = db.cursor()
headers = {
 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'
}
url = 'http://maoyan.com/board/4'
response = requests.get(url, headers=headers)
html = response.text
html = etree.HTML(html)
result_bawangbieji = html.xpath('//*[@id="app"]/div/div/div[1]/dl/dd[1]/div/div/div[1]/p[1]/a')
print(result_bawangbieji[0].text)
result_all = html.xpath('//*[@id="app"]/div/div/div[1]/dl/dd/div/div/div[1]/p[1]/a')
print('該頁面全部電影名：')
for one in result_all:
 print(one.text)
 try:
 # 插入數據語句
 sql = 'INSERT INTO film_infor(film_name) values (%s)'
 cursor.execute(sql, (one.text))
 db.commit() 

 except:
 db.rollback()
複製代碼

MySQL存儲結果如下圖所示：

分享到:

閱讀更多 編程python新視野 的文章

關鍵字: 網絡爬蟲人工智能集成開

python入門—進階—爬蟲—算法，四本書籍已備好，請速來領取學習

你的網購價格監督利器——python+爬蟲+微信機器人

Python 爬蟲--批量爬取百度圖片

node.js 自動化工具 (爬蟲) Selenium安裝使用

python入門—進階—爬蟲—算法，很好的四本書籍附學習教程

03.05 0基礎4階段學python：從入門—進階—爬蟲—算法，內附自學教程哦

Python 爬蟲 – 根據id與class查找標籤

Python 爬蟲 – 使用requests抓取網頁

返崗上班，全數據分析資料彙總（含python、爬蟲、大數據等）

03.04 返崗上班，全數據分析資料彙總（含python、爬蟲、大數據等）

爬蟲：一個簡單實例說明爬蟲機制

03.04 爬蟲：一個簡單實例說明爬蟲機制

在頭條你甚至能學會-python 硬核電子助手（1）- python 爬蟲

02.25 常用的Web抓包Brup Suite三大入門模塊——代理、爬蟲、編碼詳解

網絡的攪屎棍——爬蟲

小白學 Python 爬蟲：Selenium 獲取某大型電商網站商品信息

小白學 Python 爬蟲：自動化測試框架 Selenium 從入門到實戰

爬蟲：BeautifulSoup解析庫

爬蟲：selenium請求庫

爬蟲：Requests請求庫

爬蟲，爬到一切你想要的，乾貨總結

python3 爬蟲之只需要問題id爬取知乎問題全部回答

Python 爬蟲——Python 崗位分析報告

開發函數計算的正確姿勢——爬蟲

如何看待「爬蟲」技術的發展，是否屬於違法行爲？

告訴你python小白如何零基礎製作一個Python 爬蟲

創慧文化丨全套Python編程基礎+爬蟲+進階項目+開發培訓視頻教程

07.23 5年Python 最全200G 爬蟲 web 零基礎資源分享！都來了解一下

python接入百度AI 人臉識別爬蟲獲取美女圖片並打分（附源碼）

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

剛剛:剛剛工作的畢業生，一個月只有2000多，是不是太少了？根據你城市消費水平來看啊，還有你從事的工作，假如你在二三線城市做一份事業單位或者是編制類的工作，薪資水平是隨著你工作年限逐年增長的，而且在年終也有很多福利補貼待遇等等，算下來收入也是可觀的，再舉一個例:-畢業生 2000

為什麼只有edg賺錢？

電競行業作為一個新興產業，這幾年發展勢頭越來越好，IG戰隊，FPX戰隊先後奪得了s8-s9世界賽的冠軍，據俱樂部知情人士透露，除了國內的幾家豪門俱樂部之外，其他俱樂部基本都是虧錢在做的，當然EDG也是:-edg 賺錢:為什麼只有edg賺錢？

網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？

20000:網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？天貓旗艦店，或者淘寶旗艦店，或者京東旗艦店肯定包真，質量好，再說可以官方驗證啊，不能圖那十塊五塊的便宜，畢竟一個充電寶要用好久呢，一兩年沒問題的。:-羅馬仕馬仕毫安

我們買的新商品房還沒有拿到房產證，怎麼轉賣最好？

沒有取得房抄產證的房子可以轉讓。但如果確定無法取得房產證的，房產轉讓不受法律保襲護。一般情況下，只有取得房產證的房屋才能確定房屋產權人，才具有轉讓的條件。但如果房屋是合法取得的，以百後可以依法辦理度房:-轉賣房產證商品房拿到:我們買的新商品房還沒有拿到房產證，怎麼轉賣最好？

為什麼突厥人可以成功復國？是大唐的刀不鋒利了麼？

鋒利突厥人你這樣說只能說明你對歷史非常不瞭解，我先用一句話概括突厥被大唐雄兵打的有多慘：三次滅國，背井離鄉，遠赴西亞，打不過，俺躲著你還不行嗎？突厥的意思是中間慫起的頭盔。其來歷已經不可靠，可能有著匈奴、鮮卑或:-復國大唐:為什麼突厥人可以成功復國？是大唐的刀不鋒利了麼？

小高層16層高樓間距60米哪一層比較好？

小高層 60:小高層16層高樓間距60米哪一層比較好？首先需要明白，選擇層數居住與樓間距毫無關係，住在哪一層，肉眼看對面樓的距離，是相差不大的。設定樓間距60米，純粹是混淆視聽。其實，一幢樓的樓層總數確定的情況下，到底哪一層最佳？很簡單，取總層數乘以黃金:-樓間距層高

金銀花盆栽好養嗎？怎麼養？

金銀花可以盆栽，很好養的！金銀花，是忍冬科的常綠纏繞灌木，枝條柔韌修長，多攀爬或匍匐生長。金銀花生性強健，在我國的很多南方省份野外很多地區都能看到它的身影，葉子常年翠綠，到夏季開花，飄香四溢。所以，有:-金銀花盆栽:金銀花盆栽好養嗎？怎麼養？

長城對於抵禦古代匈奴和蒙古人起到了多大作用？

長城真的無用嗎？在今天許多人認為長城無用，古代國家舉國之力建造的長城不過只是文物，就連康熙都曾作詩諷刺，原文如下：萬里經營到海涯，紛紛調發逐浮誇。當時用盡生民力，天下何曾屬爾家。-康熙但真的如此嗎？小:-匈奴抵禦長城:長城對於抵禦古代匈奴和蒙古人起到了多大作用？蒙古人

什麼樹可以嫁接臘梅？

臘梅只能嫁接在不同品種的臘梅上，其他的樹種不行！臘梅的繁殖可以用播種，壓條，嫁接，分株等繁殖方法。播種法因不易保持花卉的原有優良特性，且播種的優點是在於大量繁殖，而臘梅大都只需培植少量幾株，故一般都不:-臘梅嫁接:什麼樹可以嫁接臘梅？

行情堪憂，還有多少教育機構的老師們五一假期有課上的？課時量多不多？

堪憂五一假期:行情堪憂，還有多少教育機構的老師們五一假期有課上的？課時量多不多？事實上，因為教育培訓都是預收費用的模式。但凡有一點點規模的培訓機構老師。在上半年，帶課量是可以得到保證。:-課時量

在農村“立夏節”都有哪些民間習俗？

民間習俗農村:在農村“立夏節”都有哪些民間習俗？在農村“立夏節”都有哪些民間習俗一、農村立夏常見的習俗風俗活動：1、吃雞蛋“立夏吃蛋”習俗由來已久，俗話說“立夏吃了蛋，夏天不疰夏”。據說立夏開始天氣越來越熱，村裡小孩兒會有身體疲勞四肢無力的感覺，吃:-立夏節

男朋友失望分手，但對我還有感覺，答應我兩個月之後可以在一起，我應該怎麼做，才能改變之前他對我的看法？

失望分手看法:男朋友失望分手，但對我還有感覺，答應我兩個月之後可以在一起，我應該怎麼做，才能改變之前他對我的看法？你的這個問題特別的有趣，我覺得你先不要看你要怎麼做才讓他才能讓他對你的印象有所改變，你要去看為什麼是兩個月之後可以在一起，這兩個月他會用來做什麼，為什麼會有這兩個月？例如他的身體碰到了什麼樣的問題嗎？:-答應我

工程分包乙方人員傷殘誰承擔？

承擔:工程分包乙方人員傷殘誰承擔？分包乙方分包致人傷殘責任誰承擔？嚴格來說，需要了解更多傷殘原因才能區分的，作為非專業人士，自己發表一點淺見供題主參考：1、如果甲方是央企的話，他們合同中的責任、義務等條款內已經將自己的責任全部撇開了，更會:-乙方傷殘

有哪些看起來毫不相關的兩個歷史人物實際上有過聯繫？

實際上:有哪些看起來毫不相關的兩個歷史人物實際上有過聯繫？歷史人物聯繫這個詞貌似太寬泛了，就好像有一個調皮的答案說的，胡亥和溥儀相隔2000多年，牽強的找，也有聯繫：都是亡國之君不是。我想題主的意思是兩個看起來應該風馬牛不相及的人物，在歷史上居然是熟悉或是一個時代的:-毫不相關

13年雪鐵龍世嘉自動擋7萬多公里，沒有水泡事故，多少錢能買？

法系車不保值，如果準備常開可以入手，性價比高，價格應該在二至三萬之間，二手車一車一況，一況一價，居體價格看車況。:-錢能水泡:13年雪鐵龍世嘉自動擋7萬多公里，沒有水泡事故，多少錢能買？世嘉自動擋

22+吃土少女17年就有駕駛證了，今年才開始開車，想買個二手昂克賽拉，或者有什麼好建議嗎？

17年駕駛證二手:22+吃土少女17年就有駕駛證了，今年才開始開車，想買個二手昂克賽拉，或者有什麼好建議嗎？建議買日系二手車，開順了賣了，買新車，昂克賽拉無法再次出手時獲得好價格，而且也不省油，開完日系車直接換德系:-昂克賽拉

如何騎車去臺灣騎行？

騎車在臺灣沒有迴歸內地前，最好不要去臺灣，一是國內政策不允許你去臺灣，因為已停止了臺灣個人遊。二是你偷著去臺灣旅遊，安全沒有保障，偷渡客在哪裡也沒有安全保障的。以後內地政策允許個人去臺灣旅遊了，建議那時再:-騎行臺灣:如何騎車去臺灣騎行？

本人預算5萬左右，想買一輛二手法系車！求推薦？

預算:本人預算5萬左右，想買一輛二手法系車！求推薦？ 5萬預算5萬元左右，想買一輛二手法系車？推薦東風標緻老款308車型。1 5萬元可以買標緻308車況好的，沒大事故呢，年限15年左右，公里數3萬左右，手動檔車型。2 標緻308車型，底盤調教紮實，跑高速穩定:-法系二手

14年進口馬自達5PK進口10年道奇酷威買哪個划算？

道奇你好，好高興回答你的問題！14年進口馬自達5和10年月道奇酷威個人感覺馬自達5比較划算。新車價馬5報價29.99萬，酷威19.38萬兩款車都是原裝進口，馬5屬於日系，酷威屬於美系。兩款車不屬於同類車型:-酷威馬自達 14年:14年進口馬自達5PK進口10年道奇酷威買哪個划算？

2020年，河南教育行業國務院特殊津貼推薦，河南大學並列第三，大家怎麼看？

特殊津貼高校人才就要重視，河南省高校人才更要重視，這個人才不是評出了的，而是推薦出來的，沒有推薦，連參評的資格都沒有。國務院特殊津貼人員推薦，不推薦是百分百沒希望，推薦了希望就非常，那麼是什麼是國務院特殊津貼:-河南大學並列 2020年:2020年，河南教育行業國務院特殊津貼推薦，河南大學並列第三，大家怎麼看？

本田CRV2019款1.5T舒適版油耗高嗎？

李老貓說車為你非專業解答各種選車用車問題本田crv定位於一款緊湊級suv產品，主要對飈豐田榮放，日產奇駿，這款車整體市場表現非常突出，2019年全年累計銷量為18.44萬臺，平均月銷1.5萬以上，其深:-舒適版本田油耗:本田CRV2019款1.5T舒適版油耗高嗎？

國外疫情如果沒有得到有效控制，世界會發生什麼事情？頭腦風暴？

1.世界經濟遭到重創疫情影響之下，各行各業基本屬於停工停產的狀態，在世界經濟趨於一體化的今天，停工停產勢必會造成一系列的連鎖反應，最後導致的結果可能會引發金融危機。2.世界格局可能發生改變美國仍是世界:-頭腦風暴控制:國外疫情如果沒有得到有效控制，世界會發生什麼事情？頭腦風暴？疫情國外

本田XRV這款車的整體表現怎麼樣？我想買1.5T自動豪華版，全款多少錢？

如果有15萬元的預算，讓你選擇一臺空間和動力都很不錯的小型SUV，我覺得很多的讀者都會想到本田XRV這款車型。因為本田XRV確實太出色了，和同級別的其他盒子SUV車型相比，這款車在空間和動力上都有優勢:-xrv 自動:本田XRV這款車的整體表現怎麼樣？我想買1.5T自動豪華版，全款多少錢？本田豪華版

現在存款有14萬，借了5萬還沒收回來，該做什麼好？

何去何從:現在存款有14萬，借了5萬還沒收回來，該做什麼好？續租存款利息率較低，可以投資較高收益的項目，比如投資基金，一般情況下可獲得6%一10%的回報。如果行情好可達到50%以上收益，去年不少基金超過這目標。目前受疫情影響，股市在低位震盪，也是基金投資的機會。一:-存款 2300

2070super和5700xt買哪個比較好？

如果是玩遊戲毫無疑問選擇n卡，也就是2070 suep。如果追求性價比可以選擇a卡，也就是5700xt. 為什麼遊戲選n卡呢？首先遊戲廠商針對n卡優化比較多，然後就是功耗小，然後N卡架構執行效率極高，:-:2070super和5700xt買哪個比較好？

生完二胎後，感覺自己有點抑鬱，總是想發火，特別煩躁，怎麼辦？

二胎我是兩個孩子的媽媽，曾經的我和你一樣，生完寶寶我也抑鬱了，我知道抑鬱症真的很痛苦，產後的那段日子我整天都不開心，做什麼事也沒積極性，誰也不想搭理，別人給我說話我就覺得很煩。忍不住衝家人發脾氣。每當一個:-生完抑鬱:生完二胎後，感覺自己有點抑鬱，總是想發火，特別煩躁，怎麼辦？發火

人這一生遇到的人和事為什麼感覺都像是必然的經歷？

感覺:人這一生遇到的人和事為什麼感覺都像是必然的經歷？正所謂有因必有果，所以你今天的因，就會產生明天的果。所以這一切你就會覺得是必然的。生活中大部分是普通人大家的生活規律，生活方式，大致相同。當你看到別人家庭的果，自己家也產生同樣的果，你就會覺得這一切是:-人和經歷

現在校內校外到底教的是美式英語還是英式英語還是混搭英語？

校內:現在校內校外到底教的是美式英語還是英式英語還是混搭英語？校外英式答案肯定是不唯一的！美式英語現在是主流，少量英式發音也個別存在！但對於孩子來說，肯定是混搭英語，因為孩子肯定不是一直一位老師教下去，肯定會換老師！而老師的發音肯定是既有英式的，也有美式的！就連一些英語:-美式英語

上有老下有小，我們真的跳不出這個人生循環了嗎？

上有老魔咒:上有老下有小，我們真的跳不出這個人生循環了嗎？的確如此，儘管現在不結婚，晚婚的人很多，但是從人類繁洐生息的歷史和大多數人來看，成家立業，生兒育女，家庭仍是主流，一個人的生理，心理和生存需求決定了生存狀態，生兒育女，瞻養父母即是義務責任，也是生活動:-下有小

如果外面正在下小雨，你會突然想起了誰？

想起:如果外面正在下小雨，你會突然想起了誰？我最不忘，還是秋日的雨夜，天又涼了幾分，已經需要披上一件薄薄的外套了。臨窗而望，眼見窗臺上的幾株小植物，葉片上沾了幾滴小雨珠，我總喜歡，用小手電去照它們，這樣的小水滴看起來晶瑩晶瑩的，有一種清清涼涼的:-小雨

初中同學許久未見大學期間突然聯繫請吃飯，態度還良好，我給推了，會不會讓人很煩？

初中同學:初中同學許久未見大學期間突然聯繫請吃飯，態度還良好，我給推了，會不會讓人很煩？吃飯許久未見，意思就是交情不怎麼樣，無功不受祿，人家憑什麼那麼熱情，難道真的是多年一來忘不了咱們之間的同學情誼，倍感想念了嗎，不是請幫忙、做業務、就是借錢，十有八九十借錢。我建議還是不要去的好，大家都很忙:-許久未見

現在我覺得認真對某個人說我喜歡你什麼的這種話好惡心，我愛你更說不出口，好惡心，是什麼心理？

出口心理:現在我覺得認真對某個人說我喜歡你什麼的這種話好惡心，我愛你更說不出口，好惡心，是什麼心理？愛你更多的是心裡問題，可能對方還沒有優秀到你滿意的程度，更沒有到那種離不開的地步！愛情最終還是要回歸生活，而生活離不開兩個人的相處，父母終究會老，孩子終究會飛，所以選擇自己的伴侶尤為重要，你現在覺得噁心更:-喜歡你

劇版的《何以笙簫默》和《再見王瀝川》哪一個更好看呢？

再見王瀝川好看:劇版的《何以笙簫默》和《再見王瀝川》哪一個更好看呢？《遇見王瀝川》吧，高以翔的王瀝川太招人稀罕了。長相，身材，家世，人品，才能樣樣好，簡直完美，挑不出任何毛病，實在要說一個缺點的話，那就是太tm完美，天妒英才、才讓他飽受病魔折磨。偶像劇、深情帥氣的男主:-何以笙簫默

計算機專業本科能夠進入字節跳動、華為這些公司做開發嗎？是否還需要繼續讀研？

學歷是求職必備條件。有了工作不能停止對知識的探索。更高的學歷，可以讓你有更專業的技術能力和學習能力，可以讓你拓展自己的交際圈，可以讓你更知名。總之，活到老，學到老，學習對人總是有好處的，技多不壓身嘛！:-字節跳動:計算機專業本科能夠進入字節跳動、華為這些公司做開發嗎？是否還需要繼續讀研？讀研計算機專業

生完二胎的你們，現在有什麼感想？

二胎家庭日常是什麼樣的？是不是覺得家裡多了一個小人兒，溫馨多了？不存在的！生二胎根本是媽媽們的渡劫磨礪！以前週末睡到自然醒，現在全年無休，時刻警醒著，能睡一次懶覺跟過年似的，黑眼圈不說，頭髮呼啦啦地掉:-生完二胎感想:生完二胎的你們，現在有什麼感想？

華北適合種植蠶豆嗎？

華北適合種植蠶豆，種蠶豆的面積大，在西北，華北，都在種植蠶豆，蠶豆莖稈根部有根瘤菌是種植其它農作物的好茬地，特別是土壤培養和防病蟲害起到作用。:-蠶豆種植適合:華北適合種植蠶豆嗎？華北

華為手機更新EMUI10.1系統後效果咋樣？

大家知道現在智能手機的性能不僅僅跟智能手機的硬件有關，還跟智能手機的系統軟件息息相關，在國產智能手機操作系統裡，小米的MIUI系統跟華為的EMUI系統都是比較優秀的操作系統。最近小米推出了小米MIUI:-咋樣華為華為手機更新:華為手機更新EMUI10.1系統後效果咋樣？

大熱天蜜蜂老是爬到箱外結群正常嗎？

蜜蜂爬到:大熱天蜜蜂老是爬到箱外結群正常嗎？盜蜂現在正是夏季，很多地方蜜源稀少，蜂群中可能缺蜜，也是胡蜂猖獗的時間，所以蜂群中是非常容易發生盜蜂的。在蜂群中發生盜蜂的時候，蜂群守衛蜂會增多，但是這種情況引發的蜜蜂在蜂箱外一般不會結團，只是蜜蜂來:-大熱天

辣椒正是生長最佳期，偏偏有的辣椒苗蔫，不是病蟲害是咋回事？

最佳期霧都山客來回答您的問題。最近山客家鄉的村民正在進行辣椒移栽，確實有像題主提到的情形，辣椒苗移栽前長勢蔥蔥，嫩綠喜人，但是移栽後幾天內就出現萎蔫現象，細心觀察也不是被病蟲害危害。那究竟是什麼原因導致辣椒:-苗蔫辣椒咋回事:辣椒正是生長最佳期，偏偏有的辣椒苗蔫，不是病蟲害是咋回事？

手機相機發展的最終形態會是怎樣的？

最近這幾年手機在電子產品行業裡可謂是發展速度非常快，蘋果和華為兩大公司可以說也是，明爭暗鬥，產品一次比一次有賣點，前一段時間華為和蘋果還都推出了手機新品，兩家都在大力宣傳強調著拍照功能，像iPhone:-形態相機手機最終:手機相機發展的最終形態會是怎樣的？

華為為什麼不出一款5寸全面屏手機呢？我想應該會有很多人支持吧？

5寸手機支持:華為為什麼不出一款5寸全面屏手機呢？我想應該會有很多人支持吧？很高興回答你的問題，刷頭條刷出來的問題，看到很多人回答，感覺還有一些觀點沒有寫出，所以我來回答一下。首先，華為為什麼不出小尺寸全面屏手機？其實並不只有華為一家沒有出小屏手機，放眼近期各大手機廠商發佈的:-華為

生吃山芋，生吃胡蘿蔔，還有哪些蔬菜可以生吃呢？

胡蘿蔔蔬菜:生吃山芋，生吃胡蘿蔔，還有哪些蔬菜可以生吃呢？第一種，黃瓜。這個瓜，可不是菜市場中堆放滿滿的青瓜。各位可要睜大眼睛看清楚了，這個黃瓜，青中帶黃，品種屬以前鄉下農戶少量種植的，形態上面來看這種瓜矮、短、圓，表面覆蓋有比較淡的細毛，經水輕輕沖洗之後整:-山芋

為什麼馬鈴薯不宜過早過遲播種？

不宜:為什麼馬鈴薯不宜過早過遲播種？播種過早為什麼馬鈴薯不宜過早過遲播種？馬鈴薯的種植主要是由於氣候條件的限制，過早出苗後容易遇到低溫被凍死，種植晚了容易遇到乾旱和高溫，影響產量。馬鈴薯種植時間的早晚必須根據種植地方的氣候條件來確定。馬鈴薯生長:-馬鈴薯

疫情愈發嚴重，原油為何反而大漲？

原油愈發:疫情愈發嚴重，原油為何反而大漲？疫情愈發嚴重和原油大漲沒有必然關係。但是資金總是從高處流向低處，原油價格跌的越多，投資價值越明顯，相對於其他產業更有投資價值。舉個例子：深圳南山房價均價大約6萬左右，寶安均價5萬左右，如果南山房價漲到:-疫情

生菜球很好吃，怎麼種植才能高產呢？

種植:生菜球很好吃，怎麼種植才能高產呢？高產對環境條件的要求、1.溫度生菜球為喜冷涼、忌高溫作物，種子在4度以上可發芽、以15～20度為發芽適溫。幼苗能耐較低溫度，日平均溫度12度時生長壯健，葉球生長最適溫度為13～16度。不過目前有些結球生菜:-生菜

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？？

看下這個戶型三房改四房，改一個小房間，應該沒有問題。△原戶型圖這個戶型改四房，能改的方案比較多，但是修改以後是否好用，是一件值得考慮的事情。一、主臥室變為兩個臥室可以將主臥室改為兩個臥室，但是這樣的改動佔:-房改 122:裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？？ 144

大家幫忙看看這個房子如果要砸牆的話，怎麼改比較好？

房子:大家幫忙看看這個房子如果要砸牆的話，怎麼改比較好？這個戶型砸牆，當然可以砸牆，但是在砸牆之前，要搞清楚為什麼要砸牆，砸牆以後有什麼優劣。△原戶型原戶型圖上的白色牆體部分不是承重牆，理論上說否可以砸掉。但是外牆和與旁邊戶型或者是公共區域的共用牆體和圖上:-幫忙

意蜂夏季喝什麼水降溫？

降溫意蜂夏季喝什麼水降溫？氣溫高，蜂巢溫度高的情況下，蜜蜂是通過採水的辦法掛在蜂箱的四壁來蒸發帶走熱量，降低蜂巢溫度同時也能幫助蜂群維持正常的溼度。在平常的情況下，蜜蜂是在室外採自然水的。夏季消耗的水量:-意蜂夏季:意蜂夏季喝什麼水降溫？

黃瓜種子催芽後種植需要打底水嗎？

黃瓜種子:黃瓜種子催芽後種植需要打底水嗎？你好很高興回答這個問題。答案：不用。1-2天可出芽。黃瓜種子催芽：選用飽滿的種子，用30℃水浸泡4小時後催芽。也可用100倍福爾馬林溶液浸泡種子10-20分鐘，洗淨後清水浸種3-4小時，然後於25-3:-催芽黃瓜打底

書友們展示一下自我感覺發揮較好的作品，一起學習？

自我較好這幅作品是參賽的，色彩的搭配，紙張的拼接都是自己設計完成的，一如既往的清新淡雅感覺。書體用的魏碑中楷書，增加了書寫的趣味性。:-書友展示:書友們展示一下自我感覺發揮較好的作品，一起學習？