python爬蟲框架Scrapy採集數據，並製作詞雲圖分析！技术頭條網

python爬蟲框架Scrapy採集數據，並製作詞雲圖分析！

2020-04-10 13:58:53 編程樂園

scrapy介紹

Scrapy 是一套基於Twisted、純python實現的異步爬蟲框架，用戶只需要定製開發幾個模塊就可以輕鬆的實現一個爬蟲，用來抓取網頁內容以及各種圖片，相當的方便～

整體架構和組成

Scrapy Engine(引擎)

引擎負責控制數據流在系統所有組件中的流動，並在相應動作發生時觸發事件，是框架的核心。

Scheduler(調度器)

調度器從引擎接受request並將他們入隊，在引擎再次請求時將請求提供給引擎。

Downloader(下載器)

下載器負責獲取頁面數據並提供給引擎，而後提供給spider。

Spider(爬蟲)

Spider是Scrapy用戶編寫用於分析response並提取item(即獲取到item)或額外跟進的URL的類，定義了爬取的邏輯和網頁內容的解析規則。每個spider負責處理一個特定(或一些)網站。

Item Pipeline(管道)

Item Pipeline負責處理被spider提取出來的item。典型的處理有清洗，驗證及持久化(例如存取到數據庫中)

Downloader Middlewares(下載中間件)

下載器中間件是在引擎及下載器之間的特定鉤子(specific hook)，處理Downloader傳遞給引擎的response（也包括引擎傳遞給下載器的Request）。其提供了一個簡便的機制，通過插入自定義代碼來擴展Scrapy功能。

Spider Middlewares(Spider中間件)

Spider中間件是在引擎及Spider之間的特定鉤子(specific hook)，處理spider的輸入(response)和輸出(items及requests)。其提供了一個簡便的機制，通過插入自定義代碼來擴展Scrapy功能。

安裝

<code>pip install scrapy/<code>

爬蟲項目

準備工作

創建項目

<code>scrapy startproject xingmingdq/<code>

新建爬蟲

<code>scrapy genspider xingming resgain.net/xmdq.html/<code>

這個時候，目錄下會創建xingmingdq文件夾，文件夾下就是xingmingdq scrapy項目，spiders下有xingming爬蟲文件。

建立item

items.py中添加以下代碼：

<code>class Xingming_Item(scrapy.Item):
    name = scrapy.Field()
    xingshi = scrapy.Field()
    xingshi_zh = scrapy.Field()/<code>

爬取名字

爬蟲文件spiders/xingming.py書寫網頁解析規則。

<code># -*- coding: utf-8 -*-
import scrapy
from xingmingdq.items import Xingming_Item 


class XingmingSpider(scrapy.Spider):
    name = 'xingming'
    # allowed_domains = ['www.resgain.net/xmdq.html']
    start_urls = ['http://www.resgain.net/xmdq.html']

    def parse(self, response):
        content = response.xpath('//div[@class="col-xs-12"]/a/@href').extract()

        for i in content:
            page = 0
            href = 'http:' + i
            base = href.split('/name')[0] + '/name_list_'
            while page < 10:
                url = base + str(page) + '.html'
                page += 1
                yield scrapy.Request(url, callback=self.parse_in_html)

    # 解析每一頁
    def parse_in_html(self, response):
        person_info = response.xpath('//div[@class="col-xs-12"]/div[@class="btn btn-default btn-lg namelist"]/div[@style="margin-top: 20px;"]')
        xingshi_zh = response.xpath('//div[@class="navbar-header"]/a/div[@style="text-align: center;"]/text()').extract()[0].split('姓之家')[0]
        xingshi = response.url.split('/')[2].split('.')[0]
        for every_one in person_info:
            name = every_one.xpath('./text()').extract()[0]
            the_item = Xingming_Item()
            the_item['name'] = name
            the_item['xingshi'] = xingshi
            the_item['xingshi_zh'] = xingshi_zh
            yield the_item/<code>

處理流程

pipelines.py中，編寫結果寫入文件的處理。

<code>class XingmingdqPipeline(object):
    def __init__(self):
        self.fp = open('xingming.csv', 'w', encoding='utf-8')

    def process_item(self, item, spider):
        self.fp.write('%s,%s,%s\\n' % (item['name'], item['xingshi_zh'], item['xingshi']))
        return item

    def close_spider(self, spider):
        self.fp.close()/<code>

設置參數

要想執行pipelines，需要在settings.py中進行配置，搜索USER_AGENT和ITEM_PIPELINES進行修改。

<code># 修改USER_AGENT
USER_AGENT = 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)'
# 配置ITEM_PIPELINES
ITEM_PIPELINES = {
    'xingmingdq.pipelines.XingmingdqPipeline': 300,
}/<code>

執行爬蟲

命令執行

<code>scrapy crawl xingming/<code>

腳本執行

寫入python文件，創建run.py，編輯下面代碼，pycharm中運行。

<code>import os
os.system("scrapy crawl xingming")/<code>

結果文件

詞雲分析

在線詞雲生成網站： https://www.weiciyun.com/

導入爬取的姓名數據，分析出圖：

哈哈哈，最多的竟然是婷婷

找找有你的名字沒有吧。

分享到:

閱讀更多 編程樂園 的文章

關鍵字: Python 網絡爬蟲 Scrapy

python爬蟲框架Scrapy採集數據，並製作詞雲圖分析！

整體架構和組成

安裝

爬蟲項目

準備工作

建立item

爬取名字

處理流程

設置參數

執行爬蟲

詞雲分析

相關文章:

Python+scrapy代理接入之訊代理

Python+scrapy代理接入之聚合代理

Python分佈式爬蟲一點也不難！Scrapy+MongoDB爬取QQ音樂實戰

Python+Scrapy+Selenium數據採集!超級詳細！

scrapy爬蟲（三）——模擬登錄

推薦｜scrapy爬取代理IP構建自有IP池（入門到實戰）

Scrapy爬蟲（二）——FilesPipeline

Scrapy爬蟲（一）——ImagesPipeline

Django中間件看完這篇徹底明白

一招大幅提升 requests 訪問速度

Python資料：《用Python寫網絡爬蟲》分享

一篇文章教會你理解和定義Scrapy爬蟲框架中items.py文件

02.27 基於python的Scrapy爬蟲框架實戰，小白也可操作

Scrapy-Redis分佈式爬蟲實戰

scrapy + mogoDB 網站爬蟲

Python爬蟲之Scrapy爬蟲框架解密與並爬取亞馬遜評論數據

01.05 Scrapy + Selenium模擬登錄CSDN

12.29 python爬取獲取下一頁的信息

爬蟲小知識，scrapy爬蟲框架中爬蟲名詞的含義

使用 Scrapy 爬取去哪兒網景區信息

Scrapy 和 scrapy-redis的區別

11.27 Scrapy 去重機制

Scrapy學習篇：Item詳解

scrapy架構分析

Scrapy 爬蟲完整案例-提升篇

Scrapy 爬蟲完整案例-進階篇

Scrapy框架進階篇

Scrapy 爬蟲框架組件詳細介紹（二）

python爬蟲入門實戰(二)！快！快！快！讓爬蟲贏在起跑線！多線程

07.05 「原創」「python自學筆記」安裝Scrapy

高清！Python爬蟲思維導圖：Requests，BeautifulSoup & Scrapy

scrapy簡單入門介紹

爬蟲項目04-電影蜜蜂

Tool 003-Python Scrapy 爬取校花照片

Python Tool 101-Tool 003-Python Scrapy 爬取文本數據

Scrapy-Redis分佈式實現

大數據開發神器——scrapy spider框架（代碼入門篇）

小案例大來頭，七十行代碼入門Python爬蟲頂級框架 scrapy！

網絡爬蟲框架 Scrapy 入門教程

爬取1024社區，將種子和配圖保存本地，發送到指定郵箱的神奇代碼

初學者學習python2還是python3？

Scrapy 爬蟲框架的安裝與基本介紹

Python之 Scrapy框架day02

Scrapy網絡爬蟲：6. 圖片下載與文件下載實現異同

Scrapy網絡爬蟲：框架組成與工作原理-組件與數據流

用Scrapy爬取bilibili用戶信息

python爬蟲學習筆記day——1

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

為什麼只有edg賺錢？

網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？

我們買的新商品房還沒有拿到房產證，怎麼轉賣最好？

為什麼突厥人可以成功復國？是大唐的刀不鋒利了麼？

小高層16層高樓間距60米哪一層比較好？

金銀花盆栽好養嗎？怎麼養？

長城對於抵禦古代匈奴和蒙古人起到了多大作用？

什麼樹可以嫁接臘梅？

行情堪憂，還有多少教育機構的老師們五一假期有課上的？課時量多不多？

在農村“立夏節”都有哪些民間習俗？

男朋友失望分手，但對我還有感覺，答應我兩個月之後可以在一起，我應該怎麼做，才能改變之前他對我的看法？

工程分包乙方人員傷殘誰承擔？

有哪些看起來毫不相關的兩個歷史人物實際上有過聯繫？

13年雪鐵龍世嘉自動擋7萬多公里，沒有水泡事故，多少錢能買？

22+吃土少女17年就有駕駛證了，今年才開始開車，想買個二手昂克賽拉，或者有什麼好建議嗎？

如何騎車去臺灣騎行？

本人預算5萬左右，想買一輛二手法系車！求推薦？

14年進口馬自達5PK進口10年道奇酷威買哪個划算？

2020年，河南教育行業國務院特殊津貼推薦，河南大學並列第三，大家怎麼看？

本田CRV2019款1.5T舒適版油耗高嗎？

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？？