python分析全國香菸數量及價格,看看有沒有你喜歡的牌子

python分析全國香菸數量及價格,看看有沒有你喜歡的牌子


大家好,小笨鳥今天給大家分享一篇關於國產香菸分析的文章,主要用python爬取“煙悅網”數據,並作詳細分析,帶你看看香菸的種類及價格現狀,放一張詞雲圖:

python分析全國香菸數量及價格,看看有沒有你喜歡的牌子

1.爬取數據

1.1 網站分析

進入主頁,煙悅網網址:https://www.yanyue.cn/tobacco

python分析全國香菸數量及價格,看看有沒有你喜歡的牌子

我們可以發現,所有香菸品牌的名字及對應網址(href)直接在首頁內,是一個簡單的靜態網頁。

隨機進入某香菸品牌的主頁:

python分析全國香菸數量及價格,看看有沒有你喜歡的牌子

發現內含該品牌下不同種類的香菸,包含名稱、類型、焦油量及價格等信息。

打開流量分析工具,分析找到該數據接口:

python分析全國香菸數量及價格,看看有沒有你喜歡的牌子

是1個json格式的文件,再來看看它的請求參數:

python分析全國香菸數量及價格,看看有沒有你喜歡的牌子

有兩個變量,分別是brandid=23(每個香菸品牌都有1個數字代表,在上一步網頁中可以找到),page=1(頁碼),這兩個變量都很好分析。

現在網站上的邏輯關係基本已經捋順了。

1.2 爬取數據

獲取每個品牌的名字及對應網址:

python分析全國香菸數量及價格,看看有沒有你喜歡的牌子


構造每個品牌的主頁網址,計算總頁數:

python分析全國香菸數量及價格,看看有沒有你喜歡的牌子

根據總頁數,把該品牌所有香菸種類的數據爬下來:

python分析全國香菸數量及價格,看看有沒有你喜歡的牌子


將數據保存到表格中:

python分析全國香菸數量及價格,看看有沒有你喜歡的牌子


2.數據分析

本次數據分析主要通過pyecharts實現

2.1 分析香菸種類及數量

python分析全國香菸數量及價格,看看有沒有你喜歡的牌子

python分析全國香菸數量及價格,看看有沒有你喜歡的牌子


從上圖可以看出:

·香菸品牌總共有106種

·香菸種類一共有2390種

2.2 畫出香菸名字種類詞雲圖

python分析全國香菸數量及價格,看看有沒有你喜歡的牌子

python分析全國香菸數量及價格,看看有沒有你喜歡的牌子


·根據詞的大小可以看出該品牌下香菸種類的數量,看來是黃鶴樓最多

2.3 畫出香菸種類數量排名前十柱狀圖

python分析全國香菸數量及價格,看看有沒有你喜歡的牌子

python分析全國香菸數量及價格,看看有沒有你喜歡的牌子

果然,種類最多的是黃鶴樓,一共有197種,感覺這幾類煙都挺常見的

2.4 畫出價格分佈柱狀圖

主要根據每種價格對應的種類數量畫圖(例如20元的香菸有161種)

python分析全國香菸數量及價格,看看有沒有你喜歡的牌子

python分析全國香菸數量及價格,看看有沒有你喜歡的牌子


這個圖看起來不那麼整齊,但是仍可以獲得一些信息:

·20元的價格種類最多,總共有161種;

·最便宜的煙價格為1.5元,有6種,像北戴河(軟烤)、芙蓉(軟橙)、甲天下(軟)等,不知道能不能買到,但應該是很多人的回憶;

·最貴的煙價格為250元,總共有2種,分別是熊貓(聽50支)、中華(聽50支)。

2.5 畫出不同價格段香菸種類的餅狀圖

首先把價格按如下方式分段:

python分析全國香菸數量及價格,看看有沒有你喜歡的牌子

然後統計數量並畫圖:

python分析全國香菸數量及價格,看看有沒有你喜歡的牌子

python分析全國香菸數量及價格,看看有沒有你喜歡的牌子

從圖可以看出,10-20元的煙種類最多,其次是0-10元和20-30元,將近一半的煙都在20元以下。

2.6 最後畫1張當月最受歡迎的香菸top10排名圖

python分析全國香菸數量及價格,看看有沒有你喜歡的牌子

python分析全國香菸數量及價格,看看有沒有你喜歡的牌子


排名是根據網站上每個牌子香菸的訪問量計算來的,看來荷花非常受歡迎啊。


吸菸有害健康,希望廣大煙民程序員儘快戒菸哦!
本文所有數據均來自網絡,僅為學習交流使用,不作為其他參考。

代碼已傳至公號【python的爬蟲與數據分析之路】,在後臺回覆“香菸”獲取


精彩回顧:
你是如何用python寫下第一個爬蟲的?

用python製作全國身份證號驗證及查詢系統

用python對全國火車站數量進行分析,發現東北三省竟然佔了2成

北京的房價到底有多貴?我爬取了3萬多條數據得出分析結果

海外疫情發展態勢怎麼樣?python動態視頻20秒告訴你

基金抄底成功的概率有多大?python帶你來分析


分享到:


相關文章: