大家好,小笨鳥今天給大家分享一篇關於國產香菸分析的文章,主要用python爬取“煙悅網”數據,並作詳細分析,帶你看看香菸的種類及價格現狀,放一張詞雲圖:
1.爬取數據
1.1 網站分析
進入主頁,煙悅網網址:https://www.yanyue.cn/tobacco
我們可以發現,所有香菸品牌的名字及對應網址(href)直接在首頁內,是一個簡單的靜態網頁。
隨機進入某香菸品牌的主頁:
發現內含該品牌下不同種類的香菸,包含名稱、類型、焦油量及價格等信息。
打開流量分析工具,分析找到該數據接口:
是1個json格式的文件,再來看看它的請求參數:
有兩個變量,分別是brandid=23(每個香菸品牌都有1個數字代表,在上一步網頁中可以找到),page=1(頁碼),這兩個變量都很好分析。
現在網站上的邏輯關係基本已經捋順了。
1.2 爬取數據
獲取每個品牌的名字及對應網址:
構造每個品牌的主頁網址,計算總頁數:
根據總頁數,把該品牌所有香菸種類的數據爬下來:
將數據保存到表格中:
2.數據分析
本次數據分析主要通過pyecharts實現
2.1 分析香菸種類及數量
從上圖可以看出:
·香菸品牌總共有106種
·香菸種類一共有2390種
2.2 畫出香菸名字種類詞雲圖
·根據詞的大小可以看出該品牌下香菸種類的數量,看來是黃鶴樓最多
2.3 畫出香菸種類數量排名前十柱狀圖
果然,種類最多的是黃鶴樓,一共有197種,感覺這幾類煙都挺常見的
2.4 畫出價格分佈柱狀圖
主要根據每種價格對應的種類數量畫圖(例如20元的香菸有161種)
這個圖看起來不那麼整齊,但是仍可以獲得一些信息:
·20元的價格種類最多,總共有161種;
·最便宜的煙價格為1.5元,有6種,像北戴河(軟烤)、芙蓉(軟橙)、甲天下(軟)等,不知道能不能買到,但應該是很多人的回憶;
·最貴的煙價格為250元,總共有2種,分別是熊貓(聽50支)、中華(聽50支)。
2.5 畫出不同價格段香菸種類的餅狀圖
首先把價格按如下方式分段:
然後統計數量並畫圖:
從圖可以看出,10-20元的煙種類最多,其次是0-10元和20-30元,將近一半的煙都在20元以下。
2.6 最後畫1張當月最受歡迎的香菸top10排名圖
排名是根據網站上每個牌子香菸的訪問量計算來的,看來荷花非常受歡迎啊。
吸菸有害健康,希望廣大煙民程序員儘快戒菸哦!
本文所有數據均來自網絡,僅為學習交流使用,不作為其他參考。
代碼已傳至公號【python的爬蟲與數據分析之路】,在後臺回覆“香菸”獲取
精彩回顧:
你是如何用python寫下第一個爬蟲的?
用python製作全國身份證號驗證及查詢系統
用python對全國火車站數量進行分析,發現東北三省竟然佔了2成
北京的房價到底有多貴?我爬取了3萬多條數據得出分析結果
海外疫情發展態勢怎麼樣?python動態視頻20秒告訴你
基金抄底成功的概率有多大?python帶你來分析
閱讀更多 小笨鳥88 的文章
關鍵字: 伴隨成長的中國味品牌 網絡爬蟲 香菸