前言
大家好,又到了Python爬蟲+數據分析可視化的專題,今天案例是對美團網杭州市美食團購的數據進行分析,如果已經或者最近有打算開一家美食團購店鋪的讀者,希望本文能對你有所幫助。
數據獲取
本次案例需要爬取的目標網站為美團網web端杭州市美食頁面
方法還是和之前的一樣,F12查看數據包,找到對應的url再使用requests爬取數據
由於這部分操作我們已經使用來很多次,並且也出過技術解析,所以此處就不再贅述,來看部分代碼
<code>for url in url_list:
print(n)
data = requests.get(url,headers = headers).json()
data1 = data['data']['poiInfos']
for i in range(len(data1)):
title = data1[i]['title']
area = data1[i]['address'][0:3]
score = data1[i]['avgScore']
comment = data1[i]['allCommentNum']
price = data1[i]['avgPrice']
coupons = coupon(data1[i]['dealList'])
try:
coupons_num = coupon1(data1[i]['dealList'][0]['title'])
except:
coupons_num = 0
diejia = coupon2(data1[i]['dealList'])
wifi = coupon3(data1[i]['dealList'])
ziti = coupon4(data1[i]['dealList'])
temp = [title,area,score,comment,price,coupons,coupons_num,diejia,wifi,ziti]
df.loc[p] = temp
p = p + 1/<code>
數據說明
其實目標URL就是一個API
可以看到提供的信息並不多,甚至連銷售量都不提供,但對我們的分析並沒有太多影響,來看下最終取得的數據與指標說明
詞頻分析
首先我們來看一下杭州餐廳店鋪名的詞雲圖與條形圖
可以看到在800多家美食店鋪中,餐廳名中出現最多的還是火鍋、燒烤、蛋糕、咖啡,再繪製量化的條形圖
所以如果你的店鋪想走小眾路線那就要儘量避免上述種類的美食。
價格分析
本節對杭州市美食店鋪的整體價格情況進行分析,繪製出價格的直方圖
可以看到,大多數的店鋪團購均價低於100元,通過計算更能得到平均價低於100元的店鋪佔比達到89%,所以如果你想進軍杭州美食團購業,價格定在100元以下會更符合市場。
影響因素分析
在這一節我們將使用箱線圖對影響美食銷量、評分的相關因素進行分析,先來看下評分相關的因子,首先來看下店鋪優惠限制使用人數對評分的影響
可以看到,將優惠套餐設置為限制4人使用所獲的評價最高,其次是0人也就是一次只能一個人使用和7人,所以如果想售賣優惠券的話,就限制4人使用吧!
接著看下其他幾個指標對評分的影響,先看下商家是否提供Wi-Fi對評分的影響
上圖分別是商家是否提供Wi-Fi與平均分的箱線圖,其中越長的箱子表示提供WI-FI的商家數量越多,可以看到大多數商家提供了Wi-Fi並且其得分也要略高一點,再看看另外兩個指標。
上圖分別是優惠券是否可以疊加和商品自提與平均分的箱線圖,可以看到,大多數商家都提供這兩項功能,並且平均分比沒有該選項的商家要高。所以如果想開一家美食店,這兩項功能需要考慮哦。
區域對銷量的影響
本屆我們來分析不同區域對銷量的影響,由於我們獲得的數據並沒有提供直接銷售量,因此我們選擇評論數來代表銷量與杭州市不同區域進行分析
可以看到,江乾區、蕭山區、西湖區的商家最多,但是銷量相對高一點的區是富陽區、拱墅區、蕭山區、濱江區,所以如果想在杭州開一家美食店鋪,蕭山區是一個不錯的選擇。
結束語
通過上述分析,我們大致得到了如果想在杭州開一個美食店鋪,選擇在蕭山區,價格在100元以下,並且設置優惠套餐同時提供優惠券疊加、WI-FI上網、商品自提等功能會獲得更好的銷量與評價。
由於數據並不夠豐富,我們分析做到這裡就結束了,如果能獲取一些更多的信息比如:折扣力度、銷售量、評論關鍵詞等,我們就可以做一些更多的比如迴歸分析等統計分析。感興趣的讀者可以後臺回覆美團獲取本次分析使用的數據。另外想要說的是,美團網的反爬實在是很強大,如果自己在請求數據的時候一定要注意設置請求頭、代理IP與請求頻率。一旦被識別直接封IP(別問我為什麼知道!
源碼獲取的話私信小編01哈閱讀更多 地表嘴強程序員 的文章