如果利用Python爬取B站上千萬數據？B站直播都是大屌萌妹嗎？

2018-06-08 14:15:32 繁華落盡and曲終人散

粉絲獨白

說起熱門的B站相信很多喜歡玩動漫的，看最有創意的Up主的同學一定非常熟悉。我突發奇想學Python這麼久了，為啥不用Python爬取B站中我關注的人，已經關注的人他們關注的人，看看全站裡面熱門的UP主都是是哪些。

要點：

- 爬取10萬用戶數據

- 數據存儲

- 數據詞雲分析

1.準備階段

寫代碼前先構思思路：既然我要爬取用戶關注的用戶，那我需要存儲用戶之間的關係，確定誰是主用戶，誰是follower。

存儲關係使用數據庫最方便，也有利於後期的數據分析，我選擇sqlite數據庫，因為Python自帶sqlite，sqlite在Python中使用起來也非常方便。

數據庫中需要2個表，一個表存儲用戶的相互關注信息，另一個表存儲用戶的基本信息，在B站的用戶體系中，一個用戶的mid號是唯一的。

然後我還需要一個列表來存儲所以已經爬取的用戶，防止重複爬取，畢竟用戶之間相互關注的現象也是存在的，列表中存用戶的mid號就可以了。

2.新建數據庫

先寫建數據庫的代碼，數據庫中放一個用戶表，一個關係表：

3.爬取前5頁的用戶數據

我需要找到B站用戶的關注列表的json接口，很快就找到了，地址是：

https://api.bilibili.com/x/relation/followings?vmid=2&pn=1&ps=20&order=desc&jsonp=jsonp&callback=__jp7

其中vimd=後的參數就是用戶的mid號

pn=1指用戶的關注的第一面用戶,一面顯示20個用戶

因為B站的隱私設置，一個人只能爬取其他人的前5頁關注，共100人。

整個爬取頁面的思路比較簡單，首先設置header,用requests庫進行API請求，獲得關注的用戶數據列表。

我們爬取前5頁，每一頁的數據進行簡單的處理，然後轉為字典數據進行獲取mid,uname,sign3個維度的數據，最後save()函數存入db.

分享到:

閱讀更多 繁華落盡and曲終人散 的文章

關鍵字: JSON 技術獨白

Python 63個內置函數

Python Turtle畫分形樹理解遞歸

python 內存管理

python 遞歸輸出文件

Python 中的

python copy

Python—turtle畫圖（哆啦A夢）

python 協程

Python 繪圖以及文件的基本操作

Python wordcloud庫介紹

python 閉包

Python 判斷列表是否已排好序

python：序列和元組的區別

Python While 循環語句介紹

03.04 Python While 循環語句介紹

03.01 Python 模塊

python 註釋

python pandas數據清洗

Python 中的bool值

python-unittest基本介紹

Python 分發包中添加額外文件

# Python 3 # Python 3字典Dictionary（2）

# Python 3 # Python 3字典Dictionary（1）

# Python 3 # Python 3運算符（4）

# Python 3 # Python 3基本數據類型（3）

12.21 python lambda表達式簡單用法

python :中文大寫轉阿拉伯數字（金額）

python str和bytes的區別

Python 的四種共享傳參詳解

[PYTHON]，字符串的查找，什麼時候能混到給錢不用找零了

說說在 Python 中如何導入類

[PYTHON]，字符串的大小寫，大賭場小賭場大小賭場賭大小

[PYTHON]，字符串的類型判斷，只聽得驚堂木一拍

[PYTHON]，字符串轉義字符，字符串變身

python 音頻處理

python 可變對象和不可變對象

Python 程序運行時間計時

python 字典底層實現原理

06.20 Python 枚舉類型 Enum

06.17 Python Lambda 表達式

06.17 Python 數據類型轉換

06.16 Python 中的包 Packages

06.09 Python 正則表達式斷言 Assertions

06.09 Python 異常處理

python-with語法

05.27 python-with語法

python-as語法

05.27 python-as語法

「python」高階函數map、reduce的介紹