彈幕有點逗比,用 Python 爬下來看看《民國奇探》的彈幕


彈幕有點逗比,用 Python 爬下來看看《民國奇探》的彈幕

電視劇《民國奇探》是一部充斥著逗比風的探案劇,劇中主要角色:三土、四爺、白小姐,三土這個角色類似於《名偵探柯南》中的柯南但帶有搞笑屬性,四爺則類似於毛利小五郎但有大哥範且武功高強,三土尚文四爺尚武,白小姐大多時候扮演著傻白甜的角色。

因為該劇目前大多數時候都處於愛奇藝電視劇的榜首位置,所以自己也看了幾集,總的來說劇情緊湊,劇風逗比,當然最令我印象深刻的還是網友們逗比的彈幕,所以我決定用 Python 將彈幕爬下來大家一起瞧瞧。

數據爬取

現在開始我們的爬取工作,先用瀏覽器打開電視劇的網頁,地址為:https://www.iqiyi.com/v_19rx2un304.html?vfrm=pcw_home&vfrmblk=B&vfrmrst=fcs_0_t12,我們使用開發者工具的 Network 功能,進到 Network 控制檯後,我們先使用 Ctrl+R 命令重新加載一下網頁,然後再通過過濾器搜索 bullet,如下圖所示:

彈幕有點逗比,用 Python 爬下來看看《民國奇探》的彈幕

這裡的彈幕數據是以 .z 形式的壓縮文件存在的,如下圖所示:

彈幕有點逗比,用 Python 爬下來看看《民國奇探》的彈幕

我們可以看出壓縮文件命名規則為 tvid_300_n.z,所以我們先來獲取 tvid 列表,代碼實現如下所示:


彈幕有點逗比,用 Python 爬下來看看《民國奇探》的彈幕

獲取到 tvid 列表後,我們就可以根據 tvid 獲取彈幕的壓縮文件了,然後再對其進行解壓及存儲,實現代碼如下所示:

彈幕有點逗比,用 Python 爬下來看看《民國奇探》的彈幕

文件存儲到本地之後,我們先獲取每一個文件的全路徑名,實現代碼如下所示:

彈幕有點逗比,用 Python 爬下來看看《民國奇探》的彈幕

獲取到所有文件全路徑名後,我們再根據全路徑名獲取文件並解析彈幕文本信息,實現代碼如下所示:

彈幕有點逗比,用 Python 爬下來看看《民國奇探》的彈幕

最後,我們可以將整個彈幕字符串信息保存起來,因為我本次爬取的彈幕信息並不是特別多,所有就先存到 txt 文件中吧,實現代碼如下所示:

彈幕有點逗比,用 Python 爬下來看看《民國奇探》的彈幕

詞雲展示

數據保存完了之後,我們再來個詞雲展示吧,代碼實現如下所示:

彈幕有點逗比,用 Python 爬下來看看《民國奇探》的彈幕

看一下效果:

彈幕有點逗比,用 Python 爬下來看看《民國奇探》的彈幕


分享到:


相關文章: