手把手教你使用Python抓取QQ音樂數據（第三彈）頭條網

手把手教你使用Python抓取QQ音樂數據（第三彈）

2021-01-31 16:57:53 佚名

【一、項目目標】

通過手把手教你使用Python抓取QQ音樂數據（第一彈）我們實現了獲取 QQ 音樂指定歌手單曲排行指定頁數的歌曲的歌名、專輯名、播放鏈接。

通過手把手教你使用Python抓取QQ音樂數據（第二彈）我們實現了獲取 QQ 音樂指定歌曲的歌詞和指定歌曲首頁熱評。

此次我們在項目（二）的基礎上獲取更多評論並生成詞雲圖，形成手把手教你使用Python抓取QQ音樂數據（第三彈）。

【二、需要的庫】

主要涉及的庫有：requests、json、wordcloud、jieba

如需更換詞雲圖背景圖片還需要numpy庫和PIL庫（pipinstall pillow）

【三、項目實現】

1、首先回顧一下，下面是項目（二）獲取指定歌曲首頁熱評的代碼；

<code>
def get_comment(i):
    url_3 = 'https://c.y.qq.com/base/fcgi-bin/fcg_global_comment_h5.fcg'
    headers = {
'user-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',
        # 標記了請求從什麼設備，什麼瀏覽器上發出
        }
    params = {'g_tk_new_20200303': '5381', 'g_tk': '5381', 'loginUin': '0', 'hostUin': '0', 'format': 'json', 'inCharset': 'utf8', 'outCharset': 'GB2312', 'notice': '0', 'platform': 'yqq.json', 'needNewCode': '0', 'cid': '205360772', 'reqtype': '2', 'biztype': '1', 'topid': id, 'cmd': '8', 'needmusiccrit': '0', 'pagenum': '0', 'pagesize': '25', 'lasthotcommentid': '', 'domain': 'qq.com', 'ct': '24', 'cv': '10101010'}
    res_music = requests.get(url_3,headers=headers,params=params)
    # 發起請求
    js_2 = res_music.json()
    comments = js_2['hot_comment']['commentlist']
    f2 = open(i+'評論.txt','a',encoding='utf-8')    #存儲到txt中
    for i in comments:
        comment = i['rootcommentcontent'] + '\n——————————————————————————————————\n'
        f2.writelines(comment)
    # print(comment)
f2.close()
/<code>

2、下面來考慮如何獲取後面的評論，下圖是項目（二）評論頁面的parms參數；

image

3、網頁無法選擇評論的頁碼，想看後面的評論智能一次一次的點擊“點擊加載更多”；我們可以點擊一下看看parms有什麼變化。

image

4、這裡有個小技巧，先點擊下圖所示clear按鈕，把network界面清空，再點擊“點擊加載更多”，就能直接找到第二頁的數據。

image

5、點擊加載更多後出現下圖。

image

6、發現不止pagenum變了，cmd和pagesize也變了，到底那個參數的問題呢，那我們再看下第三頁；

image

7、只有pagenum變了，那我們嘗試一下把pagenum改成“0”，其他不變，能正常顯示第一頁數據嗎?

image

第一頁第一條評論

image

第一頁最後一條評論

image

8、能正常顯示，那就確定思路了：用第二頁的parms，寫一個for循環賦值給pagenum，參考項目（二）把評論抓取到txt。

9、代碼實現：為了不給服務器造成太大壓力，我們本次只爬取20頁數據。

<code>import requests,json
 
def get_id(i):
    global id
    url_1 = 'https://c.y.qq.com/soso/fcgi-bin/client_search_cp'
    # 這是請求歌曲評論的url
    headers = {'user-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}
    params = {'ct': '24', 'qqmusic_ver': '1298', 'new_json': '1', 'remoteplace': 'txt.yqq.song', 'searchid': '71600317520820180', 't': '0', 'aggr': '1', 'cr': '1', 'catZhida': '1', 'lossless': '0', 'flag_qc': '0', 'p': '1', 'n': '10', 'w': i, 'g_tk': '5381', 'loginUin': '0', 'hostUin': '0', 'format': 'json', 'inCharset': 'utf8', 'outCharset': 'utf-8', 'notice': '0', 'platform': 'yqq.json', 'needNewCode': '0'}
    res_music = requests.get(url_1,headers=headers,params=params)
    json_music = res_music.json()
    id = json_music['data']['song']['list'][0]['id']
    return id
    # print(id)
/<code>

<code>def get_comment(i):
    url_3 = 'https://c.y.qq.com/base/fcgi-bin/fcg_global_comment_h5.fcg'
    headers = {'user-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}
    f2 = open(i+'評論.txt','a',encoding='utf-8')    #存儲到txt中
    for n in range(20):
        params = {'g_tk_new_20200303': '5381', 'g_tk': '5381', 'loginUin': '0', 'hostUin': '0', 'format': 'json', 'inCharset': 'utf8', 'outCharset': 'GB2312', 'notice': '0', 'platform': 'yqq.json', 'needNewCode': '0', 'cid': '205360772', 'reqtype': '2', 'biztype': '1', 'topid': '247347346', 'cmd': '6', 'needmusiccrit': '0', 'pagenum':n, 'pagesize': '15', 'lasthotcommentid': 'song_247347346_3297354203_1576305589', 'domain': 'qq.com', 'ct': '24', 'cv': '10101010'}
        res_music = requests.get(url_3,headers=headers,params=params)
        js_2 = res_music.json()
        comments = js_2['comment']['commentlist']
        
        for i in comments:
            comment = i['rootcommentcontent'] + '\n——————————————————————————————————\n'
            f2.writelines(comment)
        # print(comment)
    f2.close()
    input('下載成功，按回車鍵退出！')
/<code>

<code>def main(i):
    get_id(i)
    get_comment(i)
main(i = input('請輸入需要查詢歌詞的歌曲名稱：'))
/<code>

10、詞雲圖代碼

<code>from wordcloud import WordCloud
import jieba
import numpy
import PIL.Image as Image  #以上兩個庫是為了更換詞雲圖背景圖片
 
def cut(text):
    wordlist_jieba=jieba.cut(text)
    space_wordlist=" ".join(wordlist_jieba)
    return space_wordlist
with open("句號評論.txt" ,encoding="utf-8")as file:
    text=file.read()
    text=cut(text)
    mask_pic=numpy.array(Image.open("心.png"))
    wordcloud = WordCloud(font_path="C:/Windows/Fonts/simfang.ttf",
    collocations=False,
    max_words= 100,
    min_font_size=10, 
    max_font_size=500,
    mask=mask_pic).generate(text)
    image=wordcloud.to_image()
    # image.show()
    wordcloud.to_file('雲詞圖.png')  # 把詞雲保存下來
/<code>

11、成果展示

image

【四、總結】

1、項目三比項目二多的功能:一是通過尋找parms參數裡每一頁評論頁碼之間的關係，爬取更多的評論；二是學會生成詞雲圖；（注意讀取文件的路徑）

2、WordCloud更多參數詳見下圖，可以研究出更多的玩法；

image

3、不只.txt可以作為詞雲圖的數據源，csv、Excel也可以：

<code>import xlrd 
#引入excel讀取模塊
 
datafile_path = '你的Excel文件.xlsx'
data = xlrd.open_workbook(datafile_path)
#文件名以及路徑
table = data.sheet_by_name('sheet')
##通過名稱獲取Sheet1表格
nrows = table.nrows
#獲取該Sheet1中的有效行數
list = []
for i in range(nrows):
    value = str(table.row_values(i)[1])
    # print(value)
    list.append(value)
# print(pingjia_list)
text = str(list).replace("'", '').replace(',', '').rstrip(']').lstrip('[')
# print(text)
/<code>

4、爬QQ音樂項目到此告一段落，如有需要的話可以通過Scrapy框架爬取更多的歌曲信息、歌詞、評論。但是作為練手項目，重要的不是爬多少數據，而是學會如何爬取指定的數據。

5、第四彈小編將會把前面三個項目封裝在一起，通過菜單控制爬取不同數據，敬請期待。

6、需要本文源碼的話，請在後臺回覆“QQ音樂”四個字進行獲取。

分享到:

關鍵字: headers QQ params

手把手教你使用Python抓取QQ音樂數據（第三彈）

相關文章:

QQ 微信都可以發的說說

QQ突然火了 沉寂已久的QQ再次掀起熱潮 你會拋棄微信嗎

奇瑞A3，QQ，艾瑞澤7，瑞虎5，奇瑞已停產經典車型盤點

新版QQ推出新功能，這個細節已經被小姐姐們玩瘋

本田版“QQ”亮相！配五塊科技大屏，馬力154匹，8秒左右可破百

限時揭曉一個方法，讓你日引100精準客戶，可迅速複製放大百倍

奇瑞又一親民好車，號稱大號“QQ”，不足6萬，城市代步通勤看它

騰訊這道“微信-QQ”防線，怎麼就那麼難突破？

騰訊帶頭，QQ、微信全面支持國產系統，原生適配Linux

QQ、微信上的寒暄，不如見一面來的實在

繞過QQ好友的問題驗證添加好友，無視對方設置任何問題

華為手機提示攔截qq刪除照片 華為副總對圖片攔截問題作出迴應

QQ，你多久沒有看了？

QQ功能多，但微信還是被很多人所青睞，只因為它的這幾個功能

國內十大App排名：微信、QQ、淘寶位列前三

《忽然之間》-全有哥哥唱了一首歌曲，快來聽聽吧。&gt;&gt;https://node.kg.qq.com/play?s=r63-HGrlCQUjLrrq&shareuid=639998842125358331&topsource=

在日本，一半的妻子出過軌，還有三分之一想殺老公。https://mp.weixin.qq.com/s/rw34Hz-x1yD1gTqfYix9tw

～～#rita小雨桑# https://m.egame.qq.com/live?anchorid=446908580

年末送禮啦給大家～《沙漠駱駝》提莫版本來啦～，點擊試聽哦@QQ音：https://i.y.qq.com/v8/playsong.html?songid=226316898&source=yqq#wechat

#小緣# 我的新歌《味覺的旅行》已經上線了！這首動畫《萌妻食神》的片頭曲希望大家能夠喜歡[可愛]QQ音樂鏈接：https://i.y.qq.com/v8/playsong.html?songid=226326618&source=yqq#wechat

emmm……寫的挺好，我還是謙虛。“當時選狼人殺就是喜歡玩，我覺得在這上面有天賦就選了，沒想那麼多”[吐舌] #godlie# #虎牙狼人殺# https://mp.weixin.qq.com/s/fnKshNnWO-eS49yTVheReA

明天不開qq了

今年的第四首原創單曲《櫻花的告白》已經上線了，希望這首歌能在這寒冷的冬日為你帶來一些溫暖。QQ音樂鏈接：https://i.y.qq.com/v8/playsong.html?songid=224550975&source=yqq#wechat

誰敢橫刀立馬，唯我彭大將軍：彭德懷誕辰120周年祭！今天，所有頭條應給他 https://mp.weixin.qq.com/s/FjyCMo5sMKTyG-oGpcb90g

10.18 【多圖慎入：走進美最新潛艇“印第安納”】上個月剛服役，“弗吉尼亞”級第16艘，看看裡面官兵工作、生活

娜迪亞：從ISIS性奴到諾貝爾獎得主→_→南方週末#360瀏覽器#https://mp.weixin.qq.com/s/JLeMGJL-vqE0PBYYK9g1lg

時寒冰：趨勢在心（病中雜記2） https://mp.weixin.qq.com/s/WuH

繼續奮鬥！https://mp.weixin.qq.com/s/EJXyTAcvjWxpEEb

張海彥來自@企鵝體育 http://live.qq.com/10001329?fromuid=10804728

→時政聚焦網#360瀏覽器#https://mp.weixin.qq.com/s/WsSSpC18hpFErSwW4ndXzQ

湖北黃梅人 分路的老鄉嗨起來！https://mp.weixin.qq.com/s/_a-DaSSm-yElaZo4m3TVtA @環球網 @深圳衛視 軍情直播間 @第一軍情 @了不起我的家 @董明珠自媒體 @餘輝孟 @潘石屹 @勞春燕 @邱毅台灣 @中國三農網 @央廣網 #開心麻花# #

因爲腿疾，原本答應丁薇的演出嘉賓無法前往，人生中第一次由於身體緣故影響工作以及承諾，特此道歉24小時倒計時｜丁薇 「美夢如是」 Blue Note Beijing 音樂會 https://mp.weixin.qq.com/s/QJCzAdbOsdpc0PHY-hoP9Q

比海更深今天送別朱旭，你有什麼話想說給老爺子聽 https://mp.weixin.qq.com/s/DE5nEAKN3P4PoZv7-nbovw

4. 52歲文興宇扮演67歲老傅同志 https://mp.weixin.qq.com/s/dzB5aIIcmrurOcWWthzSiw

清華大學氣候變化研究院公衆號開篇：解振華院長寄語。https://mp.weixin.qq.com/s/R3-Q3WPKC_dWMrmlC2P8MA

青年電影手冊@張譯張譯：我不是那麼不負責任的人 https://mp.weixin.qq.com/s/Q-_yQ9JLJouofibezd1NTg

https://mp.weixin.qq.com/s/J9ZY8UVz5nNUnItg

紀念 https://mp.weixin.qq.com/s/Yxu8lfudOi9G5zr5SV_j-g

豬八戒網華西大區總管評比開始，求各位粉絲投票第一個呼保義/蔡虎，並私信留言“投票”，小編將對投票並且留言的粉絲髮紅包感謝！https://mp.weixin.qq.com/s/pLvdSpqOMQq7ssDF-grfOQ

天覆財經：分享一篇文章。地方債等同國債：央媽大放水真的來了！ https://mp.weixin.qq.com/s/qW5Lqpnt3aoJ2E

畢井泉可是最近幾年藥改背後的主要推手啊！地震！中央對疫苗事件問責，原副省長免職，畢井泉引咎辭職！ https://mp.weixin.qq.com/s/JyoHW1N7Sq-A3IiL1Ca3Fw

勁爆！茅台不再是「國酒」！放棄「國酒」商標申請，並向國家商評委致歉！https://mp.weixin.qq.com/s/qONzW3-B4F-9Qquw_zYkQw

很開心，爲壹基金設計的這款淨水杯已經送到了41233 名兒童的手中！https://mp.weixin.qq.com/s/H

#第十二屆全國舞蹈展演# 優秀舞蹈節目展 第二場攝影@-何小銘- 完整圖文：https://mp.weixin.qq.com/s/Pq2DVaLs1zrAGtKDMSpYog@今日頭條文化頻道 @第十二屆全國舞蹈展演

第十二屆全國舞蹈展演 優秀舞蹈節目展 第一場 精彩劇照 攝影@-何小銘-完整圖文：https://mp.weixin.qq.com/s/aFGFL3eJA8viLhcr-76r-A@今日頭條文化頻道 @第十二屆全國舞蹈展演

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

為什麼只有edg賺錢？

網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？

我們買的新商品房還沒有拿到房產證，怎麼轉賣最好？

為什麼突厥人可以成功復國？是大唐的刀不鋒利了麼？

小高層16層高樓間距60米哪一層比較好？

金銀花盆栽好養嗎？怎麼養？

長城對於抵禦古代匈奴和蒙古人起到了多大作用？

什麼樹可以嫁接臘梅？

行情堪憂，還有多少教育機構的老師們五一假期有課上的？課時量多不多？

在農村“立夏節”都有哪些民間習俗？

男朋友失望分手，但對我還有感覺，答應我兩個月之後可以在一起，我應該怎麼做，才能改變之前他對我的看法？

工程分包乙方人員傷殘誰承擔？

有哪些看起來毫不相關的兩個歷史人物實際上有過聯繫？

13年雪鐵龍世嘉自動擋7萬多公里，沒有水泡事故，多少錢能買？

22+吃土少女17年就有駕駛證了，今年才開始開車，想買個二手昂克賽拉，或者有什麼好建議嗎？

如何騎車去臺灣騎行？

本人預算5萬左右，想買一輛二手法系車！求推薦？

14年進口馬自達5PK進口10年道奇酷威買哪個划算？

2020年，河南教育行業國務院特殊津貼推薦，河南大學並列第三，大家怎麼看？

本田CRV2019款1.5T舒適版油耗高嗎？

國外疫情如果沒有得到有效控制，世界會發生什麼事情？頭腦風暴？

本田XRV這款車的整體表現怎麼樣？我想買1.5T自動豪華版，全款多少錢？

現在存款有14萬，借了5萬還沒收回來，該做什麼好？

2070super和5700xt買哪個比較好？

生完二胎後，感覺自己有點抑鬱，總是想發火，特別煩躁，怎麼辦？

人這一生遇到的人和事為什麼感覺都像是必然的經歷？

現在校內校外到底教的是美式英語還是英式英語還是混搭英語？

上有老下有小，我們真的跳不出這個人生循環了嗎？

如果外面正在下小雨，你會突然想起了誰？

初中同學許久未見大學期間突然聯繫請吃飯，態度還良好，我給推了，會不會讓人很煩？

現在我覺得認真對某個人說我喜歡你什麼的這種話好惡心，我愛你更說不出口，好惡心，是什麼心理？

劇版的《何以笙簫默》和《再見王瀝川》哪一個更好看呢？

QQ突然火了沉寂已久的QQ再次掀起熱潮你會拋棄微信嗎

華為手機提示攔截qq刪除照片華為副總對圖片攔截問題作出迴應

《忽然之間》-全有哥哥唱了一首歌曲，快來聽聽吧。>>https://node.kg.qq.com/play?s=r63-HGrlCQUjLrrq&shareuid=639998842125358331&topsource=

湖北黃梅人分路的老鄉嗨起來！https://mp.weixin.qq.com/s/_a-DaSSm-yElaZo4m3TVtA @環球網 @深圳衛視軍情直播間 @第一軍情 @了不起我的家 @董明珠自媒體 @餘輝孟 @潘石屹 @勞春燕 @邱毅台灣 @中國三農網 @央廣網 #開心麻花# #

因爲腿疾，原本答應丁薇的演出嘉賓無法前往，人生中第一次由於身體緣故影響工作以及承諾，特此道歉24小時倒計時｜丁薇「美夢如是」 Blue Note Beijing 音樂會 https://mp.weixin.qq.com/s/QJCzAdbOsdpc0PHY-hoP9Q

#第十二屆全國舞蹈展演# 優秀舞蹈節目展第二場攝影@-何小銘- 完整圖文：https://mp.weixin.qq.com/s/Pq2DVaLs1zrAGtKDMSpYog@今日頭條文化頻道 @第十二屆全國舞蹈展演

第十二屆全國舞蹈展演優秀舞蹈節目展第一場精彩劇照攝影@-何小銘-完整圖文：https://mp.weixin.qq.com/s/aFGFL3eJA8viLhcr-76r-A@今日頭條文化頻道 @第十二屆全國舞蹈展演

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？？