用Python來揭祕吃瓜群眾是如何看待羅志祥事件的


用Python來揭秘吃瓜群眾是如何看待羅志祥事件的


前言

最近娛樂圈可以說得上是熱鬧非凡,前有霸道總裁愛小三,正宮撕逼網紅女,後有陽光大男孩羅志祥,被周揚青扒的名聲掃地。貴圈的愛情故事,常人是難以理解的,正如賈旭明張康這段相聲所說的這樣,娛樂圈的愛情總是分分合合,成為老百姓茶餘飯後的談資,城外的人想進去,城裡的人真會玩。

用Python來揭秘吃瓜群眾是如何看待羅志祥事件的


用Python來揭秘吃瓜群眾是如何看待羅志祥事件的


各種版本的洗白、謠言遍地亂飛,吃瓜網友們是如何看待的呢?

用數據說話,是數據工作者的意義所在,整個數據分析的過程分為三步:

  • 數據獲取
  • 數據預處理
  • 數據可視化及數據分析

以下是具體步驟和代碼實現:

數據獲取

數據獲取地址:

<code>'http://ent.163.com/20/0423/09/FASTLQ7I00038FO9.html'/<code>

在爬取評論數據之前,我們需要按F12對評論數據網頁進行分析,可以發現共計172頁,offset從0開始,每增加一頁offset增加30,可以使用get方法獲取。

用Python來揭秘吃瓜群眾是如何看待羅志祥事件的

核心代碼:

<code>headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.106 Safari/537.36'}
# 評論地址
url="http://comment.api.163.com/api/v1/products/a2869674571f77b5a0867c3d71db5856/threads/FASTLQ7I00038FO9/comments/newList?ibc=newspc&limit=30&showLevelThreshold=72&headLimit=1&tailLimit=2&offset={}"
# 循環爬取
df = pd.DataFrame(None)
i = 0
while True:
ret = requests.get(url.format(str(i*30)), headers=headers)
text = ret.text
result = json.loads(text)
t = result['comments'].values()
s = json_normalize(t)
i += 1
if len(s) == 0:
print("爬取結束")
break
else:
df = df.append(s)
print("第{}頁爬取完畢".format(i))

df.to_csv('data.csv')/<code>

數據展示

用Python來揭秘吃瓜群眾是如何看待羅志祥事件的

數據預處理

數據預處理是數據可視化之前非常重要的一部分。包含數據讀取、評論去重、數據格式轉換等

<code>import pandas as pd
#數據讀取
df = pd.read_csv('data.csv')
# 評論去重
df=df.drop_duplicates('commentId').reset_index(drop=True)
#格式轉換
df['new_time'] = df.apply(lambda x : x['createTime'].split(':',1)[0],axis=1)/<code>

數據分析及可視化

1.事件關注指數

用Python來揭秘吃瓜群眾是如何看待羅志祥事件的

從周揚青的微博、頭條等平臺的推送時間為4月23日9點,時間很準,足以說明為了這次離婚聲明已準備有一段時間,絕非衝動所為。從發送內容上看,聲明中開頭略有調侃,後面刀刀見血,文筆也潤色了不少。在事件發生後,關注指數來看,23日10點評論指數達到高峰,之後評論逐步減少。

2.網友評論詞語分析

用Python來揭秘吃瓜群眾是如何看待羅志祥事件的

從詞雲圖中我們不難看出,很多人為周揚青打抱不平,跟隨九年,最後鬧得如此收場。隔著屏幕,都可以感受到大眾對羅志祥人品的憤怒,當然也能看著吃瓜群眾的呵呵聲。藝人是公眾人物,一言一行都會給社會,特別青少年群體帶來深遠的影響。人品不僅僅是鏡頭下的人品,更是生活中的人品。“始於顏值,陷於才華,忠於人品”是大眾對胡歌的讚譽,也是老百姓對文藝工作者的期許,這是羅志祥要改正的地方。

核心代碼

<code>import jieba.analyse
import os
from pyecharts.charts import WordCloud
from pyecharts.globals import SymbolType, ThemeType
from pyecharts.charts import Page
from pyecharts import options as opts
def get_comment_word(df):
# 集合形式存儲-去重
stop_words = set()
print(stop_words)

# 加載停用詞
cwd = os.getcwd()
stop_words_path = cwd + '/stop_words.txt'
print(stop_words_path)

with open(stop_words_path, 'r', encoding="ISO-8859-1") as sw:
for line in sw.readlines():
stop_words.add(line.strip())
print(stop_words)


# 合併評論信息
df_comment_all = df['content'].str.cat()

# 使用TF-IDF算法提取關鍵詞
word_num = jieba.analyse.extract_tags(df_comment_all, topK=300, withWeight=True, allowPOS=())
print(word_num)
# 做一步篩選
word_num_selected = []

# 篩選掉停用詞
for i in word_num:
if i[0] not in stop_words:
word_num_selected.append(i)
else:
pass

return word_num_selected/<code>

3.愛留言的吃瓜群眾來自何處

用Python來揭秘吃瓜群眾是如何看待羅志祥事件的

從上述圖表中,我們可以看到廣州、深圳、上海的網友留言位列前三名,喜歡評論的人基本處於一線城市、準一線城市,一方面是由於人口聚集量比較大,另外一方面為這些城市信息流通比較快。

核心代碼

<code>from snapshot_selenium import snapshot as driver
from pyecharts import options as opts
from pyecharts.charts import Bar
from pyecharts.render import make_snapshot
df = df.groupby(['user.location']).agg({'序號':'count'}).reset_index()
df.rename(columns={'place':'user.location'}, inplace=True)
df = df[~df['user.location'].isin(['上海','中國','來自火星','火星'])]
df = df.sort_values(['序號'],axis = 0,ascending = False)
df_gb_top = df[:15]

def bar_chart() -> Bar:
c = (
Bar()
.add_xaxis(list(df_gb_top['user.location']))
.add_yaxis("寫評論Top15的地區", list(df_gb_top['序號']))
.reversal_axis()
.set_series_opts(label_opts=opts.LabelOpts(position="right"))
.set_global_opts(title_opts=opts.TitleOpts(title="排行榜"))
)
return c/<code>

如果你處於想學Python或者正在學習Python,Python的教程不少了吧,但是是最新的嗎?說不定你學了可能是兩年前人家就學過的內容,在這小編分享一波2020最新的Python教程。獲取方式,私信小編 “ 資料 ”,即可免費獲取哦!


分享到:


相關文章: