當我要求你解釋文本數據時,你會怎麼做?你將採取什麼步驟來構建文本可視化?
本文將幫助你獲得構建可視化和解釋文本數據所需的信息。
從文本數據中獲得的見解將有助於我們發現文章之間的聯繫。它將檢測趨勢和模式。對文本數據的分析將排除噪音,發現以前未知的信息。
這種分析過程也稱為探索性文本分析(ETA)。運用K-means、Tf-IDF、詞頻等方法對這些文本數據進行分析。此外,ETA在數據清理過程中也很有用。
我們還使用Matplotlib、seaborn和Plotly庫將結果可視化到圖形、詞雲和繪圖中。
在分析文本數據之前,請完成這些預處理任務。
從數據源檢索數據
有很多非結構化文本數據可供分析。你可以從以下來源獲取數據。
- 來自Kaggle的Twitter文本數據集。
- Reddit和twitter數據集使用API。
- 使用Beautifulsoup從網站上獲取文章、。
我將使用路透社的SGML格式的文章。為了便於分析,我將使用beauthoulsoup庫從數據文件中獲取日期、標題和文章正文。
使用下面的代碼從所有數據文件中獲取數據,並將輸出存儲在單個CSV文件中。
<code>from
bs4import
BeautifulSoupimport
pandasas
pdimport
csv article_dict = {} i =0
list_of_data_num = []for
jin
range(0
,22
):if
j10
: list_of_data_num.append("00"
+ str(j))else
: list_of_data_num.append("0"
+ str(j))for
numin
list_of_data_num:try
: soup = BeautifulSoup(open("data/reut2-"
+ num +".sgm"
), features='lxml'
)except
:continue
print(num) data_reuters = soup.find_all('reuters'
)for
datain
data_reuters: article_dict[i] = {}for
datein
data.find_all('date'
):try
: article_dict[i]["date"
] = str(date.contents[0
]).strip()except
: article_dict[i]["date"
] =None
for
titlein
data.find_all('title'
): article_dict[i]["title"
] = str(title.contents[0
]).strip()for
textin
data.find_all('text'
):try
: article_dict[i]["text"
] = str(text.contents[4
]).strip()except
: article_dict[i]["text"
] =None
i +=1
dataframe_article = pd.DataFrame(article_dict).T dataframe_article.to_csv('articles_data.csv'
, header=True
, index=False
, quoting=csv.QUOTE_ALL) print(dataframe_article) /<code>
- 還可以使用Regex和OS庫組合或循環所有數據文件。
- 每篇文章的正文以開頭,因此使用find_all('reuters')。
- 你也可以使用pickle模塊來保存數據,而不是CSV。
清洗數據
在本節中,我們將從文本數據中移除諸如空值、標點符號、數字等噪聲。首先,我們刪除文本列中包含空值的行。然後我們處理另一列的空值。
<code>import pandas as pd import re articles_data = pd.read_csv(‘articles_data.csv’)remove
textin
square brackets,remove
\n,remove
punctuationand
remove
words containing numbers.’’’ text = str(text).lower
() text = re.sub
(‘+’, ‘’, text) text = re.sub
(‘[%s]’ % re.escape(string
.punctuation), ‘’, text) text = re.sub
(‘\n’, ‘’, text) text = re.sub
(‘\w*\d\w*’, ‘’, text)return
text articles_nonNull[‘text_clean’]=articles_nonNull[‘text’]\ .apply(lambda x:clean_text(x)) /<code>
- 當我們刪除文本列中的空值時,其他列中的空值也會消失。
- 我們使用re方法去除文本數據中的噪聲。
數據清理過程中採取的步驟可能會根據文本數據增加或減少。因此,請仔細研究你的文本數據並相應地構建clean_text()方法。
隨著預處理任務的完成,我們將繼續分析文本數據。
讓我們從分析開始。
1.路透社文章篇幅
我們知道所有文章的篇幅不一樣。因此,我們將考慮長度等於或超過一段的文章。根據研究,一個句子的平均長度是15-20個單詞。一個段落應該有四個句子。
<code>articles_nonNull[‘word_length’] = articles_nonNull[‘text’].apply(lambda
x: len(str(x).split())) print(articles_nonNull.describe()) articles_word_limit = articles_nonNull[articles_nonNull[‘word_length’] >60
] plt.figure(figsize=(12
,6
)) p1=sns.kdeplot(articles_word_limit[‘word_length’], shade=True
, color=”r”).set_title(‘Kernel Distribution of Number Of words’) /<code>
- 我刪除了那些篇幅不足60字的文章。
- 字長分佈是右偏的。
- 大多數文章有150字左右。
- 包含事實或股票信息的路透社文章用詞較少。
2.路透社文章中的常用詞
在這一部分中,我們統計了文章中出現的字數,並對結果進行了分析。我們基於N-gram方法對詞數進行了分析。N-gram是基於N值的單詞的出現。
我們將從文本數據中刪除停用詞。因為停用詞是噪音,在分析中沒有太大用處。
1最常見的單字單詞(N=1)
讓我們在條形圖中繪製unigram單詞,併為unigram單詞繪製詞雲。
<code>from
gensim.parsing.preprocessingimport
remove_stopwordsimport
genismfrom
wordcloudimport
WordCloudimport
numpyas
npimport
random gensim_stopwords = gensim.parsing.preprocessing.STOPWORDS stopwords_list = list(set(gensim_stopwords)) stopwords_update = ["mln"
,"vs"
,"cts"
,"said"
,"billion"
,"pct"
,"dlrs"
,"dlr"
] stopwords = stopwords_list + stopwords_update articles_word_limit['temp_list'
] = articles_word_limit['text_clean'
].apply(lambda
x:str(x).split())def
remove_stopword
(x)
:return
[wordfor
wordin
xif
wordnot
in
stopwords] articles_word_limit['temp_list_stopw'
] = articles_word_limit['temp_list'
].apply(lambda
x:remove_stopword(x))def
generate_ngrams
(text, n_gram=
1
): ngrams = zip(*[text[i:]for
iin
range(n_gram)])return
[' '
.join(ngram)for
ngramin
ngrams] article_unigrams = defaultdict(int)for
tweetin
articles_word_limit['temp_list_stopw'
]:for
wordin
generate_ngrams(tweet): article_unigrams[word] +=1
article_unigrams_df = pd.DataFrame(sorted(article_unigrams.items(), key=lambda
x: x[1
])[::-1
]) N=50
fig, axes = plt.subplots(figsize=(18
,50
)) plt.tight_layout() sns.barplot(y=article_unigrams_df[0
].values[:N], x=article_unigrams_df[1
].values[:N], color='red'
) axes.spines['right'
].set_visible(False
) axes.set_xlabel(''
) axes.set_ylabel(''
) axes.tick_params(axis='x'
, labelsize=13
) axes.tick_params(axis='y'
, labelsize=13
) axes.set_title(f'Top
{N}
most common unigrams in Reuters Articles', fontsize=15
) plt.show()def
col_func
(word, font_size, position, orientation, font_path, random_state)
: colors = ['#b58900'
,'#cb4b16'
,'#dc322f'
,'#d33682'
,'#6c71c4'
,'#268bd2'
,'#2aa198'
,'#859900'
]return
random.choice(colors) fd = {'fontsize'
:'32'
,'fontweight'
:'normal'
,'verticalalignment'
:'baseline'
,'horizontalalignment'
:'center'
, } wc = WordCloud(width=2000
, height=1000
, collocations=False
, background_color="white"
, color_func=col_func, max_words=200
, random_state=np.random.randint(1
,8
)) .generate_from_frequencies(article_unigrams) fig, ax = plt.subplots(figsize=(20
,10
)) ax.imshow(wc, interpolation='bilinear'
) ax.axis("off"
) ax.set_title(‘Unigram Words of Reuters Articles’, pad=24
, fontdict=fd) plt.show() /<code>
Share, trade, stock是一些最常見的詞彙,它們是基於股票市場和金融行業的文章。
因此,我們可以說,大多數路透社文章屬於金融和股票類。
2.最常見的Bigram詞(N=2)
讓我們為Bigram單詞繪製條形圖和詞雲。
<code>article_bigrams
=defaultdict(int)
for
tweet in articles_word_limit[‘temp_list_stopw’]:
for
word in generate_ngrams(tweet, n_gram=2):
+= 1
df_article_bigrams
=pd.DataFrame(sorted(article_bigrams.items(),
key
=lambda x: x[1])[::-1])
N
=50
axes = plt.subplots(figsize=(18, 50), dpi=100)
plt.tight_layout()
=df_article_bigrams[0].values[:N],
x
=df_article_bigrams[1].values[:N],
color
=’red’)
axes.spines[‘right’].set_visible(False)
axes.set_xlabel(‘’)
axes.set_ylabel(‘’)
=’x’, labelsize=13)
=’y’, labelsize=13)
{N} most common Bigrams in Reuters Articles’,
fontsize
=15)
plt.show()
wc
=WordCloud(width=2000, height=1000, collocations=False,
background_color
=”white”,
color_func
=col_func,
max_words
=200,
random_state
=np.random.randint(1,8))\ .generate_from_frequencies(article_bigrams)
ax = plt.subplots(figsize=(20,10))
interpolation=’bilinear’)
ax.axis(“off”)
Words of Reuters Articles’, pad=24,
fontdict
=fd)
plt.show()
/<code>
Bigram比unigram提供更多的文本信息和上下文。比如,share loss顯示:大多數人在股票上虧損。
3.最常用的Trigram詞
讓我們為trigma單詞繪製條形圖和詞雲。
<code>article_trigrams
=defaultdict(int)
for
tweet in articles_word_limit[‘temp_list_stopw’]:
for
word in generate_ngrams(tweet, n_gram=3):
+= 1
df_article_trigrams
=pd.DataFrame(sorted(article_trigrams.items(),
key
=lambda x: x[1])[::-1])
N
=50
axes = plt.subplots(figsize=(18, 50), dpi=100)
plt.tight_layout()
=df_article_trigrams[0].values[:N],
x
=df_article_trigrams[1].values[:N],
color
=’red’)
axes.spines[‘right’].set_visible(False)
axes.set_xlabel(‘’)
axes.set_ylabel(‘’)
=’x’, labelsize=13)
=’y’, labelsize=13)
{N} most common Trigrams in Reuters articles’,
fontsize
=15)
plt.show()
wc
=WordCloud(width=2000, height=1000, collocations=False,
background_color
=”white”,
color_func
=col_func,
max_words
=200,
random_state
=np.random.randint(1,8)).generate_from_frequencies(article_trigrams)
ax = plt.subplots(figsize=(20,10))
interpolation=’bilinear’)
ax.axis(“off”)
Words of Reuters Articles’, pad=24,
fontdict
=fd)
plt.show()
/<code>
大多數的三元組都與雙元組相似,但無法提供更多信息。所以我們在這裡結束這一部分。
3.文本數據的命名實體識別(NER)標記
NER是從文本數據中提取特定信息的過程。在NER的幫助下,我們從文本中提取位置、人名、日期、數量和組織實體。在這裡瞭解NER的更多信息。我們使用Spacy python庫來完成這項工作。
<code>import spacy from matplotlib import cm from matplotlib.pyplot import plt nlp = spacy.load('en_core_web_sm'
) ner_collection = {"Location"
:[],"Person"
:[],"Date"
:[],"Quantity"
:[],"Organisation"
:[]} location = [] person = []date
= [] quantity = [] organisation = []def
ner_text(text
): doc = nlp(text
) ner_collection = {"Location"
:[],"Person"
:[],"Date"
:[],"Quantity"
:[],"Organisation"
:[]}for
entin
doc.ents:if
str
(ent.label_) =="GPE"
: ner_collection['Location'
].append(ent.text) location.append(ent.text) elifstr
(ent.label_) =="DATE"
: ner_collection['Date'
].append(ent.text) person.append(ent.text) elifstr
(ent.label_) =="PERSON"
: ner_collection['Person'
].append(ent.text) date.append(ent.text) elifstr
(ent.label_) =="ORG"
: ner_collection['Organisation'
].append(ent.text) quantity.append(ent.text) elifstr
(ent.label_) =="QUANTITY"
: ner_collection['Quantity'
].append(ent.text) organisation.append(ent.text)else
: continuereturn
ner_collection articles_word_limit['ner_data'
] = articles_word_limit['text'
].map(lambda x: ner_text(x)) location_name = [] location_count = []for
iin
location_counts.most_common()[:10
]: location_name.append(i[0
].upper()) location_count.append(i[1
]) fig, ax = plt.subplots(figsize=(15
,8
), dpi=100
) ax.barh(location_name, location_count, alpha=0.7
, color=cm.Blues([i /0.00525
for
iin
[0.00208
,0.00235
,0.00281
,0.00317
,0.00362
,0.00371
,0.00525
,0.00679
,0.00761
,0.00833
]]) ) plt.rcParams.update({'font.size'
:10
}) rects = ax.patchesfor
i, labelin
enumerate(location_count): ax.text(label+100
, i,str
(label),size
=10
, ha='center'
, va='center'
) ax.text(0
,1.02
,'Count of Location name Extracted from Reuters Articles'
, transform=ax.transAxes,size
=12
, weight=600
, color='#777777'
) ax.xaxis.set_ticks_position('bottom'
) ax.tick_params(axis='y'
, colors='black'
, labelsize=12
) ax.set_axisbelow(True
) ax.text(0
,1.08
,'TOP 10 Location Mention in Reuters Articles'
, transform=ax.transAxes,size
=22
, weight=600
, ha='left'
) ax.text(0
,-0.1
,'Source: http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html'
, transform=ax.transAxes,size
=12
, weight=600
, color='#777777'
) ax.spines['right'
].set_visible(False
) ax.spines['top'
].set_visible(False
) ax.spines['left'
].set_visible(False
) ax.spines['bottom'
].set_visible(False
) plt.tick_params(axis='y'
,which='both'
,left
=False
, top=False
, labelbottom=False
) ax.set_xticks([]) plt.show() /<code>
- 從這個圖表中,你可以說大多數文章都包含來自美國、日本、加拿大、倫敦和中國的新聞。
- 對美國的高度評價代表了路透在美業務的重點。
- person變量表示1987年誰是名人。這些信息有助於我們瞭解這些人。
- organization變量包含世界上提到最多的組織。
4.文本數據中的唯一詞
我們將在使用TF-IDF的文章中找到唯一的詞彙。詞頻(TF)是每篇文章的字數。反向文檔頻率(IDF)同時考慮所有提到的文章並衡量詞的重要性,。
TF-IDF得分較高的詞在一篇文章中的數量較高,而在其他文章中很少出現或不存在。
讓我們計算TF-IDF分數並找出唯一的單詞。
<code>from
sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vectorizer
=TfidfVectorizer(use_idf=True)
tfidf_vectorizer_vectors
=tfidf_vectorizer.fit_transform(articles_word_limit[‘text_clean’])
tfidf
=tfidf_vectorizer_vectors.todense()
== 0] = np.nan
means
=np.nanmean(tfidf, axis=0)
Means_words
=dict(zip(tfidf_vectorizer.get_feature_names(),
means.tolist()[0]))
unique_words
=sorted(means_words.items(),
key
=lambda x: x[1],
reverse
=True)
print(unique_words)
/<code>
5.用K-均值聚類文章
K-Means是一種無監督的機器學習算法。它有助於我們在一組中收集同一類型的文章。我們可以通過初始化k值來確定組或簇的數目。瞭解更多關於K-Means以及如何在這裡選擇K值。作為參考,我選擇k=4。
<code>from
sklearn.feature_extraction.text import TfidfVectorizer
from
sklearn.cluster import KMeans
from
sklearn.metrics import adjusted_rand_score
vectorizer
=TfidfVectorizer(stop_words=’english’,use_idf=True)
X
=vectorizer.fit_transform(articles_word_limit[‘text_clean’])
k
=4
model
=KMeans(n_clusters=k, init=’k-means++’,
max_iter
=100, n_init=1)
model.fit(X)
order_centroids
=model.cluster_centers_.argsort()[:, ::-1]
terms
=vectorizer.get_feature_names()
clusters
=model.labels_.tolist()
=clusters
for
i in range(k):
%d words:” % i, end=’’)
for
title in articles_word_limit.ix[i
:%s,’ % title, end=’’)
/<code>
它有助於我們將文章按不同的組進行分類,如體育、貨幣、金融等。K-Means的準確性普遍較低。
結論
NER和K-Means是我最喜歡的分析方法。其他人可能喜歡N-gram和Unique words方法。在本文中,我介紹了最著名和聞所未聞的文本可視化和分析方法。本文中的所有這些方法都是獨一無二的,可以幫助你進行可視化和分析。
我希望這篇文章能幫助你發現文本數據中的未知數。