路透社文章的文本數據分析與可視化

當我要求你解釋文本數據時,你會怎麼做?你將採取什麼步驟來構建文本可視化?

本文將幫助你獲得構建可視化和解釋文本數據所需的信息。

從文本數據中獲得的見解將有助於我們發現文章之間的聯繫。它將檢測趨勢和模式。對文本數據的分析將排除噪音,發現以前未知的信息。

這種分析過程也稱為探索性文本分析(ETA)。運用K-means、Tf-IDF、詞頻等方法對這些文本數據進行分析。此外,ETA在數據清理過程中也很有用。

我們還使用Matplotlib、seaborn和Plotly庫將結果可視化到圖形、詞雲和繪圖中。

在分析文本數據之前,請完成這些預處理任務。

從數據源檢索數據

有很多非結構化文本數據可供分析。你可以從以下來源獲取數據。

  1. 來自Kaggle的Twitter文本數據集。
  2. Reddit和twitter數據集使用API。
  3. 使用Beautifulsoup從網站上獲取文章、。

我將使用路透社的SGML格式的文章。為了便於分析,我將使用beauthoulsoup庫從數據文件中獲取日期、標題和文章正文。

使用下面的代碼從所有數據文件中獲取數據,並將輸出存儲在單個CSV文件中。

<code>

from

bs4

import

BeautifulSoup

import

pandas

as

pd

import

csv article_dict = {} i =

0

list_of_data_num = []

for

j

in

range(

0

,

22

):

if

j

10

: list_of_data_num.append(

"00"

+ str(j))

else

: list_of_data_num.append(

"0"

+ str(j))

for

num

in

list_of_data_num:

try

: soup = BeautifulSoup(open(

"data/reut2-"

+ num +

".sgm"

), features=

'lxml'

)

except

:

continue

print(num) data_reuters = soup.find_all(

'reuters'

)

for

data

in

data_reuters: article_dict[i] = {}

for

date

in

data.find_all(

'date'

):

try

: article_dict[i][

"date"

] = str(date.contents[

0

]).strip()

except

: article_dict[i][

"date"

] =

None

for

title

in

data.find_all(

'title'

): article_dict[i][

"title"

] = str(title.contents[

0

]).strip()

for

text

in

data.find_all(

'text'

):

try

: article_dict[i][

"text"

] = str(text.contents[

4

]).strip()

except

: article_dict[i][

"text"

] =

None

i +=

1

dataframe_article = pd.DataFrame(article_dict).T dataframe_article.to_csv(

'articles_data.csv'

, header=

True

, index=

False

, quoting=csv.QUOTE_ALL) print(dataframe_article) /<code>
  1. 還可以使用Regex和OS庫組合或循環所有數據文件。
  2. 每篇文章的正文以開頭,因此使用find_all('reuters')。
  3. 你也可以使用pickle模塊來保存數據,而不是CSV。

清洗數據

在本節中,我們將從文本數據中移除諸如空值、標點符號、數字等噪聲。首先,我們刪除文本列中包含空值的行。然後我們處理另一列的空值。

<code>import pandas as pd import re

articles_data = pd.read_csv(‘articles_data.csv’) 

print

(articles_data.apply(lambda x: sum(x.isnull()))) articles_nonNull = articles_data.dropna(subset=[‘text’]) articles_nonNull.reset_index(inplace=True) def clean_text(text): ‘’’Make text lowercase,

remove

text

in

square brackets,

remove

\n,

remove

punctuation

and

remove

words containing numbers.’’’ text = str(text).

lower

() text = re.

sub

(‘+’, ‘’, text) text = re.

sub

(‘[%s]’ % re.escape(

string

.punctuation), ‘’, text) text = re.

sub

(‘\n’, ‘’, text) text = re.

sub

(‘\w*\d\w*’, ‘’, text)

return

text articles_nonNull[‘text_clean’]=articles_nonNull[‘text’]\ .apply(lambda x:clean_text(x)) /<code>
  • 當我們刪除文本列中的空值時,其他列中的空值也會消失。
  • 我們使用re方法去除文本數據中的噪聲。

數據清理過程中採取的步驟可能會根據文本數據增加或減少。因此,請仔細研究你的文本數據並相應地構建clean_text()方法。

隨著預處理任務的完成,我們將繼續分析文本數據。

讓我們從分析開始。

1.路透社文章篇幅

我們知道所有文章的篇幅不一樣。因此,我們將考慮長度等於或超過一段的文章。根據研究,一個句子的平均長度是15-20個單詞。一個段落應該有四個句子。

<code>articles_nonNull[‘word_length’] = articles_nonNull[‘text’].apply(

lambda

x: len(str(x).split())) print(articles_nonNull.describe()) articles_word_limit = articles_nonNull[articles_nonNull[‘word_length’] >

60

] plt.figure(figsize=(

12

,

6

)) p1=sns.kdeplot(articles_word_limit[‘word_length’], shade=

True

, color=”r”).set_title(‘Kernel Distribution of Number Of words’) /<code>
路透社文章的文本數據分析與可視化

  • 我刪除了那些篇幅不足60字的文章。
  • 字長分佈是右偏的。
  • 大多數文章有150字左右。
  • 包含事實或股票信息的路透社文章用詞較少。

2.路透社文章中的常用詞

在這一部分中,我們統計了文章中出現的字數,並對結果進行了分析。我們基於N-gram方法對詞數進行了分析。N-gram是基於N值的單詞的出現。

我們將從文本數據中刪除停用詞。因為停用詞是噪音,在分析中沒有太大用處。

1最常見的單字單詞(N=1)

讓我們在條形圖中繪製unigram單詞,併為unigram單詞繪製詞雲。

<code>

from

gensim.parsing.preprocessing

import

remove_stopwords

import

genism

from

wordcloud

import

WordCloud

import

numpy

as

np

import

random gensim_stopwords = gensim.parsing.preprocessing.STOPWORDS stopwords_list = list(set(gensim_stopwords)) stopwords_update = [

"mln"

,

"vs"

,

"cts"

,

"said"

,

"billion"

,

"pct"

,

"dlrs"

,

"dlr"

] stopwords = stopwords_list + stopwords_update articles_word_limit[

'temp_list'

] = articles_word_limit[

'text_clean'

].apply(

lambda

x:str(x).split())

def

remove_stopword

(x)

:

return

[word

for

word

in

x

if

word

not

in

stopwords] articles_word_limit[

'temp_list_stopw'

] = articles_word_limit[

'temp_list'

].apply(

lambda

x:remove_stopword(x))

def

generate_ngrams

(text, n_gram=

1

)

:

ngrams = zip(*[text[i:]

for

i

in

range(n_gram)])

return

[

' '

.join(ngram)

for

ngram

in

ngrams] article_unigrams = defaultdict(int)

for

tweet

in

articles_word_limit[

'temp_list_stopw'

]:

for

word

in

generate_ngrams(tweet): article_unigrams[word] +=

1

article_unigrams_df = pd.DataFrame(sorted(article_unigrams.items(), key=

lambda

x: x[

1

])[::

-1

]) N=

50

fig, axes = plt.subplots(figsize=(

18

,

50

)) plt.tight_layout() sns.barplot(y=article_unigrams_df[

0

].values[:N], x=article_unigrams_df[

1

].values[:N], color=

'red'

) axes.spines[

'right'

].set_visible(

False

) axes.set_xlabel(

''

) axes.set_ylabel(

''

) axes.tick_params(axis=

'x'

, labelsize=

13

) axes.tick_params(axis=

'y'

, labelsize=

13

) axes.set_title(

f'Top

{N}

most common unigrams in Reuters Articles'

, fontsize=

15

) plt.show()

def

col_func

(word, font_size, position, orientation, font_path, random_state)

:

colors = [

'#b58900'

,

'#cb4b16'

,

'#dc322f'

,

'#d33682'

,

'#6c71c4'

,

'#268bd2'

,

'#2aa198'

,

'#859900'

]

return

random.choice(colors) fd = {

'fontsize'

:

'32'

,

'fontweight'

:

'normal'

,

'verticalalignment'

:

'baseline'

,

'horizontalalignment'

:

'center'

, } wc = WordCloud(width=

2000

, height=

1000

, collocations=

False

, background_color=

"white"

, color_func=col_func, max_words=

200

, random_state=np.random.randint(

1

,

8

)) .generate_from_frequencies(article_unigrams) fig, ax = plt.subplots(figsize=(

20

,

10

)) ax.imshow(wc, interpolation=

'bilinear'

) ax.axis(

"off"

) ax.set_title(‘Unigram Words of Reuters Articles’, pad=

24

, fontdict=fd) plt.show() /<code>
路透社文章的文本數據分析與可視化

路透社文章的文本數據分析與可視化

Share, trade, stock是一些最常見的詞彙,它們是基於股票市場和金融行業的文章。

因此,我們可以說,大多數路透社文章屬於金融和股票類。

2.最常見的Bigram詞(N=2)

讓我們為Bigram單詞繪製條形圖和詞雲。

<code>

article_bigrams

=

defaultdict(int)

for

tweet in articles_word_limit[‘temp_list_stopw’]:

for

word in generate_ngrams(tweet, n_gram=2):

+= 1

df_article_bigrams

=

pd.DataFrame(sorted(article_bigrams.items(),

key

=

lambda x: x[1])[::-1])

N

=

50

axes = plt.subplots(figsize=(18, 50), dpi=100)

plt.tight_layout()

=

df_article_bigrams[0].values[:N],

x

=

df_article_bigrams[1].values[:N],

color

=

’red’)

axes.spines[‘right’].set_visible(False)

axes.set_xlabel(‘’)

axes.set_ylabel(‘’)

=

’x’, labelsize=13)

=

’y’, labelsize=13)

{N} most common Bigrams in Reuters Articles’,

fontsize

=

15)

plt.show()

wc

=

WordCloud(width=2000, height=1000, collocations=False,

background_color

=

”white”,

color_func

=

col_func,

max_words

=

200,

random_state

=

np.random.randint(1,8))\ .generate_from_frequencies(article_bigrams)

ax = plt.subplots(figsize=(20,10))

interpolation=’bilinear’)

ax.axis(“off”)

Words of Reuters Articles’, pad=24,

fontdict

=

fd)

plt.show()

/<code>
路透社文章的文本數據分析與可視化

路透社文章的文本數據分析與可視化

Bigram比unigram提供更多的文本信息和上下文。比如,share loss顯示:大多數人在股票上虧損。

3.最常用的Trigram詞

讓我們為trigma單詞繪製條形圖和詞雲。

<code>

article_trigrams

=

defaultdict(int)

for

tweet in articles_word_limit[‘temp_list_stopw’]:

for

word in generate_ngrams(tweet, n_gram=3):

+= 1

df_article_trigrams

=

pd.DataFrame(sorted(article_trigrams.items(),

key

=

lambda x: x[1])[::-1])

N

=

50

axes = plt.subplots(figsize=(18, 50), dpi=100)

plt.tight_layout()

=

df_article_trigrams[0].values[:N],

x

=

df_article_trigrams[1].values[:N],

color

=

’red’)

axes.spines[‘right’].set_visible(False)

axes.set_xlabel(‘’)

axes.set_ylabel(‘’)

=

’x’, labelsize=13)

=

’y’, labelsize=13)

{N} most common Trigrams in Reuters articles’,

fontsize

=

15)

plt.show()

wc

=

WordCloud(width=2000, height=1000, collocations=False,

background_color

=

”white”,

color_func

=

col_func,

max_words

=

200,

random_state

=

np.random.randint(1,8)).generate_from_frequencies(article_trigrams)

ax = plt.subplots(figsize=(20,10))

interpolation=’bilinear’)

ax.axis(“off”)

Words of Reuters Articles’, pad=24,

fontdict

=

fd)

plt.show()

/<code>
路透社文章的文本數據分析與可視化

路透社文章的文本數據分析與可視化

大多數的三元組都與雙元組相似,但無法提供更多信息。所以我們在這裡結束這一部分。

3.文本數據的命名實體識別(NER)標記

NER是從文本數據中提取特定信息的過程。在NER的幫助下,我們從文本中提取位置、人名、日期、數量和組織實體。在這裡瞭解NER的更多信息。我們使用Spacy python庫來完成這項工作。

<code>import spacy    
from matplotlib import cm
from matplotlib.pyplot import plt

nlp = spacy.load(

'en_core_web_sm'

) ner_collection = {

"Location"

:[],

"Person"

:[],

"Date"

:[],

"Quantity"

:[],

"Organisation"

:[]} location = [] person = []

date

= [] quantity = [] organisation = []

def

ner_text(

text

): doc = nlp(

text

) ner_collection = {

"Location"

:[],

"Person"

:[],

"Date"

:[],

"Quantity"

:[],

"Organisation"

:[]}

for

ent

in

doc.ents:

if

str

(ent.label_) ==

"GPE"

: ner_collection[

'Location'

].append(ent.text) location.append(ent.text) elif

str

(ent.label_) ==

"DATE"

: ner_collection[

'Date'

].append(ent.text) person.append(ent.text) elif

str

(ent.label_) ==

"PERSON"

: ner_collection[

'Person'

].append(ent.text) date.append(ent.text) elif

str

(ent.label_) ==

"ORG"

: ner_collection[

'Organisation'

].append(ent.text) quantity.append(ent.text) elif

str

(ent.label_) ==

"QUANTITY"

: ner_collection[

'Quantity'

].append(ent.text) organisation.append(ent.text)

else

: continue

return

ner_collection articles_word_limit[

'ner_data'

] = articles_word_limit[

'text'

].map(lambda x: ner_text(x)) location_name = [] location_count = []

for

i

in

location_counts.most_common()[:

10

]: location_name.append(i[

0

].upper()) location_count.append(i[

1

]) fig, ax = plt.subplots(figsize=(

15

,

8

), dpi=

100

) ax.barh(location_name, location_count, alpha=

0.7

, color=cm.Blues([i /

0.00525

for

i

in

[

0.00208

,

0.00235

,

0.00281

,

0.00317

,

0.00362

,

0.00371

,

0.00525

,

0.00679

,

0.00761

,

0.00833

]]) ) plt.rcParams.update({

'font.size'

:

10

}) rects = ax.patches

for

i, label

in

enumerate(location_count): ax.text(label+

100

, i,

str

(label),

size

=

10

, ha=

'center'

, va=

'center'

) ax.text(

0

,

1.02

,

'Count of Location name Extracted from Reuters Articles'

, transform=ax.transAxes,

size

=

12

, weight=

600

, color=

'#777777'

) ax.xaxis.set_ticks_position(

'bottom'

) ax.tick_params(axis=

'y'

, colors=

'black'

, labelsize=

12

) ax.set_axisbelow(

True

) ax.text(

0

,

1.08

,

'TOP 10 Location Mention in Reuters Articles'

, transform=ax.transAxes,

size

=

22

, weight=

600

, ha=

'left'

) ax.text(

0

,

-0.1

,

'Source: http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html'

, transform=ax.transAxes,

size

=

12

, weight=

600

, color=

'#777777'

) ax.spines[

'right'

].set_visible(

False

) ax.spines[

'top'

].set_visible(

False

) ax.spines[

'left'

].set_visible(

False

) ax.spines[

'bottom'

].set_visible(

False

) plt.tick_params(axis=

'y'

,which=

'both'

,

left

=

False

, top=

False

, labelbottom=

False

) ax.set_xticks([]) plt.show() /<code>
路透社文章的文本數據分析與可視化

  • 從這個圖表中,你可以說大多數文章都包含來自美國、日本、加拿大、倫敦和中國的新聞。
  • 對美國的高度評價代表了路透在美業務的重點。
  • person變量表示1987年誰是名人。這些信息有助於我們瞭解這些人。
  • organization變量包含世界上提到最多的組織。

4.文本數據中的唯一詞

我們將在使用TF-IDF的文章中找到唯一的詞彙。詞頻(TF)是每篇文章的字數。反向文檔頻率(IDF)同時考慮所有提到的文章並衡量詞的重要性,。

TF-IDF得分較高的詞在一篇文章中的數量較高,而在其他文章中很少出現或不存在。

讓我們計算TF-IDF分數並找出唯一的單詞。

<code>

from

sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vectorizer

=

TfidfVectorizer(use_idf=True)

tfidf_vectorizer_vectors

=

tfidf_vectorizer.fit_transform(articles_word_limit[‘text_clean’])

tfidf

=

tfidf_vectorizer_vectors.todense()

=

= 0] = np.nan

means

=

np.nanmean(tfidf, axis=0)

Means_words

=

dict(zip(tfidf_vectorizer.get_feature_names(),

means.tolist()[0]))

unique_words

=

sorted(means_words.items(),

key

=

lambda x: x[1],

reverse

=

True)

print(unique_words)

/<code>
路透社文章的文本數據分析與可視化

5.用K-均值聚類文章

K-Means是一種無監督的機器學習算法。它有助於我們在一組中收集同一類型的文章。我們可以通過初始化k值來確定組或簇的數目。瞭解更多關於K-Means以及如何在這裡選擇K值。作為參考,我選擇k=4。

<code>

from

sklearn.feature_extraction.text import TfidfVectorizer

from

sklearn.cluster import KMeans

from

sklearn.metrics import adjusted_rand_score

vectorizer

=

TfidfVectorizer(stop_words=’english’,use_idf=True)

X

=

vectorizer.fit_transform(articles_word_limit[‘text_clean’])

k

=

4

model

=

KMeans(n_clusters=k, init=’k-means++’,

max_iter

=

100, n_init=1)

model.fit(X)

order_centroids

=

model.cluster_centers_.argsort()[:, ::-1]

terms

=

vectorizer.get_feature_names()

clusters

=

model.labels_.tolist()

=

clusters

for

i in range(k):

%d words:” % i, end=’’)

for

title in articles_word_limit.ix[i

:

%s,’ % title, end=’’)

/<code>

它有助於我們將文章按不同的組進行分類,如體育、貨幣、金融等。K-Means的準確性普遍較低。

結論

NER和K-Means是我最喜歡的分析方法。其他人可能喜歡N-gram和Unique words方法。在本文中,我介紹了最著名和聞所未聞的文本可視化和分析方法。本文中的所有這些方法都是獨一無二的,可以幫助你進行可視化和分析。

我希望這篇文章能幫助你發現文本數據中的未知數。


分享到:


相關文章: