使用MongoDB、Seaborn和Matplotlib分析API數據

2019-10-26 19:17:42 Python部落

介紹

軟件開發職位通常要求的技能是使用NoSQL數據庫(包括MongoDB)的經驗。本教程將探索如何使用API收集數據，將數據存儲在MongoDB數據庫中，並對數據進行一些分析。

但是，在進入代碼之前，讓我們花點時間來複習一下MongoDB和API，以確保我們能理解我們是如何處理收集的數據的。

MongoDB和NoSQL

MongoDB是一種NoSQL數據庫，支持以非關係形式存儲數據。通過將NoSQL數據庫與其前身/競爭對手—SQL數據庫進行比較，我們就可以更好地理解NoSQL數據庫。

SQL代表結構化查詢語言，它是一種關係型數據庫管理工具。關係型數據庫是將數據存儲為一系列鍵和值的數據庫，數據表中的每一行都有自己惟一的鍵。可以通過查找相應的鍵來檢索數據庫中的值。這就是SQL數據庫存儲數據的方式，但是，NoSQL數據庫可以以非關聯的方式存儲數據。

NoSQL代表“不僅僅是SQL”，它指的是這樣一個事實:儘管SQL類型的查詢可以使用NoSQL系統完成，但它們也可以完成SQL數據庫難以完成的事情。NoSQL數據庫為其處理的數據提供了更廣泛的存儲選項，而且由於數據的相關性較低，因此，數據可以以更多地方式進行檢索，從而加快了一些操作的速度。與SQL數據庫相比，NoSQL數據庫可以使節點或字段的添加更簡單。

有很多流行的NoSQL框架，包括MongoDB、OrientDB、InfinityDB、Aerospike和CosmosDB。MongoDB是一個特定的NoSQL框架，它以文檔的形式存儲數據，充當面向文檔的數據庫。

MongoDB之所以流行，是因為它的通用性和簡單的雲集成，並且能夠用於各種各樣的任務。MongoDB使用JSON格式存儲數據。MongoDB數據庫的查詢也是以JSON格式進行，因為存儲和檢索命令都是基於JSON格式的，所以，MongoDB的命令很容易記住和編寫。

API是什麼?

API是應用程序編程接口，其功能是簡化客戶機和服務器之間的通信。創建API通常是為了方便那些對應用程序開發人員所使用的語言缺乏經驗的人來收集信息。

API也可以是控制來自服務器的信息流的有用方法，鼓勵那些對訪問服務器信息感興趣的人使用官方渠道來訪問，而不是構建一個網絡爬蟲。網站中最常見的API是REST(表徵狀態轉移)API,它利用標準的HTTP請求和響應來發送、接收、刪除和修改數據。在本教程中，我們將訪問REST API並以HTTP格式發送請求。

我們將使用什麼API ?

我們將使用的API是GameSpot的API。GameSpot是網絡上最大的視頻遊戲評論網站之一，您可以在這裡訪問它的API。（地址：https://www.gamespot.com/api/ ）

進行設置

在開始之前，您應該確保自己獲得了GameSpot的API密鑰。您還應該確保已經安裝了MongoDB及其Python庫。Mongo的安裝說明可以在這裡找到。

安裝PyMongo庫只需運行以下命令:

您可能還希望安裝MongoDB Compass程序，該程序允許您使用GUI輕鬆地可視化和編輯MongoDB數據庫的各個方面。

創建MongoDB數據庫

現在，我們可以通過創建MongoDB數據庫來開始我們的項目。首先，我們將處理我們的導入項。我們將從PyMongo導入MongoClient，以及requests 和pandas:

當使用MongoDB創建了一個數據庫之後，我們首先需要連接到客戶端，然後使用客戶端創建我們想要的數據庫:

MongoDB可以在一個數據庫中存儲多個數據集合，所以我們還需要定義我們想要使用的集合的名稱:

就是這樣。我們的數據庫和集合已經創建好了，可以開始向其中插入數據了。這很簡單，不是嗎?

使用該API

現在，我們已經準備好使用GameSpot API來收集數據。通過查看這裡（地址:https://www.gamespot.com/api/documentation ）的API文檔，我們可以確定我們的請求所需的格式。

我們需要將請求發送到包含我們API密鑰的基本URL。GameSpot的API有多個資源，我們可以從這些資源中獲取數據。例如，他們有一個列出了遊戲的發佈日期和運行平臺等數據的資源。

然而，我們對他們的遊戲評論資源比較感興趣，我們將從該API資源中獲取一些特定的字段。此外，GameSpot要求您在發出請求時要指定一個唯一的用戶代理標識符，我們將通過創建一個header來實現，我們將把此header傳入requests函數:

我們將需要以下數據字段:id, title, score, deck, body, good, bad:

GameSpot一次只允許返回100個結果。出於這個原因，為了獲得足夠數量的評論進行分析，我們需要創建一個數字範圍並循環遍歷它們，一次檢索100個結果。

您可以選擇任何您想要的數字。我選擇獲取他們所有的評論，最高可達14900條:

我們將創建一個函數來連接基地址、要返回的字段列表、排序方案(升序或降序)和查詢的偏移量。

我們將獲得我們想要循環的頁面數量，然後對每100個條目，我們將創建一個新的URL並請求數據:

回想一下，MongoDB將數據存儲為JSON。因此，我們需要使用json()方法將我們的響應數據轉換成JSON格式。

將數據轉換為JSON後，我們將從響應中獲得“results”屬性，因為這部分實際上包含了我們感興趣的數據。然後，我們將遍歷100個不同的結果，並使用來自PyMongo的insert_one()命令將每個結果插入到我們的集合中。當然，您也可以使用insert_many()將它們全部放到一個列表中。

現在讓我們調用該函數並讓它收集數據:

為什麼我們不檢查一下，看看我們的數據是否已經像我們預期的那樣插入到了我們的數據庫?我們可以使用Compass程序直接查看數據庫及其內容:

我們可以看到數據已經正確地插入了。

我們還可以進行一些數據庫檢索並打印它們。為此，我們將創建一個空列表來存儲條目，並在“reviews”集合上使用.find()命令。

當使用PyMongo中的find函數時，檢索也需要格式化為JSON。傳入find函數的參數將有一個字段和值。

默認情況下，MongoDB總是返回_id字段(它自己唯一的ID字段，而不是我們從GameSpot中獲取的ID)，但是我們可以通過指定一個0值來告訴它禁止這種情況。我們想要返回的字段，比如本例中的score字段，應該被賦予一個1值:

以下是成功獲取並打印的內容:

我們還可以通過使用Pandas輕鬆地將查詢結果轉換為數據幀:

以下是返回的結果:

在開始分析一些數據之前，讓我們先花點時間看看如何將兩個集合連接在一起。如前所述，GameSpot有多個資源來獲取數據，我們可能希望從第二個數據庫(如Games數據庫)獲取值。

MongoDB是一個NoSQL數據庫，因此與SQL不同，它不打算處理數據庫之間的關係和將數據字段連接在一起。但是，有一個函數可以近似於數據庫連接，即lookup()函數。

lookup()函數作用類似於數據庫連接，我們可以通過指定一個管道來完成此操作，該管道包含您想要從其中獲取連接元素的數據庫，以及您想要從輸入文檔(localField)和“from”文檔(foreignField)中獲得的字段。

最後，您選擇一個名稱來將外部文檔轉換為它，它們將顯示在我們的查詢響應表中的這個新名稱下面。如果您有第二個名為games的數據庫，並想要在一個查詢中將它們連接在一起，您可以這樣做:

分析數據

現在，我們可以開始分析和可視化在我們新創建的數據庫中發現的一些數據。讓我們確保我們有了分析所需的所有函數。

假設我們想對GameSpot的遊戲評論中發現的單詞進行一些分析。我們的數據庫中有這些信息，我們只需要得到它。

我們可以像之前一樣使用find()函數從我們的數據庫中收集排名前40的評論(或者您想要的任何數字)，但這次我們將指定我們希望根據score變量進行排序，並按降序排序:

我們將該響應變換為一個Pandas數據幀並將其轉換進一個字符串。然後我們將提取

HTML標籤中包含評論文本的所有值，我們將使用BeautifulSoup來完成:

查看print語句，我們可以看到評論文本已經被收集了:

現在我們已經得到了評論文本數據，我們想用幾種不同的方法來分析它。讓我們試著對排名前40位的評論中常用的單詞進行一些直覺判斷。我們有幾種不同的方法:

我們可以創建一個詞雲
我們可以計數所有的單詞並按它們的出現次數進行排序
我們可以進行命名實體識別

在我們對數據進行分析之前，我們必須對它進行預處理。

為了預處理數據，我們需要創建一個函數來過濾條目。此文本數據仍然充滿了各種標記和非標準字符，我們希望通過獲取評論的原始文本來刪除這些標記和非標準字符。我們將使用正則表達式來將非標準字符替換為空格。

我們也會使用一些來自NTLK的停止詞(不會對我們的文本添加意思的高度常用單詞)並且通過創建一個列表來保存所有的單詞，從而將它們從我們的文本中刪除，然後只有在單詞不在我們的停止詞列表中時才將它們加入到其中。

詞雲

讓我們獲取評論單詞的一個子集，將其可視化為一個語料庫。如果它在生成時太大的話，可能會導致詞雲出現一些問題。

例如，我過濾出了前5000個單詞:

現在，我們可以通過使用這裡提供的預先創建好的WordCloud庫來輕鬆地創建一個詞雲。

這個詞雲確實給我們提供了一些信息，關於什麼類型的詞在排名靠前的評論中經常使用:

不幸的是，它仍然充滿了常見的單詞，這就是為什麼使用tf-idf過濾方案對評論單詞進行過濾是一個好主意，但是對於這個簡單的演示來說，這已經足夠好了。

事實上，我們確實擁有一些關於遊戲評論中所談論的概念類型的信息:遊戲玩法，故事，角色，射擊，動作，地點等。

我們可以通過查看我們選擇的前40名評論之一來確認這些詞經常出現在遊戲評論中:Mike Mahardy對《神秘海域4》的評論:

果然，這篇評論討論了動作、遊戲玩法、角色和故事。

單詞的大小給了我們關於單詞在這些評論中出現的頻率的直觀感覺，但是我們也可以計算某些單詞出現的頻率。

計數器

我們可以通過將單詞分割開並將它們與其數目一起添加到一個單詞字典中，從而獲得一個最常見單詞的列表，每次看到相同的單詞時，這些單詞計數就會增加。

然後我們只需要使用Counter和most_common()函數:

以下是一些最常見的單詞的數目:

命名實體識別

我們還可以使用en_core_web_sm進行命名實體識別，這是spaCy中包含的一個語言模型。這裡列出了可以檢測到的各種概念和語言特徵。

我們需要從文檔(單詞列表)中抓取檢測到的命名實體和概念列表:

我們可以打印出找到的實體及其數目。

以下是打印的內容:

假設我們想要為不同的類別繪製最常見的識別詞語，比如人員和組織。我們只需要創建一個函數來獲得不同類別實體的計數，然後使用它來獲得我們想要的實體。

我們將得到一個命名實體/人員、組織和GPEs(位置)的列表:

現在我們要做的就是用一個函數來對命名實體數目繪製圖表:

我們來看看生成的圖表。

正如命名實體所期望的那樣，返回的大多數結果是視頻遊戲角色的名稱。這並不是完美的，因為它將“Xbox”等詞語錯誤地歸類為一個命名實體，而不是一個組織，但這仍然讓我們瞭解到排名靠前的評論中討論了哪些角色。

該組織圖為我們展示了一些正確的遊戲開發者和發行商，如Playstation和Nintendo，但它也將“480p”這樣的東西標記為一個組織。

以上是對GPEs（或地理位置）繪製的圖。看起來“Hollywood”和“Miami”經常出現在遊戲評論中。(是遊戲設置嗎?或者評論者可能是將遊戲中的某些東西描述為Hollywood風格的?)

正如您所看到的，進行命名實體識別和概念識別並不完美，但它可以讓您對正文中討論的主題有一些直覺。

對數值繪製圖表

最後，我們可以嘗試從數據庫繪製數值。讓我們從評論集合中獲取評分值，將它們加起來，然後對它們繪製圖表:

上圖是給出的評分的總數的分佈圖，從0到9.9。看起來最常給出的分數是7分和8分，這在直覺上是有道理的。7分通常被認為是10分評價量表的平均值。

結論

收集、存儲、檢索和分析數據是當今世界非常需要的技能，MongoDB是最常用的NoSQL數據庫平臺之一。

知道如何使用NoSQL數據庫以及如何解釋其中的數據將使您能夠執行許多常見的數據分析任務。

英文原文：https://stackabuse.com/analyzing-api-data-with-mongodb-seaborn-and-matplotlib/

分享到:

閱讀更多 Python部落 的文章

關鍵字: MongoDB GameSpot 軟件

spring-data-mongodb 增強工具包mongoHelper上手指南

MongoDB 備份導出導入數據的方法和注意事項

收藏起來！比 matplotlib 效率高十倍的數據可視化神器

NumPy、pandas、Matplotlib…8個Python庫從安裝到應用（附代碼）

Python 數據科學入門2：Matplotlib

Python 數據科學入門1：Matplotlib

快速掌握 MongoDB：索引詳解及實操，explain()

springboot整合Redis、mongodb

從 SQL 到 MongoDB，這一篇就夠了

03.06 從 SQL 到 MongoDB，這一篇就夠了

MongoDB-4 GridFS 文件存儲

03.02 Python MongoDB 教程

02.25 MongoDB 基礎知識大補

將 MongoDB 導出成 csv

協助 mongodb 計算之數位比較

MongoDB DBA常用的NoSQL語句（史上最全）

matplotlib：先搞明白plt.

01.06 MongoDB 4.2 內核解析

初識 MongoDB 數據庫

如何在 Go 中使用 TLS 連接 MongoDB

MongoDB 走馬觀花(全面解讀篇)

MongoDB：連續四年被評為最受開發人員青睞的數據庫

centos7 手動安裝軟件服務配置systemctl文件Nginx MongoDB

MongoDB，Redis，Memcache三者之間的優缺點你真的明白？

事務背景介紹（1）：MongoDB

matplotlib 散點圖和氣泡圖

Python 繪圖庫 Matplotlib 入門代碼實例

機器學習初學者：Matplotlib——面向對象接口的介紹

快速入門 Matplotlib

MongoDB、Hbase、Redis等NoSQL分析

MongoDB 8天學通（第八天實踐篇）

MongoDB + Spark：完整的大數據解決方案

你知道 MongoDB 使用場景麼

Python筆記——Python基礎、numpy基礎、SciPy、Matplotlib

MongoDB 全方位對比 MySql

如何從 MongoDB 遷移到 MySQL

帶你十分鐘快速入門畫圖神器 Matplotlib

MongoDB、Hbase、Redis等NoSQL優劣勢、應用場景

MongoDB 是由C++編寫的？那麼爲何會在Python領域中風生水起呢？

MongoDB 4.0解決了現代IT架構

mongodb 權限設置

Python數據可視化編程，Matplotlib、直方圖等你會幾種？

05.30 MongoDB 即將支持跨文檔事務

Python Matplotlib 繪圖使用指南

python數據分析工具——Numpy、Scipy、Matplotlib

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"