運用python探索谷歌自然語言API

2019-08-01 15:52:26 碼上打卡

谷歌是怎麼分類網站和微調來改善搜索結果的?其實我們從谷歌的開放API中，可以窺探到一些線索。

作為一名技術咖，我一直在不斷的尋找一種新奇的路子，可以使用數據來理解谷歌是怎麼分級網站們的。最近，我調查了是否谷歌的自然語言API能更好的告訴我們它們可能怎樣分類網站內容的。

雖然有一些開源的NLP工具，我想研究谷歌的工具，假設它可能在其他產品中使用相同的技術，比如搜索。這篇文章介紹谷歌的自然語言API，探索普通的自然語言處理（NLP）任務以及可能如何使用它們來通知網站內容的創建。

理解數據類型

開始前，理解谷歌NLP API返回的數據類型很重要。

實體

實體是文字組，在現實生活中可以找到一些例子。命名實體識別是NLP中比較難的部分，因為一些工具經常需要查看整個內容才能理解詞組的用處。比如，同形異義詞，可能髮間相同，但意思千差萬別。英文單詞“lead”也有金屬“鉛”的意思。谷歌有12個有區別的實體類型，同時也有第十三個類型來兜底剩餘的部分，為“UNkown”。一些實體與維基的文章有關，表明知識圖譜對數據有影響。每個實體返回一個顯著性評分，這是它與提供的文本的總體相關性。

情感

情感，是指對一些事情的態度和觀點，存在於文檔和文檔中的句子和單個實體中。對於情感的打分介於-1到1之間。大小代表著情感的不正常強度;強度範圍在0.0和無窮之間。

語法

在一些較好的類庫中，能發現語法解析包含大部分的NLP活動，類庫有 lemmatization, part-of-speech tagging, 和dependency-tree parsing。NLP主要解決幫助機器理解文字和詞語之間的關係。語法解析是大部分語言處理或理解任務的基礎部分。

對給出的內容進行分類目，分出是哪個具體的行業或一個其它話題目錄，目錄會進行打分，在0.0到1.0之間。這些類別似乎與其他谷歌工具(如AdWords)使用的受眾和網站類別相同。

拉一些數據

現在我將提取一些樣本數據。我使用Google的Search Console API收集了一些搜索查詢結果及其相應的網址。Google Search Console是一種工具，可報告人們使用Google搜索查找網站頁面時使用。這個開源的Jupyter notebook允許你提取有關你網站的類似數據。對於此示例，我在2019年1月1日至6月1日期間生成的網站（無命名）中提取Google Search Console數據。

此數據集包含有關2,969頁和7,144個查詢的信息，這些查詢在Google搜索結果中顯示了網站的頁面。下表顯示絕大多數頁面只收到很少的點擊次數，因為此站點側重於所謂的長尾（更具體，通常更長），而不是短尾（非常一般，更高的搜索量）搜索查詢。

為了減少數據集大小並僅獲得性能最佳的頁面，我將數據集限制為在此期間至少獲得20次展示的網頁。這是此精煉數據集的頁面點擊直方圖，其中包含723頁：

在Python中使用Google的自然語言API庫

要測試API，請創建一個利用Python中的google-cloud-language庫的小腳本。以下代碼是Python 3.5+。

首先，激活新的虛擬環境並安裝庫。將your-env替換為環境的唯一名稱。

virtualenv < your-env >
source < your-env > / bin / activate 
pip install --upgrade google-cloud-language 
pip install --upgrade requests

此腳本從URL中提取HTML並將HTML提供給自然語言API。它返回情緒，實體和類別的字典，其中這些鍵的值都是列表。我使用Jupyter Notebook來運行此代碼，因為它使用相同的內核更容易註釋和重試代碼。

# Import needed libraries
import requests
import json
from google.cloud import language
from google.oauth2 import service_account
from google.cloud.language import enums
from google.cloud.language import types
# Build language API client (requires service account key)
client = language.LanguageServiceClient.from_service_account_json('services.json')
# Define functions
def pull_googlenlp(client, url, invalid_types = ['OTHER'], **data):
 
 html = load_text_from_url(url, **data)
 
 if not html:
 return None
 
 document = types.Document(
 content=html,
 type=language.enums.Document.Type.HTML )
 features = {'extract_syntax': True, 

 'extract_entities': True,
 'extract_document_sentiment': True,
 'extract_entity_sentiment': True,
 'classify_text': False
 }
 
 response = client.annotate_text(document=document, features=features)
 sentiment = response.document_sentiment
 entities = response.entities
 
 response = client.classify_text(document)
 categories = response.categories
 
 def get_type(type):
 return client.enums.Entity.Type(entity.type).name
 
 result = {}
 
 result['sentiment'] = [] 
 result['entities'] = []
 result['categories'] = []
 if sentiment:
 result['sentiment'] = [{ 'magnitude': sentiment.magnitude, 'score':sentiment.score }]
 
 for entity in entities:
 if get_type(entity.type) not in invalid_types:
 result['entities'].append({'name': entity.name, 'type': get_type(entity.type), 'salience': entity.salience, 'wikipedia_url': entity.metadata.get('wikipedia_url', '-') })
 
 for category in categories:
 result['categories'].append({'name':category.name, 'confidence': category.confidence})
 
 
 return result
def load_text_from_url(url, **data):
 timeout = data.get('timeout', 20)
 
 results = []
 
 try:
 
 print("Extracting text from: {}".format(url))
 response = requests.get(url, timeout=timeout)
 text = response.text
 status = response.status_code
 if status == 200 and len(text) > 0:
 return text
 
 return None
 
 except Exception as e: 

 print('Problem with url: {0}.'.format(url))
 return None

要訪問API，請按照Google的官方快速入門說明在Google Cloud Console中創建項目，啟用API並下載服務帳戶密鑰。之後，您應該有一個看起來類似於此的JSON文件：

將其上傳到名為services.json的項目文件夾。

然後，您可以通過運行以下命令來提取任何URL的API數據：

url = “https://news.ifeng.com/c/7omapIrZobG” 

pull_googlenlp （ client ， url ）

如果設置正確，您應該看到此輸出：

玩轉數據

使用這些功能可以抓取給定頁面的HTML並將其傳遞給自然語言 API，我可以在723個URL中運行一些分析。首先，我將通過查看所有頁面中返回的頂級類別的數量來查看與網站相關的類別。

分類

這似乎是對這個特定網站的關鍵主題的相當準確的表示。查看其中一個效果最好的網頁排名的單個查詢，我可以比較Google相同查詢結果中的其他排名網頁。

網址1 | 最高類別：/法律與政府/法律（0.5099999904632568）共1類。
沒有返回類別。
網址3 | 熱門分類：/互聯網和電信/移動和無線（0.6100000143051147）共1類。
網址4 | 熱門分類：/計算機和電子/軟件（0.5799999833106995）共2類。
網址5 | 熱門分類：/互聯網和電信/移動和無線/移動應用和附加組件（0.75）共1個類別。
沒有返回類別。
網址7 | 熱門分類：/計算機/電子/軟件/商業和生產力軟件（0.7099999785423279）共2類。
網址8 | 最高類別：/法律與政府/法律（0.8999999761581421）共3類。
網址9 | 熱門分類：/參考/一般參考/表格指南和模板（0.6399999856948853）共1個類別。
沒有返回類別。

上面括號中的數字表示Google對頁面內容與該類別相關的信心。第八個結果的置信度高於同一類別的第一個結果，所以這似乎不是定義排名相關性的靈丹妙藥。此外，類別太寬泛，無法用於特定的搜索主題。

通過排名位置查看平均置信度，這兩個指標之間似乎沒有相關性，至少對於此數據集：

這兩種方法都有意義地審查大規模的網站，以確保內容類別看起來合適，並且樣板或銷售內容不會使您的網頁與您的主要專業領域相關。想想如果你是銷售工業用品的，你的網頁會將營銷作為主要類別。似乎沒有強烈的傾向，至少在頁面級別，類別相關性與您的排名有關。

情緒

我不會花太多時間在情緒上。在從API返回情緒的所有頁面中，它們分為兩個區間：0.1和0.2，這幾乎是中性情緒。根據直方圖，很容易說出情緒沒有提供太多價值。運行新聞或意見的網站以衡量特定網頁的情緒與中位數的相關性將是一個更有趣的指標。

實體

在我看來，實體是API中最有趣的部分。這是所有頁面中的頂級實體的選擇，通過顯著性（或與頁面的相關性）。請注意，Google推斷相同條款（銷售單）的不同類型，可能不正確。這是由出現在內容中不同上下文中的術語引起的。

然後我單獨查看每個實體類型，並一起查看實體的顯著性和頁面的最佳排名位置之間是否存在任何關聯。

一些實體類型在所有示例中返回零顯著性，因此我從下面的圖表中省略了這些結果。

“消費品”實體類型的正相關係數最高，皮爾遜相關係數為0.15854，但由於排名越靠後，“人”實體的相關係數為-0.15483，結果最好。這是一個非常小的示例集，特別是對於單個實體類型，所以我不能生成太多的數據。我沒有發現任何與強相關性相關的值，但是“人”實體最有意義。網站通常有關於其首席執行官和其他關鍵員工的頁面，這些頁面很可能在這些查詢的搜索結果中表現良好。

繼續往下看，在整體地查看站點時，基於實體名稱和實體類型出現了以下主題。

我模糊了一些搜索結果，這些結果似乎過於具體，無法掩蓋網站的身份。從主題上看，名稱信息是查看(或競爭對手的)站點主題的好方法。這樣做是隻基於url示例站點的排名並不是所有網站的url可能(因為只搜索控制檯數據報告頁面接受印象在谷歌),尤其是如果你把一個網站排名的工具,主要是url Ahrefs等,跟蹤許多谷歌查詢和搜索結果，結果將會是很有趣的。

實體數據中另一個有趣的部分是，標記為消費品的實體往往“看起來”像我在知識結果中看到的結果，即，谷歌的搜索結果在頁面的右側。

在我們的數據集中包含三個或更多單詞的消費品實體名稱中，5.8%的知識結果與谷歌對實體名稱的結果相同。這意味著，如果您在谷歌中搜索術語或短語，那麼右邊的塊。由於谷歌“選擇”一個示例頁面來表示實體，這是一個很好的機會來確定在搜索結果中具有獨特特徵的機會。同樣有趣的是，在谷歌中顯示這些知識結果的5.8%名稱中，沒有一個實體具有從自然語言API返回的維基url。這非常有趣，值得進一步分析。這將非常有用，特別是對於傳統的全球排名跟蹤工具(如ahref)數據庫中沒有的，更深奧的話題。

如前所述，知識搜索結果對於想要在谷歌中突出顯示其內容的站點所有者非常重要，因為它們在桌面搜索中被突出顯示。假設他們也更有可能與谷歌Discover的知識庫主題保持一致。谷歌Discover是一款面向Android和iOS的應用程序，它試圖根據用戶感興趣但尚未明確搜索的主題而為用戶顯示的內容。

總結

本文討論了谷歌的自然語言API，共享了一些代碼，並研究了該API對站點所有者有用的方式。關鍵內容是：

學習使用Python和Jupyter記事本，將您的數據收集任務，運用到一個由非常聰明和有才華的人構建的令人難以置信的api和開源項目(如panda和NumPy)的世界。
Python允許我快速地提取和測試我關於特定用途的API值的假設。
通過谷歌的分類API傳遞網站頁面可能是一個很好的檢查，以確保其內容屬於正確的主題類別。在競爭對手的網站上這樣做也可以提供調整或創建內容的指導。
對於示例站點，谷歌的情緒評分似乎不是一個有趣的度量標準，但對於新聞或基於觀點的站點，它可能是一個有趣的度量標準。
谷歌的發現實體提供了一個更細粒度的主題級別的網站整體視圖，就像分類，將非常有趣的競爭內容分析使用。
實體可以幫助定義您的內容與搜索結果中的谷歌知識塊或谷歌發現結果對齊的機會。5.8%的結果設定時間(字數)消費品實體,顯示這些結果,可能會有機會,對於一些網站,更好地為這些實體優化頁面的顯著成績有更大的機會捕獲這個出現在Google搜索結果中。

分享到:

閱讀更多 碼上打卡 的文章

關鍵字: 自然語言從谷歌文章

Vue 3 Composition API 實戰前瞻

Api 簽名算法

分享一個免費開源的前後端開發的接口文檔管理系統CRAP-API

2020年10個有用的Web API

API 文檔作者最好親自測試文檔

02.26 API 文檔作者最好親自測試文檔

java接入高德地圖常用WEB API

帶有具體參數的通用 API 使用代碼推薦

API 設計原則

REST API 的安全基礎

如何設計出優美的Web API？

一文教會你使用JAVA8 Stream API

一文帶你看懂什麼是RESTful API

12.21 一文帶你看懂什麼是RESTful API

12.14 哪個Python框架最適合構建RESTful API？Django還是Flask？

哪個Python框架最適合構建RESTful API？Django還是Flask？

12.01 用中文命名 API 的現實意義和可行途徑

Spring REST API 從實體到 DTO 的轉換

使用Protobuf增強您的REST API

為什麼graphql可以替代restful api？

人人都是 API 設計師

API 接口設計規範

Web API

ONE API (4)

ONE API (3)

實例說明在VBA中如何使用Windows API

前端性能監控之performance API

Elasticsearch6.0.0官方參考指南翻譯~Document APIs~Bulk API

如何設優秀的 API

設計更好的Web API

十分鐘學會Java8的lambda表達式和Stream API

Zabbix API——開啟運維監控自動化之路

乾貨： API 網關架構設計

什麼是RESTful API？面試問你了麼

API數據加密框架monkey-api-encrypt

介紹UCI機器學習數據庫的Python API

十分鐘學會Java8：lambda表達式和Stream API

為什麼阿里禁止工程師直接使用日誌系統Log4j、Logback中的 API

十分鐘學會Java8新特性：lambda表達式和Stream API

REST API 安全設計指南

Java API 接口開發規範詳解

RESTful API 最佳實踐

前後端程式設計師都要了解和使用REST API

servlet-api 的作用

RESTful API 設計最佳實踐

瀏覽器中的畫中畫（Picture-in-Picture）模式及其 API

設計一套良好 REST API

02.21 如何使用TensorFlow中的Dataset API

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"