Python爬蟲：分析AJAX傳遞的JSON獲取數據-初步分析動態網頁（1）

2019-10-26 16:14:39 任性的90後boy

在第一篇文章中，我總結了最近學到的利用requests和bs4第三方庫共同作用，基本可以應對python獲取靜態網頁數據的相關問題。但是如果現實中的網頁往往比想象中複雜的多，網頁也早已不再是純靜態網頁。

就比如在第一篇文章中爬取的網易雲課堂計算機專業大學課程中，如果我們進一步爬取計算機專業可以就業的崗位信息時，通過開發者工具，我們發現，我們所需要的數據位於id="j-smartSpec" 的div中，

然而，我們利用之前的方法進行會發現最後得到的list為空，那麼我們檢查一下源代碼，好不容易找到了意料之中的標籤id，但是我們驚奇的發現，裡面什麼都沒有呀：

好氣呀！~可是對於渴望獲取想要的數據的決心，我們當然要有一探究竟的耐心的啦~經過多種方式，我們肯定會了解到這是AJAX在搗鬼，AJAX 是一種用於創建快速動態網頁的技術。這種技術使我們可以通過在後臺與服務器進行少量數據交換，從而使網頁實現異步更新。這意味著可以在不重新加載整個網頁的情況下，瀏覽器可以對網頁的某部分進行更新。

此時想要獲取數據，就要考慮它是通過什麼傳遞新的信息給我們。

實際就是python對動態網頁、異步加載的爬取。

————————————————————————————————真^分界線

以上引出本文的主題。

正文

一、方法分析

其實任何動態產生的內容，要麼是本地計算，要麼是從服務器獲取的。前者看js，後者需要抓包。而後者經常配上各種參數加密，不過既然瀏覽器能正確發送參數，那麼就證明肯定有辦法模擬（當然不容易）。如果有能力，模擬發包。如果嫌麻煩，用現成的包來模擬操作瀏覽器。

那麼通常來講，獲取動態數據有兩種思路或者說是方法：

1. 分析頁面請求 2. 利用selenium模擬瀏覽器行為或其他抓包工具直接獲取（比較暴力有沒有）

效率最高的就是分析出請求數據的URL 一般都可以而selenium 實在沒轍的時候再用。

本篇文章也僅對第一種方法進行介紹（當然是要實貨，不動手是沒有用滴），若之後幾天仍然很閒，會繼續介紹下一種方法

二、開始戰鬥（目標：股票|上海證券交易所）

說了半天，總算要開始了。一年之計在於春，一天之計在於晨。

我們起碼要先確定一個方向，看了一下目標頁面：

有用的就是公司代碼，公司簡稱，A股代碼，A股簡稱以及A股總資本和A股流通資本這幾項。

所以我們的目標就是爬它30頁，這些信息全部都要。

三、尋找數據位置

還是以前的基本思路，首先在頁面找準數據位置檢查，找到標籤所在位置，在前言中我們大概也有了些許經驗，這時我們試探地打開源代碼，這次看到什麼都沒有似乎也不那麼生氣了~

接下來是沒有介紹過的東西！！即分析出AJAX加載出的文件是哪一個：

如圖，在開發者工具Network中的JS中分析，如果感覺實在太多文件不好分析，那麼我們發現上面有上市A股點擊會小範圍刷新的現象，最終可以完全明確目標

這樣一來，我們可以說是完成了一半了（其他如果輕車熟路就基本沒有什麼了）

下一步就是打開目標驗證一下有沒有我們需要的數據

What？？？？這又是啥情況

嘿嘿，這真的心裡又是一驚，403碼錶示什麼呢，就是我們沒有權限瀏覽目標地址。這是網站的自我保護行為。

那咋辦呢？我們沒有權限啊，可是我們在自己原來的頁面不是可以獲取這些的嘛！

所以，這裡就用到了讓我們的蟲去模擬人的操作。在前篇一筆帶過，其實就是通過修改Request-Headers中Cookie，User-Agent，Referer等信息來使我們的訪問請求就像是真人訪問一般。而需要修改的內容可以在Headers中查看：

則可保存如下：

headers={'Cookie':'yfx_c_g_u_id_10000042=_ck18012900250116338392357618947; VISITED_MENU=%5B%228528%22%5D; yfx_f_l_v_t_10000042=f_t_1517156701630__r_t_1517314287296__v_t_1517320502571__r_c_2',

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36',

'Referer':'http://www.sse.com.cn/assortment/stock/list/share/'

}

通常包含這三個元素即足以證明是‘人’。這樣我們已經可以找的到數據了。

四、處理分析數據（將數據JSON格式化並解析JSON）

好了，數據找到了，並且我們可以在開發者工具preview中看到，數據儲存為JSON格式（JSON格式的數據本質上是一種被格式化了的字符串，遵循一定的語法規則），現在我們先按照原來的方法先利用requests先獲取到數據：

import requests

url='http://query.sse.com.cn/security/stock/getStockListData2.do?&jsonCallBack=jsonpCallback99887&isPagination=true&stockCode=&csrcCode=&areaName=&stockType=1&pageHelp.cacheSize=1&pageHelp.beginPage=1&pageHelp.pageSize=25&pageHelp.pageNo=1&_=1517320503161'

response=requests.get(url,headers=headers) #注意，這一步即將我們‘人’的信息傳入請求中

那麼，下一步就要獲取目標中的JSON數據，此時我們將開發者工具中Response複製後，粘貼到json在線解析及格式化驗證驗證是否是格式化的標準JSON數據。

檢驗後發現結果出錯

那麼我們就需要分析哪裡語法有問題，此處不過多贅述，直接貼出刪除和添加的部分：

刪除部分：開頭的以及結尾的

添加部分：添加至開頭，並在結尾添加‘}’即可看到解析出的JSON結構：

好了，到這裡數據JSON格式化也基本完成。而在解析時，我們需要用到python自帶的json庫以及jsonpath第三方庫（若是windows系統直接在cmd輸入pip install jsonpath 即可安裝）：

import json

from jsonpath import jsonpath #從jsonpath庫中導入jsonpath方法

json_str='{"content":'+response.text[19:-1]+'}' #即將我們剛才分析出的結果進行格式化

unicodestr=json.loads(json_str) #json的loads()方法用於將json的字符串轉換成python默認的unicode字符串，還有一個dumps()方法是將python對象轉換成json字符串，其中的轉換之間的關係不再贅述，有興趣自行查閱相關資料

接下來就是通過jsonpath尋找我們需要的數據（類似於之前的soup.select（）尋找的思想，但是這裡是基於jsonpath的查詢）

通過分析兩個，我們可以輕易地發現其規律性，而jsonpath的使用可以參照jsonpath的簡單入門，或者自行查閱官方文檔。

由於A股中A股名稱代碼與公司名稱代碼均一致，故：

COMPANY_CODE=jsonpath(a,'$..pageHelp..COMPANY_CODE')#公司/A股代碼

COMPANY_ABBR=jsonpath(a,'$..pageHelp..COMPANY_ABBR')#公司/A股簡稱

totalShares=jsonpath(a,"$..pageHelp..totalShares") #A股總資本

totalFlowShares=jsonpath(a,'$..pageHelp..totalFlowShares') #A股流動資本

至此，解析數據也完成了。

五、整理打印數據

print('公司/A股代碼','\\t','公司/A股簡稱','\\t','A股總資本','\\t','A股流動資本')

L1=list()

L2=list()

L3=list()

L4=list()

for x in COMPANY_CODE:

L1.append(x)

for x in COMPANY_ABBR:

L2.append(x)

for x in totalShares:

L3.append(x)

for x in totalFlowShares:

L4.append(x)

#由於同時解四個包太過複雜，python不幹，故拆分開來

x=0

while(x

print(L1[x],'\\t','\\t',L2[x],'\\t','\\t',L3[x],'\\t','\\t',L4[x])

x+=1

這樣我們就爬下一頁了：經驗證無誤。

六、擴大戰果（兒時吹的牛皮還是要補的）

前面誇下海口要抓30頁，怎麼就能沒有了呢？其實後面已經基本沒有什麼了，有興趣的朋友可以和我一起補補課。

感覺內容有些多，我在這裡簡單描述思路，就是我們要分析第一頁第二頁第三頁等之間的目標數據地址的url的相似之處，或者說其中的規律，比如：

第二頁：http://query.sse.com.cn/security/stock/getStockListData2.do?&jsonCallBack=jsonpCallback46762&isPagination=true&stockCode=&csrcCode=&areaName=&stockType=1&pageHelp.cacheSize=1&pageHelp.beginPage=2&pageHelp.pageSize=25&pageHelp.pageNo=2&pageHelp.endPage=21&_=1517320503162

第三頁：http://query.sse.com.cn/security/stock/getStockListData2.do?&jsonCallBack=jsonpCallback61233&isPagination=true&stockCode=&csrcCode=&areaName=&stockType=1&pageHelp.cacheSize=1&pageHelp.beginPage=3&pageHelp.pageSize=25&pageHelp.pageNo=3&pageHelp.endPage=31&_=1517320503163

很輕鬆就可以對比出不同和相似之處，可以說僅僅在個別關鍵字部分進行了修改。

故提取三十頁的代碼，以及之前的各種步驟，我們可以封裝到函數以便調取使用：

def find_pageA(c): #根據傳遞參數c（提取的頁數）來選擇目標url地址

return 'http://query.sse.com.cn/security/stock/getStockListData2.do?&jsonCallBack=jsonpCallback13897&isPagination=true&stockCode=&csrcCode=&areaName=&stockType=1&pageHelp.cacheSize=1&pageHelp.beginPage='+str(c)+'&pageHelp.pageSize=25&pageHelp.pageNo='+str(c)+'&pageHelp.endPage='+str(c)+'1&_=151731428806'+str(c)

def datascreenA(a):#封裝解析輸出的部分

COMPANY_CODE=jsonpath(a,'$..pageHelp..COMPANY_CODE')

COMPANY_ABBR=jsonpath(a,'$..pageHelp..COMPANY_ABBR')

totalShares=jsonpath(a,"$..pageHelp..totalShares")

totalFlowShares=jsonpath(a,'$..pageHelp..totalFlowShares')

print('公司/A股代碼','\\t','公司/A股簡稱','\\t','A股總資本','\\t','A股流動資本')

L1=list()

L2=list()

L3=list()

L4=list()

for x in COMPANY_CODE:

L1.append(x)

for x in COMPANY_ABBR:

L2.append(x)

for x in totalShares:

L3.append(x)

for x in totalFlowShares:

L4.append(x)

x=0

while(x

print(L1[x],'\\t','\\t',L2[x],'\\t','\\t',L3[x],'\\t','\\t',L4[x])

x+=1

def collect_30_pagesA():#調取30頁，相當於主函數

c=1

while(c<31):

time.sleep(2)

print('第', c, '頁:')

response=requests.get(find_pageA(c),headers=headers)

a='{"content":'+response.text[19:-1]+'}'

b=json.loads(a)

datascreenA(b)

c+=1

終結

不知不覺寫了這麼多，真的是閒的太慌了。其實除了A股還有B股，有興趣也可以繼續爬下去，雖然我不知道有什麼價值目前……另外就是前言部分的爬取也可以嘗試一下，可能會發現那個文件中的數據又是從其他地方獲取的……恕我能力有限，原理不是特別清晰，故而沒有深入講解那個，望各位指教。當然暴力破解是可行的，但是……又不著急幹啥能不用就不用唄，^_^。

————————————————

原文鏈接：https://blog.csdn.net/qq_36779888/article/details/79210713

分享到:

閱讀更多 任性的90後boy 的文章

關鍵字: 靜態 JSON WebKit

5分鐘！就能學會以太坊 JSON API 基礎知識

前後端分離中，使用 JSON 格式登錄原來這麼簡單！

一個超級好用的json插件，JSON-handler，顯著提高工作效率

JSON 使用大全

微信小程序全局配置文件app.json

在嗎？認識一下JWT(JSON Web Token)？

前端如何做大量的數據校驗？json schema配置詳解

03.07 前端如何做大量的數據校驗？json schema配置詳解

03.04 初識JWT(Json Web Tokens) 認證一二三

手把手教你實現一個 JSON 解析器

Json、Map、Object之間的互相轉換，你知道嗎

02.19 JSON.stringify方法的5個祕密功能

JSON.stringify方法的5個祕密功能

「json&pickle」dumps,loads,dump,load的區別

一分鐘簡單瞭解 JSON Web Token

基於Linux、C、JSON、Socket的編程實例

請不要在 JDK 7+ 中使用這個 JSON 包了

深入淺出：JWT(JSON Web Token)鑑權

JSON 數據計算與入庫

Typescript tsconfig.json 詳解

JSON——IT技術人員都必須要了解的一種數據交換格式

Spring Security 前後端分離登錄，非法請求直接返回 JSON

擼一個 JSON 解析器

JSON 可通過 JavaScript 進行解析

JSON Web Token

php json ECharts Mysql折線圖餅圖柱狀圖

for-loop 與 json.Unmarshal 性能分析概要

Jackson 序列化對象成 JSON 字符串，忽略部分字段（屬性）

JSON 的興起與崛起

Python對象持久化（序列化）——cpickle、json、shelve模塊介紹

JSON 數據格式&XML比較

乾貨：手把手教你用Python讀寫CSV、JSON、Excel及解析HTML

springmvc 使用fastjson 處理 json 數據時中文亂碼

JSON 自學手冊（圖文教程）

JSON.stringify()——JS轉JSON字符串

做一次面向對象的體操：將 JSON 字符串轉換爲嵌套對象的一種方法

07.30 為什麼 JSON 不適合作為配置語言？

JSON Web Token的使用

微信小程序一個 json 就能製作分享朋友圈圖片

06.26 Python 模塊 JSON

Python 模塊 JSON

Discuz API JSON 適用於IOS及Android移動端開發

JSON：程式設計師快來看看風靡全球的JSON「阿里fastjson最佳應用舉例」

05.29 JSON：程序員快來看看風靡全球的JSON「阿里fastjson最佳應用舉例」

004-SpringMVC-如何接收各種參數（普通參數，對象，JSON, URL）

你所不知道的JSON.parse() 和 JSON.stringify() – 高級用法

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"