Python3 爬虫抓取沪市股票代码和最近收盘价_技术 _ 頭條網

如何获取沪市、深市上市公司的股票代码、名称和最近一日的收盘价格。查看了百度股票、新浪财经等网站后，我选择东方财富网完成这项任务。东方财富网对几乎所有个股建立了股吧和个股网页。

从东方财富网股吧（http://guba.eastmoney.com/remenba.aspx）可以方便地抓取股票代码和名称，因为它们都是通过静态页面直接显示，使用requests、BeautifulSoup库和正则表达式可以很方便地获取。

查看源代码，找到显示沪市股票列表信息，它们被存放在class="ngbglistdiv"的

标签中。使用BeautifulSoup库的find_all函数查找获得

标签内的所有标签及内容。继续使用find_all查找

标签中所有的标签，并用string属性获得内容。最后分割字符串获得股票代码和股票名称。（注意：这里没有直接从

标签中获取内容或者使用正则表达式，是因为股票列表中间有一个隐藏

标签，用这种方法只能取到隐藏

标签之前的内容。）

<code>for div in soup.find_all('div',{'class':'ngbglistdiv'}):for li in div.find_all('li'): s = li.contents[0].string code = s[1:7] name = s[8:]/<code>

接下来从个股页面http://quote.eastmoney.com/sh600010.html获取最近股票成交价。观察这个链接地址，页面文件是以“sh”后面加上股票代码命名的，而前面我们已经获得了沪市的每一个股票的代码。

查看源代码，发现并不能直接在页面找到“1.14”这个价格信息，它是动态生成的。

“F12”打开开发人员工具，查看“Elements”，找到显示“1.14”这个价格所在区域。有一个“data-bind”属性等于“43”，这个就是javascript脚本加载数据的关键属性。

查看“Network”，点击“Name”区域的get请求连接，在右侧的“Headers”中注意找到“fields=f43”，这个Request URL就是实际的请求地址。

点击Headers右侧的Preview，可以看到f43:1.14，从服务器动态加载的数据被JQuery封装在一个字典当中。

复制这个Request URL在浏览器单独打开，我们需要的价格信息就在这中间。

直接使用这个Request URL有点繁琐，把没有必要的参数值全部删掉。

经过测试，问号前面的地址不变，后面的只有这3个参数有实际作用。

fltt表示小数位数，fields是我们要找的数据属性标识符，这两个也固定不变。只有secid=1.600114，小数点后边的6位数字代表的是股票代码。这样根据每一个股票代码，使用正则表达式就看可以获取到价格那个值。

<code># 根据股票代码获取最近一天收盘价
def getStockPrice(stock_code):
\turl = 'http://push2.eastmoney.com/api/qt/stock/get?fltt=2&fields=f43&secid=1.' + stock_code
\tdata = getHtmlContent(url)
\trex = re.compile('\"f43\":\\d*.\\d*')
\tm = re.search(rex,data)
\t# 返回价格
\treturn m.group(0).split(':')[1]/<code>

最后整合所有代码：

<code># _*_ coding:utf-8 _*_

import requests
from bs4 import BeautifulSoup
import re

# 获取页面函数
def getHtmlContent(url):
\ttry:
\t\tr = requests.get(url,'html.parser')
\t\tr.raise_for_status()
\t\tr.encoding = r.apparent_encoding
\t\treturn r.text
\texcept Exception as e:
\t\treturn ''

# 解析并打印
def parseHtml(html):
\tsoup = BeautifulSoup(html,'html.parser')
\tcount = 0
\ttry:
\t\tfor div in soup.find_all('div',{'class':'ngbglistdiv'}):
\t\t\tfor li in div.find_all('li'):

\t\t\t\tcount = count + 1
\t\t\t\ts = li.contents[0].string
\t\t\t\tcode = s[1:7]
\t\t\t\tname = s[8:]
\t\t\t\tprice = getStockPrice(code)

\t\t\t\tprint(count, code, name, price)
\texcept Exception as e:
\t\tprint('')

# 根据股票代码获取最近一天收盘价
def getStockPrice(stock_code):
\turl = 'http://push2.eastmoney.com/api/qt/stock/get?fltt=2&fields=f43&secid=1.' + stock_code
\tdata = getHtmlContent(url)
\trex = re.compile('\"f43\":\\d*.\\d*')
\tm = re.search(rex,data)
\t# 返回价格
\treturn m.group(0).split(':')[1]

# 主函数
if __name__ == '__main__':
\tname_url = 'http://guba.eastmoney.com/remenba.aspx'
\thtml = getHtmlContent(name_url)
\tparseHtml(html)/<code>

运行看看效果：

最终成功抓取到了沪市1559家上市公司的股票代码、股票名称和最近收盘价。

小结：现在互联网上的系统大多数页面数据都是动态加载，而且做了很多反爬措施，爬取网页内容，主要是分析清楚网页结构和数据加载的原理。

相關文章:

Python3.9官方文档翻译版python简介之列表

python3 爬虫从学习强国下载慕课视频

Python3 高级核心技术97讲之动态属性

Python3 爬虫从网站抓取图片（一）

Python3 面向对象编程

02.27 Python3 基本数据类型详解

02.26 Python3 错误和异常

02.25 Python3 运算符

02.25 python3：map函数和filter函数详解

python3—requests讲解

Python3 注释

Python3 解释器

Python3 基本数据类型

Python3 基础语法

Python3 简介

Python3 环境搭建

12.01 Python3.9将支持把AST对象转换回Python代码

Python3 面向对象

python3.7的常见报错集合

Python3 模块

Python3 数据结构

Python3 函数

Python3 迭代器与生成器

Python3 pickle模块的使用详解

Python3 字典

Python3 元组

Python3 列表

Python3 几种基础语法

Python3.8 新特性 (一)：赋值表达式

Python教程：Python3.8了解差不多了，Python3.9新特性了解一下

python3 基础知识学习笔记（一）

Python3 自学第5天：列表list

Python3 自学第4天：字符串

Python3 自学第2天：Number I

Win7操作系统上安装 Python3.X环境

如何在本地搭建 Python3 开发环境

Python3.x标准模块库目录

Python零基础教程——Python3.6环境搭建安装！

Python3 list 排序函数详解

今天给大家带来一个，Python3.6的格式化字符串的使用方法

Python3 快速入门教程：接口测试简介

python3 求微商

python3：利用SMTP协议发送QQ邮件！室友面前的装逼神技能！

Python3+Scapy 自动化探测IP地址

05.01 python3.5｜小白入门使用频率较高及较实用基础语法与简单实例

Python3 基础语法，让你快速了解

03.11 python3.x爬取网易云音乐，超详细版（一）

第二章 IoC容器和Bean配置

运算里不得不说的python模块—math

Devops度量--DevOps 现状快速检查表

SOP是什么（解读）

还不知道交换机上如何配置DHCP，赶紧过来围观吧，一分钟包你学会

还在手动配置IP地址吗？太Low了，一分钟教会您如何配置DHCP

Python爬虫自学笔记：分析头条文章网页源文件

DNS侦查工具

国人开源的异步 Python ORM：GINO

程序测评：Create React App 3.3中有哪些酷炫新功能？

“明学”的魅力？我只要我觉得：驾驭终端，提高生产力

（必收藏系列）Linux面试题——命令集

五分钟学会如何在 IPFS 上部署网站

「正点原子NANO STM32F103开发板资料连载」第29章 内存管理实验

小白怎么学Web前端开发 如何成为技术达人

如何开发一个web静态服务器

学Java编程还有前景吗 如何才能拿到高薪

Python网络爬虫之配置篇（一）

SpringBoot 整合SpringSecurity示例实现前后分离权限注解+JWT登录认证

Python的运行效率太低？几行代码快速提升！

python的优点是什么？最新Python400集视频（附教程）

MySQL中OOM故障应如何下手-爱可生

像专家一样使用 panic

30种不同的编程语言怎么写“Hello, World”

percona QAN 介绍

面试官：你可以用纯CSS判断鼠标进入的方向吗？

网络工程师职业生涯中，哪两点是最重要的？

交换机中相关术语代表什么意思，有必要弄清楚

由浅入深了解以太坊 2.0：最常见问题和最全学习清单

【Linux简单实用小命令001】CentOS 7、8的防火墙端口开放

吃透这些IPFS硬核知识点，日后抢头矿随时“弯道超车”

Hive分桶表

「正点原子NANO STM32F103开发板资料连载」第29章内存管理实验

小白怎么学Web前端开发如何成为技术达人

学Java编程还有前景吗如何才能拿到高薪