python爬虫怎么做？_問答 _ 頭條網

Python基本环境的搭建，爬虫的基本原理以及爬虫的原型

Python爬虫入门(第1部分)

如何使用BeautifulSoup对网页内容进行提取

Python爬虫入门(第2部分)

爬虫运行时数据的存储数据，以SQLite和MySQL作为示例

Python爬虫入门(第3部分)

使用selenium webdriver对动态网页进行抓取

Python爬虫入门(第4部分)

讨论了如何处理网站的反爬虫策略

Python爬虫入门(第5部分)

对Python的Scrapy爬虫框架做了介绍，并简单的演示了如何在Scrapy下进行开发

Python爬虫入门(第6部分)

壹瓜壹果

{!-- PGC_VIDEO:{"thumb_height": 360, "thumb_url": "b767000764bd413ebfd2\

手机视界

当然是先了解python的基础熟悉css和HTML标签掌握最牛逼的库，requests，scrapy，

url等等最常用的库，也是爬虫最好用的库，学会这些，爬取一些简单的没有问题，再深入学习多线程爬取数据，贼牛逼，当你爬取一些数据之后，有了成就感，就有动力，加油！你是最棒的

软件系列神仙

入门爬虫，肯定先要对爬虫有个明确的认识。

网络爬虫：又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

其实简单说，爬虫就是爬取知识，爬取内容。就像一只蜘蛛，不断的在爬取网路上的内容！互联网上的内容都是人写出来的，有规律，大部分爬虫是从发送请求——获得页面——解析页面——下载内容——储存内容这样的流程来进行。

如何入门爬虫，可以看传智播客Scrapy爬虫框架视频教程：

其它关于网络爬虫的教程：

网络爬虫-利用python实现爬取网页神技1

网络爬虫-利用python实现爬取网页神技2

Python之爬虫开发帝王

传智播客

谢邀~~关注极迭代，和小伙伴一起看↗↗↗

python的知名用途之一就是做爬虫，爬取各类网站的数据，以便进行进一步分析

根据爬取的难易不同，(网站封堵的力度大小)，会有多种的爬取方式。

简单网站，直接使用页面请求

python将http请求发送给服务器，服务器返回网页内容

此时，就可以用python多线程的方式进行数据的抽取和分析、存储了

从获取的html页面中，或者api获取的json中，得到自己所需要的数据，然后存储到指定的数据库

用到的库主要为：

http访问： requests模块、或urllib3库

多线程：Thread、threadpool线程池，或者concurrent包里的ThreadPoolExecutor、或urllib3自带的PoolManager()

文档处理： re 正则表达式、json模块

数据存储：MySQL-python存储或者pymongo mongodb存储等等

进一步的，如果爬取量大，可以进行些简单的封装，让各个功能各司其职

比较正式的爬虫系统，可以用python框架Scrapy

Scrapy已经提供了一整套的机制，来减少自己搭建爬虫系统的难度。

被封堵的网站

网站封堵爬虫会有很多的不同的技术，并且这些技术都是在不断调整和完善的，网站有时也会修改界面或者接口，我们会经常会发现今天能爬取的网页，明天就不行了，这就需要经常检查和修复。

简单的js封堵，可以通过代码分析，模拟逻辑来绕过

复杂的验证码就需要用些图像识别库来进行识别了，如pytesser，然后填充和认证通过

如果需要登录的网站，还可能需要用到selenium工具进行模拟输入的方式登录

最后，我们就能够下载到所需要的文章、图片、漫画、视频、数据等等

❤❤❤❤❤　请任性点赞，谢谢关注　　--　我是极迭代，我为自己带盐 :)

极迭代

不管你用什么语言，爬虫都只有这几个步骤

1、发送请求

2、接受响应

3、解析响应

4、数据存储

上面的怎么理解呢？我们以浏览器的工作过程作个大概的说明。比如，我们准备在百度上查个问题。

首先，我们需要在浏览器地址栏输入 http://www.baidu.com ，然后回车。其实这就是在发送请求，当然浏览器为我们隐藏了很多细节。简单粗暴的理解，浏览器会将地址以及本身的一些信息打包成一个 HTTP 包（计算机里就叫做请求），然后发给目标地址。

其次，远程服务器在收到请求后，知道了浏览器想访问 www.baidu.com ，于是也打了一个包（计算机里就叫做响应）然后返回，浏览器从而接受到了响应。

然后，浏览器收到响应后，会看看响应的一些信息，比如返回的内容的类型，比如这里是 HTML ，于是浏览器调用相应的引擎渲染，最后百度页面就展示出来了。

最后呢，如果浏览器开着缓存的话，会将访问过的 HTML 文本缓存过来，也就是数据存储了。

这样，浏览器访问百度页面的流程也就结束了。爬虫呢，就是将上述的过程通过代码手动来控制。

所以

最基本的，我们需要了解 HTTP 的基础知识，至少你得清楚什么是请求，什么是响应，请求的 GET 和 POST 方式有啥区别。

前期了解基础就 OK 了，看下廖雪峰的这个就行了 http://dwz.cn/7GN39x 。

然后我们要知道怎么发送请求和接收请求，这个 Python 有很多现成的库，如果想快速入手的话学学 Request 就可以搞定。

http://docs.python-requests.org/zh_CN/latest/user/quickstart.html 。基础的话，看给的链接的一个页面足矣。

其次就是解析数据，数据当然有很多类型，如果是图片或其它二进制类型的话，就要看 Python IO 方面的内容，这里上面的链接有一个小例子。

如果是 HTML 或者 XML 类型的话，有两种方式解析。或是使用正则匹配，或是使用现成的库如 PyQuery 等。当然正则比较麻烦，初学者前期可以先使用现成的库。

JSON类型的话 Python 的 simplejson 库就能解决。

常见的也就这几种类型，碰到少见的百度、谷歌找下解决方案就好。

最后是存储部分，二进制类型的话可以直接存文件，比如上面的图片。文本类型的话，可以存 MySQL 或是 Mongo 。MySQL 的话可以使用 PyMySQL 库，Mongo 可以用 PyMongo 。当然也还有其它的数据库，看你的选择。

------

到这里，完成一个爬虫所需要的基础知识我也差不多说明完了。上面有的知识点我给了教程链接，有的没有，需要的朋友可以自己试着百度、谷歌一下。

另外，也考虑到大家找着麻烦以及教程的系统性，我这有个之前付费买的的视频教程，这里免费分享给大家，前面涉及点的也都有教学，需要的可以私信我。

看完前面 3 个章节，基本上爬虫所需的基础知识你也差不多掌握好了。至于爬虫怎么做，到这里你也基本清楚了。

后面进阶的话，你可以看下后面 2 个章节，当然，这对进阶还远远不够，更重要的是去实践，去挑战各类反爬虫策略。

觉得有用的希望留个赞，对 Python 有兴趣的伙伴欢迎来关注，近期也写了一些 Python 基础相关的文章。

以上。

开发小凯

入门来说，其实很简单，只要你对网页有一定的了解，有一点python基础，很快就能上手。python里边有许多现成的用于做爬虫的包，像urllib,urllib2,requests等，解析网页有bs4,lxml,正则表达式等，我经常用到的就是requests+BeautifulSoup爬网页，对于爬取基本常见的网页就足以了，requests(get或post)下载网页，BeautifulSoup解析网页，find查找获取你需要的数据就可以，然后存到mysql或mongodb中，一个基本的爬虫就成了，像爬去糗百，批量下载图片、视频等都可以，如果你想进一步深入了解爬虫，可以了解一下scrapy框架和多线程，分布式爬虫。

壹瓜壹果

手机视界

软件系列神仙

如何入门爬虫，可以看传智播客Scrapy爬虫框架视频教程：

传智播客

简单网站，直接使用页面请求

比较正式的爬虫系统，可以用python框架Scrapy

被封堵的网站

❤❤❤❤❤ 请任性点赞，谢谢关注 -- 我是 极迭代 ，我为自己带盐 :)

极迭代

开发小凯

相關文章:

刚刚工作的毕业生，一个月只有2000多，是不是太少了？

为什么只有edg赚钱？

网上罗马仕充电宝20000毫安的，参数怎么很多样？哪个是真的？

我们买的新商品房还没有拿到房产证，怎么转卖最好？

为什么突厥人可以成功复国？是大唐的刀不锋利了么？

小高层16层高楼间距60米哪一层比较好？

金银花盆栽好养吗？怎么养？

长城对于抵御古代匈奴和蒙古人起到了多大作用？

什么树可以嫁接腊梅？

行情堪忧，还有多少教育机构的老师们五一假期有课上的？课时量多不多？

在农村“立夏节”都有哪些民间习俗？

男朋友失望分手，但对我还有感觉，答应我两个月之后可以在一起，我应该怎么做，才能改变之前他对我的看法？

工程分包乙方人员伤残谁承担？

有哪些看起来毫不相关的两个历史人物实际上有过联系？

13年雪铁龙世嘉自动挡7万多公里，没有水泡事故，多少钱能买？

22+吃土少女17年就有驾驶证了，今年才开始开车，想买个二手昂克赛拉，或者有什么好建议吗？

如何骑车去台湾骑行？

本人预算5万左右，想买一辆二手法系车！求推荐？

14年进口马自达5PK进口10年道奇酷威买哪个划算？

2020年，河南教育行业国务院特殊津贴推荐，河南大学并列第三，大家怎么看？

本田CRV2019款1.5T舒适版油耗高吗？

国外疫情如果没有得到有效控制，世界会发生什么事情？头脑风暴？

本田XRV这款车的整体表现怎么样？我想买1.5T自动豪华版，全款多少钱？

现在存款有14万，借了5万还没收回来，该做什么好？

2070super和5700xt买哪个比较好？

生完二胎后，感觉自己有点抑郁，总是想发火，特别烦躁，怎么办？

人这一生遇到的人和事为什么感觉都像是必然的经历？

现在校内校外到底教的是美式英语还是英式英语还是混搭英语？

上有老下有小，我们真的跳不出这个人生循环了吗？

如果外面正在下小雨，你会突然想起了谁？

初中同学许久未见大学期间突然联系请吃饭，态度还良好，我给推了，会不会让人很烦？

现在我觉得认真对某个人说我喜欢你什么的这种话好恶心，我爱你更说不出口，好恶心，是什么心理？

剧版的《何以笙箫默》和《再见王沥川》哪一个更好看呢？

计算机专业本科能够进入字节跳动、华为这些公司做开发吗？是否还需要继续读研？

生完二胎的你们，现在有什么感想？

华北适合种植蚕豆吗？

华为手机更新EMUI10.1系统后效果咋样？

大热天蜜蜂老是爬到箱外结群正常吗？

辣椒正是生长最佳期，偏偏有的辣椒苗蔫，不是病虫害是咋回事？

手机相机发展的最终形态会是怎样的？

❤❤❤❤❤　请任性点赞，谢谢关注　　--　我是极迭代，我为自己带盐 :)