Python网络爬虫之配置篇(一)

写在前面

在互联网时代,最具实用价值的当属“数据”,当你还在焦虑该如何从网上批量下载图片、视频或者工作所需要的一些数据时,别人已经很熟练的运用python爬虫技术高效办公,分析、挖掘数据以及为机器学习提供重要的数据源。

关于python网络爬虫的书籍和教程很多,当我们在自学时难免会踩到很多雷区。一般新手都会被开发环境配置问题难住,从而打消继续学习的积极性,在接下来的内容里,我将自己踩过的雷,以及排雷的方法分享给大家,避免在网络上杂乱的回答中再次陷入泥潭。

Python3的安装注意事项

从官方网站下载Python3:https://www.python.org/downloads/release/选择一个版本下载

Python网络爬虫之配置篇(一)

多版本选择


安装完成后就是环境配置问题了,为什么要进行环境配置?简而言之就是为了更好的运行进程,能够在命令行中执行环境变量路径下的可执行文件,如python,pip命令来导入第三方库。

环境配置:

Step1:将你所安装的python3的路径复制下来

Step2:右击“计算机”,选择“属性”,选择“高级系统设置”

Python网络爬虫之配置篇(一)

高级系统设置


Step3:点击下方“环境变量”,在“系统变量”中找到“path”,新建将step1中复制的路径添加到里面。回车后再把python中Scripts的文件夹路径复制进去就可以了

Python网络爬虫之配置篇(一)

path


Python网络爬虫之配置篇(一)


请求库安装注意事项:

在“开始”菜单中搜索cmd,回车后进入命令行模式,一般输入pip3 install +“库名称”就可以正常导入所需要的请求库了,但此命令默认打开的是https://pypi.python.org/simple/,在国内访问速度很慢会导致安装失败,此时就可以通过国内的镜像网站来解决此问题。

国内镜像网站:

清华:https://pypi.tuna.tsinghua.edu.cn/simple/

阿里云:http://mirrors.aliyun.com/pypi/simple/

中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/

华中理工大学:http://pypi.hustunique.com/

山东理工大学:http://pypi.sdutlinux.org/

豆瓣:http://pypi.douban.com/simple/

安装举例:安装requests库

pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple/ tensorflow-gpu==版本号,下划线部分为指定库的版本号,如不需要指定版本号则可删除

接下来将会持续更新selenium库自动化驱动浏览器所遇见的问题,还有Firefox浏览器的Firebug组件,特牛的下载器Internet Download Manager等,欢迎您的关注哦!


分享到:


相關文章: