IT好玩
作为一枚Python运维开发我简单说几句:
来问这个答案的同学想必是新手:作为练习我的建议先不考虑用什么爬虫框架,多关注Python本身以及标准库,第三方库也是可以的。
- urllib
- urllib2
- BeautifulSoup
- Queue
- threading
我大学刚学的时候用上面的库,完成了一个网站美女图片爬取,并且获得了一份工作,现在代码还在。
把上面搞定了,熟悉了爬虫之后,再考虑scrapy这种框架。
涛哥聊Python
Python爬虫,首推scrapy,架构比较清晰,代码写起来很简洁,如果是python纯新手的话,还是建议从urllib开始练手,熟悉python的编程基础。
o萧萧的风o
1.不用框架的话,强烈推荐requests库,这个库是真的唉urllib这些库好用
2.用框架的话,用scrapy,毕竟现在的一个主流,资料也多
我也在学习python爬虫,大家一起努力
技术修炼之路
Python爬虫库,基本的有urllib,bs4库,前者是Python自带的网页请求库,后者是常用的网页内容解析与提取库。一些基本爬虫功能基本可以通过这两个库实现。
除了这个两个,还有requests,pyquery,selenium,scrapy等库,这些库效率更高一点,能实现更为复杂的抓取工作。详情可以百度,书籍的话,推荐《Python网络数据采集》。
夜烛隙谈
新手第一个demo就是用bs4+urllib去爬的小电影,结果发现,没空间存了,现在一些网站安全做的真差,一个head就搞定了,大部分都没安全……
乱风飞絮X
框架的话:scrapy
库:requests
小项目自己写就行不需要用框架。
一只小coder
Scrapy和Pyspider是两个比较好的python爬虫框架
trY
当然是Request_html 咯 这个库功能非常多! 抓取JavaScript CSS HTML 都不在话下! 没有它抓取不到的内容哦! 建议你也好好学一学吧!
七月与良言
Scrapy
自己平常没事练习了一些项目,都是用的这个抓取数据的
代码的那些事
requests库,没有之一