Python什么爬虫库好用?

IT好玩


作为一枚Python运维开发我简单说几句:

来问这个答案的同学想必是新手:作为练习我的建议先不考虑用什么爬虫框架,多关注Python本身以及标准库,第三方库也是可以的。

  • urllib
  • urllib2
  • BeautifulSoup
  • Queue
  • threading

    我大学刚学的时候用上面的库,完成了一个网站美女图片爬取,并且获得了一份工作,现在代码还在。

    把上面搞定了,熟悉了爬虫之后,再考虑scrapy这种框架。


    涛哥聊Python


    Python爬虫,首推scrapy,架构比较清晰,代码写起来很简洁,如果是python纯新手的话,还是建议从urllib开始练手,熟悉python的编程基础。




    o萧萧的风o


    1.不用框架的话,强烈推荐requests库,这个库是真的唉urllib这些库好用

    2.用框架的话,用scrapy,毕竟现在的一个主流,资料也多

    我也在学习python爬虫,大家一起努力


    技术修炼之路


    Python爬虫库,基本的有urllib,bs4库,前者是Python自带的网页请求库,后者是常用的网页内容解析与提取库。一些基本爬虫功能基本可以通过这两个库实现。

    除了这个两个,还有requests,pyquery,selenium,scrapy等库,这些库效率更高一点,能实现更为复杂的抓取工作。详情可以百度,书籍的话,推荐《Python网络数据采集》。


    夜烛隙谈


    新手第一个demo就是用bs4+urllib去爬的小电影,结果发现,没空间存了,现在一些网站安全做的真差,一个head就搞定了,大部分都没安全……


    乱风飞絮X


    框架的话:scrapy

    库:requests

    小项目自己写就行不需要用框架。


    一只小coder


    Scrapy和Pyspider是两个比较好的python爬虫框架


    trY


    当然是Request_html 咯 这个库功能非常多! 抓取JavaScript CSS HTML 都不在话下! 没有它抓取不到的内容哦! 建议你也好好学一学吧!


    七月与良言


    Scrapy

    自己平常没事练习了一些项目,都是用的这个抓取数据的


    代码的那些事


    requests库,没有之一


    分享到:


相關文章: