推薦你看一下GitHub上這些常見的網站爬蟲例子,
代碼通用性較高,時效性較久。
項目代碼對新手比較友好,是簡單的python代碼,並配有大量註釋。1.淘寶模擬登錄
使用教程
點擊這裡下載下載chrome瀏覽器查看chrome瀏覽器的版本號,點擊這裡下載對應版本號的chromedriver驅動pip安裝下列包
pip install selenium
點擊這裡登錄微博,並通過微博綁定淘寶賬號密碼在main中填寫chromedriver的絕對路徑在main中填寫微博賬號密碼
#改成你的chromedriver的完整路徑地址
chromedriver_path = "/Users/bird/Desktop/chromedriver.exe"
#改成你的微博賬號
weibo_username = "改成你的微博賬號"
#改成你的微博密碼
weibo_password = "改成你的微博密碼"
演示圖片
2.天貓商品數據爬蟲
使用教程
點擊這裡下載下載chrome瀏覽器查看chrome瀏覽器的版本號,點擊這裡下載對應版本號的chromedriver驅動pip安裝下列包
- pip install selenium
- pip install pyquery
點擊這裡登錄微博,並通過微博綁定淘寶賬號密碼在main中填寫chromedriver的絕對路徑在main中填寫微博賬號密碼
#改成你的chromedriver的完整路徑地址
chromedriver_path = "/Users/bird/Desktop/chromedriver.exe"
#改成你的微博賬號
weibo_username = "改成你的微博賬號"
#改成你的微博密碼
weibo_password = "改成你的微博密碼"
演示圖片
3.爬取淘寶我已購買的寶貝數據
使用教程
點擊這裡下載下載chrome瀏覽器查看chrome瀏覽器的版本號,點擊這裡下載對應版本號的chromedriver驅動pip安裝下列包
- pip install selenium
- pip install pyquery
點擊這裡登錄微博,並通過微博綁定淘寶賬號密碼在main中填寫chromedriver的絕對路徑在main中填寫微博賬號密碼
#改成你的chromedriver的完整路徑地址
chromedriver_path = "/Users/bird/Desktop/chromedriver.exe"
#改成你的微博賬號
weibo_username = "改成你的微博賬號"
#改成你的微博密碼
weibo_password = "改成你的微博密碼"
演示圖片
4.每天不同時間段通過微信發消息提醒女友
簡介
有時候,你很想關心她,但是你太忙了,以至於她一直抱怨,覺得你不夠關心她。你暗自下決心,下次一定要準時發消息給她,哪怕是幾句話,可是你又忘記了。你覺得自己很委屈 ,但是她又覺得你不負責。
現在,再不用擔心了,用python就可以給女友定時發提示消息了,而且不會漏過每一個關鍵時刻,每天早上起床、中午吃飯、晚上吃飯、晚上睡覺,都會準時發消息給她了,而且還可以讓她學習英語單詞哦!
在生日來臨之時,自動發祝福語。在節日來臨之時,比如**三八婦女節、女神節、情人節、春節、聖誕節**,自動發問候語哦,再也不用擔心他說你沒有儀式感了
最重要的時候,實時可以知道女友的情感情緒指數哦,再也不用擔心女友莫名其妙生氣了。
使用教程
1.pip安裝下列包
- pip install wxpy
- pip install requests
2.設置以下內容
- 設置config.ini相關信息
演示圖片
5.爬取5K分辨率超清唯美壁紙
簡介
壁紙的選擇其實很大程度上能看出電腦主人的內心世界,有的人喜歡風景,有的人喜歡星空,有的人喜歡美女,有的人喜歡動物。然而,終究有一天你已經產生審美疲勞了,但你下定決定要換壁紙的時候,又發現網上的壁紙要麼分辨率低,要麼帶有水印。
這裡有一款Mac下的小清新壁紙神器Pap.er,可能是Mac下最好的壁紙軟件,自帶5K超清分辨率壁紙,富有多種類型壁紙,當我們想在Windows或者Linux下使用的時候,就可以考慮將5K超清分辨率壁紙爬取下來。
使用教程
- 確保以下庫均已安裝:
# 如果沒有安裝,請使用pip install module安裝
import requests
import filetype
import os
import json
from contextlib import closing
演示圖片
6.爬取豆瓣排行榜電影數據(含GUI界面版)
簡介
這個項目源於大三某課程設計。平常經常需要搜索一些電影,但是不知道哪些評分高且評價人數多的電影。為了方便使用,就將原來的項目重新改寫了。當做是對爬蟲技術、可視化技術的實踐了。主要是通過從排行榜和從影片關鍵詞兩種方式爬取電影數據。
使用教程
打開http://chromedriver.storage.googleapis.com/index.html,根據自己的操作系統下載對應的chromedriver
打開當前面目錄下的**getMovieInRankingList.py**,定位到第59行,將executable_path=/Users/bird/Desktop/chromedriver.exe修改成你自己的chromedriver路徑
打開pycharm,依次安裝以下包
- pip install Pillow
- pip install selenium
演示圖片
包含功能
根據關鍵字搜索電影
根據排行榜(TOP250)搜索電影
顯示IMDB評分及其他基本信息
提供多個在線視頻站點,無需vip
提供多個雲盤站點搜索該視頻,以便保存到雲盤
提供多個站點下載該視頻
等待更新
存在問題
目前沒有加入反爬蟲策略,如果運行出現403 forbidden提示,則說明暫時被禁止,解決方式如下:
加入cookies
採用隨機延時方式
採用IP代理池方式(較不穩定)
7.多線程+代理池爬取天天基金網、股票數據(無需使用爬蟲框架)
簡介
提到爬蟲,大部分人都會想到使用Scrapy工具,但是僅僅停留在會使用的階段。為了增加對爬蟲機制的理解,我們可以手動實現多線程的爬蟲過程,同時,引入IP代理池進行基本的反爬操作。本次使用天天基金網進行爬蟲,該網站具有反爬機制,同時數量足夠大,多線程效果較為明顯。
技術路線
- IP代理池
- 多線程
- 爬蟲與反爬
數據格式
000056,建信消費升級混合,2019-03-26,1.7740,1.7914,0.98,2019-03-27 15:00000031,華夏復興混合,2019-03-26,1.5650,1.5709,0.38,2019-03-27 15:00000048,華夏雙債增強債券C,2019-03-26,1.2230,1.2236,0.05,2019-03-27 15:00000008,嘉實中證500ETF聯接A,2019-03-26,1.4417,1.4552,0.93,2019-03-27 15:00000024,大摩雙利增強債券A,2019-03-26,1.1670,1.1674,0.04,2019-03-27 15:00000054,鵬華雙債增利債券,2019-03-26,1.1697,1.1693,-0.03,2019-03-27 15:00000016,華夏純債債券C,2019-03-26,1.1790,1.1793,0.03,2019-03-27 15:00
功能截圖
配置說明
# 確保安裝以下庫,如果沒有,請在python3環境下執行pip install 模塊名
import requests
import random
import re
import queue
import threading
import csv
import json
最後
小編近幾年在學習Python!對於想學習Python的朋友們,我想說:很多人學了一個星期就放棄了,為什麼呢?其實沒有好的學習資料給你去學習,你們是很難堅持的,這是小編收集的Python入門學習資料!如下圖回覆01即可獲得!
閱讀更多 Python花貓 的文章