Python+scrapy爬蟲識別驗證碼（四）手繪驗證碼識別

最鹹魚擺擺

2020-04-07 13:03:18

一、介紹

今天主要介紹的是微博客戶端在登錄時出現的四宮格手繪驗證碼，不多說直接看看驗證碼長成什麼樣。

二、思路

1、由於微博上的手繪驗證碼只有四個宮格，且每個宮格之間都有有向線段連接，所以我們可以判斷四個宮格不同方向的驗證碼一共有24種，

我們將四個宮格進行標號，得到的結果如下：

則我們可以排列出24種不同的手繪方向的驗證碼，分別為一下24種

2、我們通過獲取到微博客戶端的24種手繪驗證碼後需要進行模板匹配，這樣通過全圖匹配的方式進行滑動。

三、代碼實現

1、首先是要通過微博移動端（https://passport.weibo.cn/signin/login）批量獲取手繪驗證碼，但是這個驗證碼不一定出現，

只有在賬號存在風險或者頻繁登錄的時候才會出現。獲取手繪驗證碼的代碼如下：

注意：需要將模擬瀏覽器所以元素（用戶名框，密碼框）加載完了才能發送用戶名和密碼，否則報錯

<code># -*- coding:utf-8 -*-
import time
from io import BytesIO
from PIL import Image
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

class CrackWeiboSlide():
def __init__(self):
self.url = "https://passport.weibo.cn/signin/login?entry=mweibo&r=https://m.weibo.cn/"
self.browser = webdriver.Chrome(r"D:\\chromedriver.exe")
self.browser.maximize_window()
self.wait = WebDriverWait(self.browser,5)

def __del__(self):
self.browser.close()

def open(self):
# 打開模擬瀏覽器
self.browser.get(self.url)
# 獲取用戶名元素
username = self.wait.until(EC.presence_of_element_located((By.XPATH,'//*[@id="loginName"]')))
# 獲取密碼框元素
password = self.wait.until(EC.presence_of_element_located((By.XPATH,'//*[@id="loginPassword"]')))
# 獲取登錄按鈕元素
submit = self.wait.until(EC.element_to_be_clickable((By.XPATH,'//*[@id="loginAction"]')))
# 提交數據並登錄
username.send_keys("15612345678")
password.send_keys("xxxxxxxxxxxx")
submit.click()

def get_image(self,name = "captcha.png"):
try:
# 獲取驗證碼圖片元素
img = self.wait.until(EC.presence_of_element_located((By.CLASS_NAME,"patt-shadow")))
time.sleep(1)
# 獲取驗證碼圖片所在的位置
location = img.location
# 獲取驗證碼圖片的大小
size = img.size
top = location["y"] # 上
bottom = location["y"] + size["height"] # 下
left = location["x"] # 左
right = location["x"] + size["width"] # 右
print("驗證碼的位置：", left, top, right, bottom)
# 將當前窗口進行截屏
screenshot = self.browser.get_screenshot_as_png()
# 讀取截圖
screenshot = Image.open(BytesIO(screenshot))
# 剪切九宮格圖片驗證碼
captcha = screenshot.crop((left, top, right, bottom))
# 將剪切的九宮格驗證碼保存到指定位置
captcha.save(name)
print("微博登錄驗證碼保存完成！！！")
return captcha
except TimeoutException:
print("沒有出現驗證碼！！")
# 回調打開模擬瀏覽器函數
self.open()

def main(self):
count = 1
while True:
# 調用打開模擬瀏覽器函數
self.open()
# 調用獲取驗證碼圖片函數
self.get_image(str(count) + ".png")

count += 1

if __name__ == '__main__':
crack = CrackWeiboSlide()
crack.main()/<code>

得到的24種手繪驗證碼，同時需要對這些手繪驗證碼根據上邊的編號進行命名

上圖就是我們需要的模板，接下來我們進行遍歷模板匹配即可

2、模板匹配

通過遍歷手繪驗證碼模板進行匹配

<code>import os
import time
from io import BytesIO
from PIL import Image
from selenium import webdriver
from selenium.webdriver import ActionChains
from selenium.webdriver.common.by import By
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

class CrackWeiboSlide():
def __init__(self):
self.url = "https://passport.weibo.cn/signin/login?entry=mweibo&r=https://m.weibo.cn/"
self.browser = webdriver.Chrome(r"D:\\chromedriver.exe")
self.browser.maximize_window()
self.wait = WebDriverWait(self.browser,5)

def __del__(self):
self.browser.close()

def open(self):
# 打開模擬瀏覽器
self.browser.get(self.url)
# 獲取用戶名元素
username = self.wait.until(EC.presence_of_element_located((By.XPATH,'//*[@id="loginName"]')))
# 獲取密碼框元素
password = self.wait.until(EC.presence_of_element_located((By.XPATH,'//*[@id="loginPassword"]')))
# 獲取登錄按鈕元素
submit = self.wait.until(EC.element_to_be_clickable((By.XPATH,'//*[@id="loginAction"]')))
# 提交數據並登錄
username.send_keys("15612345678")

password.send_keys("xxxxxxxxxxxx")
submit.click()

def get_image(self,name = "captcha.png"):
try:
# 獲取驗證碼圖片元素
img = self.wait.until(EC.presence_of_element_located((By.CLASS_NAME,"patt-shadow")))
time.sleep(1)

# 獲取驗證碼圖片所在的位置
location = img.location

# 獲取驗證碼圖片的大小
size = img.size
top = location["y"] # 上
bottom = location["y"] + size["height"] # 下
left = location["x"] # 左
right = location["x"] + size["width"] # 右
print("驗證碼的位置：", left, top, right, bottom)

# 將當前窗口進行截屏
screenshot = self.browser.get_screenshot_as_png()

# 讀取截圖
screenshot = Image.open(BytesIO(screenshot))

# 剪切九宮格圖片驗證碼
captcha = screenshot.crop((left, top, right, bottom))

# 將剪切的九宮格驗證碼保存到指定位置
captcha.save(name)
print("微博登錄驗證碼保存完成！！！")

# 返回微博移動端的驗證碼圖片
return captcha
except TimeoutException:
print("沒有出現驗證碼！！")

# 回調打開模擬瀏覽器函數
self.open()

def is_pixel_equal(self,image,template,i,j):

# 取出兩張圖片的像素點
pixel1 = image.load()[i,j] # 移動客戶端獲取的驗證碼
pixel2 = template.load()[i,j] # 模板文件裡的驗證碼
threshold = 20 # 閾值
pix_r = abs(pixel1[0] - pixel2[0]) # R
pix_g = abs(pixel1[1] - pixel2[1]) # G
pix_b = abs(pixel1[2] - pixel2[2]) # B
if (pix_r< threshold) and (pix_g< threshold ) and (pix_b< threshold) :
return True
else:
return False

def same_image(self,image,template):
"""
:param image: 微博移動端獲取的驗證碼圖片
:param template: 通過模板文件獲取的驗證碼圖片
"""
threshold = 0.99 # 相似度閾值
count = 0
# 遍歷微博移動端獲取的驗證碼圖片的寬度和高度
for i in range(image.width):
for j in range(image.height):

# 判斷兩張圖片的像素是否相等
if self.is_pixel_equal(image,template,i,j):
count += 1
result = float(count)/(image.width*image.height)
if result >threshold:
print("匹配成功！！！")
return True
else:
return False

def detect_image(self,image):
# 遍歷手繪驗證碼模板文件內的所有驗證碼圖片
for template_name in os.listdir(r"D:\\photo\\templates"):
print("正在匹配",template_name)

# 打開驗證碼圖片
template = Image.open(r"D:\\photo\\templates\\{}".format(template_name))

if self.same_image(image,template):
# 返回這張圖片的順序，如4—>3—>1—>2
numbers = [int(number) for number in list(template_name.split(".")[0])]
print("按照順序進行拖動",numbers)
return numbers

def move(self,numbers):
# 獲得四個按點
circles = self.browser.find_element_by_css_selector('.patt-wrap .patt-circ')
dx = dy = 0
# 由於是四個宮格，所以需要循環四次
for index in range(4):
circle = circles[numbers[index] - 1]
# 如果是第一次循環
if index == 0:
# 點擊第一個點
action = ActionChains(self.browser).move_to_element_with_offset(circle,circle.size["width"]/2,circle.size['height']/2)
action.click_and_hold().perform()
else:
# 小幅度移動次數
times = 30
# 拖動
for i in range(times):
ActionChains(self.browser).move_by_offset(dx/times,dy/times).perform()
time.sleep(1/times)

# 如果是最後一次循環
if index == 3:
# 鬆開鼠標
ActionChains(self.browser).release().perform()
else:
# 計算下一次偏移

dx = circles[numbers[index + 1] - 1].location['x'] - circle.location['x']
dy = circles[numbers[index + 1] - 1].location['y'] - circle.location['y']

def main(self):
# 調用打開模擬瀏覽器函數
self.open()
image = self.get_image("captcha.png") # 微博移動端的驗證碼圖片
numbers = self.detect_image(image)
self.move(numbers)
time.sleep(10)
print('識別結束')

if __name__ == '__main__':
crack = CrackWeiboSlide()
crack.main()/<code>

四、識別結果

通過循環四次後繪出四條方向，最終得到效果圖

PYTHON，幫我命名截圖

用數據一窺如今最流行的編程語言—Python！

基於 Python 的新冠病毒傳播仿真器！

很多推崇學 Python 入行的，如果學完 Python 找不到工作怎麼辦？

Python 爬取b站熱門視頻信息並導入Excel表格

python 函數封閉調用

Python 應該怎樣學？

每天學習倆小時java、Python,前段，你還愁沒工作嗎？

為什麼你現在必須遷移到 Python 3？

Python Excel處理數據之旅-

視頻教程+案例，java、python、前端全套

Python 閒談 15——用Python生成屬於自己的頭條二維碼

Python 進階之遞歸函數一點都不難

比PS還好用！Python 20行代碼批量摳圖

python pandas是如何讀取excel表中的sheet的（二）

03.06 Python：40行代碼教你利用Python網絡爬蟲批量抓取小視頻

03.05 Python 配置虛擬環境，讓你的軟件乾乾淨淨…

初學編程：python+java視頻教程兩套限時饋贈給大家

02.27 人生苦短，我用 Python——Life is short, you need Python

為什麼說生活處處都有“Python”

Python 核心知識體系

視頻剪輯什麼鬼？Python 帶你高效創作短視頻

我用 Python 集齊了五福

12.31 Python 2019年值得關注的變化

Python 遠程開機

Numpy：Python，快叫我一聲“爸爸”

Python 線性查找最優實現

Python 如何將字符串作為代碼執行

12.24 Python requests作者簡直是D絲逆襲

相關文章:

PYTHON，幫我命名截圖

用數據一窺如今最流行的編程語言—Python！

基於 Python 的新冠病毒傳播仿真器！

很多推崇學 Python 入行的，如果學完 Python 找不到工作怎麼辦？

Python 爬取b站熱門視頻信息並導入Excel表格

python 函數封閉調用

Python 應該怎樣學？

每天學習倆小時java、Python,前段，你還愁沒工作嗎？

為什麼你現在必須遷移到 Python 3？

Python Excel處理數據之旅-

視頻教程+案例，java、python、前端全套

Python 閒談 15——用Python生成屬於自己的頭條二維碼

Python 進階之遞歸函數一點都不難

比PS還好用！Python 20行代碼批量摳圖

python pandas是如何讀取excel表中的sheet的（二）

03.06 Python：40行代碼教你利用Python網絡爬蟲批量抓取小視頻

03.05 Python 配置虛擬環境，讓你的軟件乾乾淨淨…

初學編程：python+java視頻教程兩套限時饋贈給大家

02.27 人生苦短，我用 Python——Life is short, you need Python

為什麼說生活處處都有“Python”

Python 核心知識體系

視頻剪輯什麼鬼？Python 帶你高效創作短視頻

我用 Python 集齊了五福

12.31 Python 2019年值得關注的變化

Python 遠程開機

Numpy：Python，快叫我一聲“爸爸”

Python 線性查找最優實現

Python 如何將字符串作為代碼執行

12.24 Python requests作者簡直是D絲逆襲

Python requests作者簡直是D絲逆襲

Python：現在還不學習不行啊！

python 無良培訓忽悠騙局知多少？

如何零基礎自學 Python？

非常詳細的基礎講解：Python for循環及基礎用法(較長建議收藏）

Python官方最後通牒：Python 2傳奇將在20年落幕，Python 3接力

讓你眼前一亮的 Python 小技巧

Python 基礎入門必看筆記

Python 自動化帶你輕鬆賺錢

Python django搭建環境

python 正確四捨五入的姿勢

python:教你用爬蟲通過代理自動刷網頁的瀏覽量

大數據全棧式開發語言 – Python

python-selenium登陸今日頭條

09.08 Python 熱門開源項目Top10

爲什麼連小學生都要學 Python？

02.26 Python+人工智能月入高達50K？Python 工程師薪資再創新高

小米太無恥了。

蹭熱點！說說我理解的手機包裝盒事件。

蘋果公司正式發佈iPhone SE二代手機

華為河圖、麒麟芯片和鴻蒙OS三駕馬車並行？華為生態建設佈局深遠

小米高管表示，四千毫安時 5G 手機，和三千多毫安時 4G 手機一樣

5G畫風變了：麒麟985落地首跑，榮耀坐上開往高端的「地鐵」

旗艦手機標配Wifi 6 換Wifi 6路由器的時機到了嗎？

2020年5G手機賣不動？繼蘋果砍單25%之後，華為小米紛紛跟砍？

幹翻華為P40系列 榮耀30也玩中

程序員辭互聯網工作，跨行傳統上市公司，上班第1天就蒙了

蘋果發佈新款iPhoneSE，3299元起售

我很糾結：我究竟適不適合做亞馬遜電商？看了這三條你就知道了

請仔細閱讀，關於跨境電商你想知道的都在這兒

騙子手段太“精明”：商家賠了貨物又賠款，亞馬遜平臺騙術大揭祕

做跨境電商這麼多年，今天才知道給國外客戶發文件原來這麼簡單

值得收藏！三類賣家三種選品方案，總有適合你的一個……

萬萬沒想到！亞馬遜平臺上面賣床單竟營收一個億！你還在等什麼？

做店鋪這麼多年，今天才知道我的listing突然被封，竟是因為……

亞馬遜小白看過來！請採納這些：亞馬遜選品和運營的小建議

亞馬遜賣家如何爆單？跨境精細化運營攻略必看

不收保證金、入住費、年費，還免三個月佣金，我也想入駐這個平臺

馬雲終於要辭職了，留下的話句句觸動人心

等等，明年5G手機將迎來大降價

微信公開課PRO版2019正在進行時，往屆各自都有什麼黑科技

推出「信任分」升級「閃購」，美團本地生活這盤棋有多大？

5G我們超越了6G我們也將領先! 美國為什麼會害怕失去5G領導地位呢

界讀｜華為：幫助英國共渡疫情難關，無端批評令英國蒙受損失

為什麼華為今天可以傲視群雄，在世界上立於不敗之地？

血戰「在線辦公」，阿里、騰訊、字節、華為的底牌與大殺器

2020年最強拍照旗艦來了 華為P40系列多項業界首創 香！

今天聊一聊直播

通過直播賺錢不容易，既要豁得出去，又要端得起來

AI和自動化技術聯手，最終會讓60%的工人失去現有的飯碗。

幹翻華為P40系列榮耀30也玩中

2020年最強拍照旗艦來了華為P40系列多項業界首創香！