一套基於GAN的驗證碼AI識別系統,能在0.5秒之內識別出驗證碼

在網上如何區分機器人和真人?目前基本上還是需要依靠驗證碼技術,但事實證明,這項已經用了近20年的技術馬上就要宣告死亡了!

一套基于GAN的验证码AI识别系统,能在0.5秒之内识别出验证码

驗證碼(CAPTCHA)是“Completely Automated Public Turing test to tell Computers and Humans Apart”(全自動區分計算機和人類的圖靈測試)的縮寫。它是一種區分用戶是計算機和人的公共全自動程序,被廣泛應用於垃圾郵件過濾、在社交網絡上,識別並防止機器人賬號發佈冒充真人的內容(這些內容很可能包含垃圾或欺詐信息)。然而現如今,在像Facebook這樣的社交媒體平臺上仍然存在規模龐大的虛假賬戶,這也清楚地表明這種機制並非萬無一失。

最近,在有關圖像識別機制和機器學習的一篇題為《又一個文本驗證碼解算器:基於生成對抗網絡(GAN)的方法》的研究論文中指出,設計出能夠更為精確地檢測計算機和人類的自動化程序非常重要,為了實現這一目的,研究人員使用基於深度學習方法的人工智能技術開發了一套新的算法。

這個新系統非常有效地解決了驗證碼安全和身份驗證系統存在的不足之處。此外,它還可以大大提升現行識別器對各網站驗證碼的識別準確率,以確保實現最佳防護。

據悉,這種新算法是由中國西北大學、英國蘭卡斯特大學以及北京大學的計算機科學家們共同開發的。該論文聲稱,這種新型解算器(solver)將能夠提供比基於文本的方法更高的準確率。它可以輕鬆地破解以前的攻擊系統無法破解的驗證碼版本。此外,該解算器的速度也是無與倫比的,能夠在短短0.5秒內識別出多種驗證碼。

早期基於文本的驗證碼是該技術的第一次迭代,目前在網絡安全性方面已經不再適應時代發展需求。這種驗證碼涉及使用字母和數字的混合,以及其他諸如遮擋線之類的特徵,以此來區分計算機和人類。歸根結底,基於文本的驗證碼背後的基本思想是,人類可以輕鬆地識別出字母和數字,而計算機不可以。

據瞭解,這項最新成果的新穎之處在於,它使用了生成對抗網絡(GAN)技術來創建訓練數據。該技術涉及教授驗證碼生成程序以創建大量與原始驗證碼無法區分的訓練驗證碼。然後,這些數據就可以被用於快速地訓練解算器,再針對真正的驗證碼進行測試。如此一來,使用機器學習的自動化驗證碼技術就能夠減少識別和手動標記驗證碼以訓練軟件所涉及的時間和精力。

一套基于GAN的验证码AI识别系统,能在0.5秒之内识别出验证码

該研究的發起人之一、蘭卡斯特大學計算與通信學院副教授Zheng Wang表示:

這是第一次使用基於生成對抗網絡(GAN)的方法來構建解算器。我們的工作成果表明,當前這種基於文本的驗證碼方案所採用的安全功能在深度學習方法下特別容易受到攻擊。惡意行為者可以毫不費力地針對基於文本的驗證碼方案發動攻擊。

論文介紹稱,雖然深度神經網絡在圖像識別方面表現出驚人的性能。但是,想要構建成功的模型,通常需要數百萬個手動標記的圖像才能實現順利學習。而這套系統不需要收集和標記數以百萬計的驗證碼文本數據,只需要500組數據就可以成功學習。

由於新的解算器需要最少的人為參與,因此很容易重建它以適應新的或修改的驗證碼方案。目前,該系統已在33個不同的驗證碼系統中進行了成功測試,其中11個來自世界上最受歡迎的一些網站,包括eBay和維基百科等。

一套基于GAN的验证码AI识别系统,能在0.5秒之内识别出验证码

圖中數據為該系統與現行識別器對各網站驗證碼識別準確率的對比,可以看到,大部分測試中的成功識別率都得到了大幅度提升

該研究的主要學生作者Guixin先生表示:鑑於實驗的方法對大多數文本驗證碼方案都取得了很高的識別成功率,因此建議網站應該棄用驗證碼。

研究人員還認為,對於網站而言,是時候開始尋找其他驗證方法了!此外,研究人員還建議網站應該考慮使用擁有多層安全性(例如用戶的使用模式、設備位置甚至生物識別信息)的替代檢測措施。

完整論文地址:

http://www.lancaster.ac.uk/staff/wangz3/publications/ccs18.pdf


分享到:


相關文章: