每週一喂丨惡意爬取上萬本電子書籍？談談薅“公益”羊毛的黑產！科技頭條網

每週一喂丨惡意爬取上萬本電子書籍？談談薅“公益”羊毛的黑產！

2020-03-26 14:57:42 e安教育

時間來到三月底，此次“新冠”疫情的影響已經持續了2個月有餘，在多數人居家隔離的日子裡，互聯網成為了我們與外界溝通的主要渠道。而很多企業也是開放了有期限的免費服務，比如教育和娛樂資源，但卻被某些無良的黑產盯上，遭到惡意爬蟲攻擊。

首先，我們來看一下目前開放的免費資源有哪些。

學術資源類

網課類平臺

教育部組織的 22 個在線課程平臺免費開放。包括愛課程、學堂在線、智慧樹、學銀在線、優客聯盟、好大學在線等等。

優秀內容平臺電子資源

上文提到，圖片中列出的某些企業資源原本是收費使用，但特殊時期響應號召所以變成了免費，但這一舉動卻讓黑產看到了有利益可尋，紛紛出“洞”。

案例：機械工業出版社遭遇惡意爬蟲攻擊

2020年2月，機械工業出版社宣佈免費開放 6000 餘種電子書，其中包括很多專業書籍。不久之後，官方接口陷入崩潰狀態，搜索引擎出現其他相關入口。這很有可能是遭遇了大量惡意爬蟲攻擊。

通過追蹤，目前找到了兩個機械工業出版社的爬蟲，兩個都是腳本爬蟲，一個爬取web端的數據，另一個爬取H5端的數據。

web端 python爬蟲

爬蟲主要使用 requests 進行爬取，通過獲取所有的圖書連接最終到亞馬遜的 CDN 上面去下載內容。

獲取所有的書籍分類，所有的分類是提前保存到項目裡面的，做了目錄和中文名稱的對應關係，猜測是為了後續保存 PDF 名稱使用的，也是為了從中文分類到 CDN 鏈接做一個映射使用，部分示例如下:

獲取該分類下的所有圖書，下面使用偽代碼說明:

最後保存所有的下載鏈接，項目中並沒有給出所有圖書批量下載的代碼，但是從倉庫的描述來看，之前提供了分片下載的代碼。從 github 的 commit 歷史裡面找到了之前的多線程下載代碼，本來以為就是一個簡單的爬蟲，但是到這裡卻發現並不那麼簡單。代碼的實際用途是從 AWS 下載 PDF，這個地方為了防止 AWS 攔截，還做了一些偽裝。

偽裝 HTTP header

模擬瀏覽器添加了 http header，並且增加了分段下載的支持。