擅自爬取微信公眾號數據 杭州快億旗下神箭手平臺被訴

大數據終於走向了平穩期,發展過程中的各種隱私、合規問題也終於開始暴露了出來,昨天網絡尖刀犯罪情報團隊監測到一個非常有代表性的民事裁判案件,深圳市騰訊科技有限公司訴杭州快憶科技有限公司,通過針對微信公眾號開發爬蟲工具提供爬取結果數據包的行為,干擾了微信公眾平臺的正常運行,涉嫌構成不正當競爭。

近日,杭州鐵路運輸法院就騰訊公司提出的申請作出裁定,認為杭州快憶科技有限公司違反《微信公眾平臺服務協議》,開發出多款用於爬取微信公眾平臺各類數據的產品並以此牟利的行為,構成不正當競爭的可能性大,杭州快憶需立即停止被訴侵權行為,目前,該網站涉案的相關產品及服務已下架。


擅自爬取微信公眾號數據 杭州快億旗下神箭手平臺被訴

擅自爬取微信公眾號數據 杭州快億旗下神箭手平臺被訴

擅自爬取微信公眾號數據 杭州快億旗下神箭手平臺被訴

擅自爬取微信公眾號數據 杭州快億旗下神箭手平臺被訴


擅自爬取微信公眾號數據 杭州快億旗下神箭手平臺被訴


擅自爬取微信公眾號數據 杭州快億旗下神箭手平臺被訴


提取一下整體的案件情況,我們收集了一系列相關的內容,做了一次完整的事件分析,來對這次案件做一次騰訊側的“還原”。

1.神箭手違反了哪些法律?

雖然騰訊訴訟的是以民事訴訟其反不正當競爭,但是實際上神箭手通過爬蟲大規模拉取騰訊數據這件事兒上,爬取來的內容其實是在侵犯“微信公眾號平臺作者”的著作權,屬於知識產權範疇;

設定規則模擬人的方式通過爬蟲的去請求微信公眾號數據,這種行為其實也是一種“資源消耗型攻擊”,如果請求量足夠大的線層足夠多的前提下,說其向騰訊發起CC流量攻擊其實也是合情合理的,所以這一點屬於網絡法範疇;

神箭手在其平臺上提供了“微信公眾號文章信息API”、“微信訂閱號和最新文章API”、“微信熱搜榜”、“訂閱熱詞API”等針微信數據爬取的服務,這一點才是屬於反不正當競爭範疇;

2.騰訊為什麼選擇告對方反不正當競爭?

說句實話爬取微信公眾號平臺內容的應該會有很多,包括之前某些媒體平臺也提供了將微信公眾號內容爬取下來同步到自身平臺的工具,當然市場上還有一些圖文同步的工具,也可以做很多內容分發,但是這個性質與目前神箭手的性質完全不一樣。

之前的這些“同步工具”其實都是給媒體作者用的工具,雖然爬取的方式嚴格來講不合法,但是實際上在知識產權的角度來講,這些工具都是在原作者同意的前提下,為內容創業者為提供方便的工具,並沒有嚴重的侵犯商業權益,並且從爬取的請求角度來講,只是部分作者用了這種工具,而且不是集中性的任務,其實對微信公眾號來說確實也沒有造成太大的數據壓力;

神箭手不一樣,神箭手是一個經營性的爬蟲平臺,提供爬取微信公眾號爬取規則的,並通過賣節點的方式進行商業變現,所有使用神箭手平臺的人,其實基本都沒有獲取到原作者的授權,單純的就是在神箭手平臺上定製爬蟲規則、節點進行數據抓取,而且是持續高頻。

新增一個爬蟲節點就多一臺服務器在這裡進行非法“攻擊請求”,這一點對微信公眾號平臺確實造成了實際的資源損耗和數據壓力;

不懂法規的就不要上來噴騰訊亂告,騰訊告其反不正當競爭其實已經算是蠻保守的了。

3.爬蟲涉及哪些相關法律問題?

目前國內還沒有真正意義針對爬蟲技術有法律或者相關規範,從技術角度爬蟲存在是為了高效的收集信息,本身是沒有違法違規之處,界定違規其實在於爬蟲的用途,常見的爬蟲是遵守中國互聯網協會《互聯網搜索引擎服務自律公約》中robots協議,但此內容不具備實際的法律約束,反倒是屬於商業道德範疇;

目前無視robots協議抓取網站內容的行為,大部分都會以涉嫌構成《反不正當競爭法》的第二條,即違反誠實信用原則和商業道德的不正當競爭行為原則進行訴訟。

當然這也要取決於爬蟲爬取的內容到底是什麼,比如爬取文章可能侵犯的是原作者的“著作權”;爬取別人公司的商業數據,侵犯的即是商業秘密;爬取微博、微信、Facebook、Twitter甚至其他平臺的用戶(姓名、手機、郵箱)等敏感信息,侵犯的則是個人用戶隱私;

維護民營企業市場競爭秩序,這樣的民事訴訟一般都會依照《民法通則》、《反不正當競爭法》、《民事訴訟法》進行延展。

但侵犯公民用戶隱私則可以依照《網絡安全法》44條非法獲取個人信息的角度進行處理,如果抓取了這些數據不但自己用還往外面賣,那麼就可以參考《刑法》修正案253條侵犯公民個人信息罪進行處理。

4.謹慎考慮使用爬蟲的風險

不是所有的爬蟲都一棒子敲死,存在就都是危害別人利益的,比如像百度、谷歌、360、搜狗這些搜索引擎,其實本身都在使用爬蟲技術,但是其索引抓取網頁內容的方式,應用到業務裡實際上是為被爬取方帶來利益的,所以不但我們不希望禁止他們的爬蟲,還期望更多的迎接他們的爬蟲的到來,當然如果不想著爬蟲抓取我的內容,我也可以直接通過搜索引擎爬蟲robots協議,對其進行禁止爬取的設定,這樣搜索引擎就不會抓你,自然就不會有風險。

但反之,我明令寫了《許可協議》告知了不讓你爬你還爬,我上了“反爬取措施”你就用非法手段繞過,高頻請求對我運營平臺造成了服務器高負荷的技術壓力,影響我正常經營,還把爬取我的數據出去賣????

家裡有礦嗎?敢這樣搞,不弄你弄誰啊?

寫在最後

很多不良機構培訓都打著大數據Python工程師培訓的頭銜,實際上都在引導很多不懂行業的無知小白去學習爬蟲技術,這些人沒有專業的法律法規科普,很容易在不明情況下走向了犯罪的道路,不是所有的公開數據都隨意爬的,各位一定要有這樣的認知。

還去培訓機構學Python寫爬蟲嗎,從入門到入獄的那種?


來自:網絡尖刀公眾號

作者:曲子龍


分享到:


相關文章: