爬虫究竟是合法行为还是违法行为的?

什么是爬虫

爬虫究竟是合法行为还是违法行为的?

爬虫就是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。

你每天使用的百度,其实就是利用了这种爬虫技术:每天放出无数爬虫到各个网站,把他们的信息抓回来,然后化好淡妆排着小队等你来检索;抢票软件,也相当于撒出去无数个分身,每一个分身都帮助你不断刷新 12306 网站的火车余票。

“平行世界”:就在我们身边的网络上,已经密密麻麻爬满了各种网络爬虫,它们善恶不同,各怀心思。而越是每个人切身利益所在的地方,就越是爬满了爬虫。

爬虫也分善恶。

像谷歌这样的搜索引擎爬虫,每隔几天对全网的网页扫一遍,供大家查阅,各个被扫的网站大都很开心。这种就被定义为“善意爬虫”。

爬虫究竟是合法行为还是违法行为的?

但是,像抢票软件这样的爬虫,对着 12306 每秒钟恨不得撸几万次,铁总并不觉得很开心。这种就被定义为“恶意爬虫”。(注意,抢票的你觉得开心没用,被扫描的网站觉得不开心,它就是恶意的。)

爬虫究竟是合法行为还是违法行为的?

这张图里显示的,就是各行各业被爬“叨扰”的比例。(注意,这张图显示是全世界,不是全中国。)而每一个色块背后,都是一条真实而强大的利益链条。

排名第一的是出行出行行业中爬虫的占比最高(20.87%)。在出行的爬虫中,有89.02%的流量都是冲着 12306 去的。这不意外,全中国卖火车票的独此一家别无分号。

爬虫搞出这么多姿势,它究竟是不是违法呢?

爬虫究竟是合法行为还是违法行为的?

这个问题还真的不简单。小编打开中国网安第一大法《网络安全法》仔细看了半小时,在里面没有发现“爬取网络公开信息被认定为违法”的条款。于是我又继续搜索,发现了几条司法解释:未经授权爬取用户手机通讯录超过50条记录;未经授权抓取用户淘宝交易记录超过500条;未经授权读取用户运营商网站通话记录超过500条;未经授权读取用户公积金社保记录的超过50000条的。以上这些情况可以入刑。但是仔细看看,如果我只是用机器代替了人的手点击鼠标敲击键盘,接触的都是公开信息,并不触犯这些司法解释。(这只是我简单查询后的结果,不代表任何官方意见)但是,对企业来说,爬虫却着实伤害了自己。有句话说:“主救自救者。”他们得组织“民兵”自己保卫自己。

爬虫战争谁会赢?

爬虫究竟是合法行为还是违法行为的?

爬虫和被爬企业越来越势不两立。说白了,他们的对抗都是在阻挡对方的财路。所以下手都挺重。企业经典的对抗方式,大概有几种:图片验证码、滑块验证、封禁 IP、给访问者增加一些加解密运算,耗费爬虫的程序资源等等。这张图来自极验验证的滑块验证技术除了刚才这些小模块,企业还可以通过 WAF(Web 应用防火墙)来防护,WAF 的功能就是通过设置一些规则,拦截掉那些不符合规则的请求。但是,爬虫的请求,和真人的请求真的太像了。小编觉得,对这种战争一个形象的比喻就是抗癌。癌细胞的目的就是拼命躲过免疫细胞的识别,而免疫细胞的目标就是拼命分辨哪个是好细胞哪个是癌细胞。在小编看来,这场对抗爬虫的常规战眼看就要升级为“智能战”,而且战线会向云端转移。比如腾讯云的 WAF,听说最近就要通过人工智能的方法来识别爬虫。还有很多其他的云安全厂商,也开始主推反爬虫的技术。不过,就像人类目前难以消灭癌症一样,企业也难以完全消灭爬虫。但是我相信,在对抗中这条战线会达到一个精妙的平衡。这个战线每向前推进一步,都需要安全研究员付出艰辛的努力。


分享到:


相關文章: