什么是大数据?终于有人把大数据讲明白了

大数据只是一个空洞的商业术语,就跟所谓的商业智能一样空洞无物。当然,这并不是说大数据没有意义,只是对于不同的人有不同的含义。

A.

对于投资人和创业者而言,大数据是个热门的融资标签。就和前几年流行的 SoLoMo,这几年火爆的 P2P 一样,大数据是资本泡沫的催化剂。如今任何一家(移动)互联网公司都忙着把自己标榜为大数据公司,或者干脆说自己是一家数据公司。遗憾的是,大多数中国的互联网公司都是流量驱动的企业。与其说这些公司是大数据公司,不如说它们是数据采集公司。是的,每一家互联网公司都是数据公司,因为数据(Data)是比信息(Information)要狭隘得多的词汇。换句话说,任何一家 IT 行业的公司天然地都是数据公司。但是非 IT 公司同样可以是数据公司,例如房地产企业和汽车销售公司——毕竟他们优质低价地将顾客的信息转卖给任何感兴趣的个人或实体。遗憾的是,中国并没有几家 Pure-Play 的数据公司,因此中国不太可能出现 Palantir 这样伟大的企业。我不幸见过一两家国产独角兽企业的技术/数据负责人,他们似乎并不了解这家 CIA 投资的创业公司,但这并不妨碍他们把自己的公司定位为世界级的大数据公司。我可以臆测,国内这些独角兽企业的道德底线远远低于(为美帝情报机构服务的) Palantir,只是它们还没有足够的人才和技术来充分挖掘数据中的有效信息。

对于大多数互联网公司或者工程师而言,大数据实际上只有一个意思,就是把一堆乱七八糟的数据扔到 HDFS 上面然后进行计算。计算的工具有很多,最常见的是 Map-Reduce,但是技术一直在演进,现在还流行 Impala、Spark、Presto 什么的。对于这些搞大数据的工程师而言,这是一个非常好的事情,因为要把这么多异构的数据和系统跑起来,需要很多人写很多代码,还需要有人来做运维。这么一个部门总得需要几十台机器否则还不如单机计算能力强,工程师也得有十来人。然后可能还需要数据分析师,否则这部门跟摆设也没什么区别。如果系统做得不错数据量也有了,总得配个数据科学家搞点数据挖掘或者机器学习什么的吧。所以大数据这件事情可以解决很多就业问题,毕竟很多上了规模的互联网公司都想搞大数据。

但是对于消费者或者互联网所谓的“用户”来说,大数据却是另外一个意思。大数据的意思就是尽可能地搜集跟终端消费者相关的隐私,然后进行营销。从理论上说,大数据公司通过搜集用户行为,可以更好地了解消费者的需求,增强用户体验。但是在实践上,这些所谓的智能推荐还停留在很初级的阶段,因此会有人在淘宝上搜索棺材结果在微博上不停地看到跟丧葬相关的广告。对于微博这样的公司,还意味着它会倾向于通过直接或者间接地暴露你的隐私来获得商业利益。据说,评价一家国内公司的大数据能力是跟被查水表的频繁程度正相关的。就目前而言,大数据对于终端消费者更多的是“被实名”。举一个例子,如果你在 Android 手机上使用 Facebook 账号访问某个 App,那么对不起,你在这个手机上的所有行为都有可能被 Facebook 关联到你真实的身份上。在这种能力上,国内的三巨头排序大概是 T > A >> B。所以最后这家公司的 App 特别流氓甚至超越了数字公司,如果你想帮帮这家公司就多用用他家的地图或者订点外卖。

B.

关于大数据和隐私,最核心的问题在于标识(Identity),尤其是所谓的 PII (Personal Identifiable Information)。但是要对用户进行追踪并不一定需要 PII,任何一个强度足够高的随机数都可以用来追踪单个用户。在 Web 时代,由于 Cookie 的生命周期问题,对用户进行长期追踪并不是很容易。但是最近几年,越来越多的公司使用 Flash 来进行追踪,最终演进成一种叫做数字指纹的技术。要解释这些技术需要一些应用数学背景,知乎上应该可以找到相关的问答,我就不赘述了。我很想系统地讲述在使用桌面浏览器上如何保护自己的隐私,但是似乎离题太远了。但是我还是想提醒一句,在桌面浏览器上最有效的安全习惯就是禁用 Flash(当然,如果你出于安全装了数字公司的软件,那么你可以假装我说的都是废话——毕竟数字公司连你开机时间这种信息都不放过,更何况这家公司可是以所谓的“厚数据”而闻名的)。

身份到底有多重要呢?我可以说说我自己的一些非理性的习惯。大多数地铁一卡通都是不记名的,但是我以前会定期地破坏一卡通,从而避免在一卡通里积累过多的数据。但是由于我并不能很频繁地换卡,所以我这样的非理性行为是毫无用处的——你只需要读读我的卡就知道我住在哪里又在哪里上班,误差不会超过两公里。从技术上说,任何一张非接触卡都可以可能用于追踪我的身份,以及我所在的时空坐标。虽然我知道目前的技术并不能在超过一米的距离上读出我随身携带的卡片,但是我仍然把我身上所有的非接触卡放在一个金属的名片盒中。作为一个足够偏执的人,我更相信物理隔离。遗憾的是,这些非理性的习惯在移动时代都是徒劳的。

在移动时代,身份问题变成了最严重的问题,因为智能手机在很大程度上是私人设备。大多数人都随身携带这些设备,这就意味着设备的标识和个人几乎是一一对应的。在这个问题上,就连苹果公司都没能意识到其严重性,以至于在早期的苹果设备上有一个接近完美的唯一硬件标识(UDID)。这就意味着所有的 App 开发者都可以使用这个标识来追踪设备和交换数据。换句话说,只要你在一个 App 中使用了 Facebook 账号或者提交了电话号码,那么你在这个设备中的所有行为都有可能被关联到你的 PII。苹果直到两年以前才堵上这个漏洞,并通过所谓的 IDFA 来替代 UDID。我并不喜欢苹果公司,但是我在这里提这个案例并不是为了贬低苹果公司。事实上,苹果公司是所有的智能手机制造商中最尊重用户隐私的那一家,没有之一。原因很简单,苹果公司并不是一家互联网公司,它是通过向消费者出售手机来获利的。苹果公司的硬件利润非常高,它不需要通过 App Store 和广告来获利,因此 Tim Cook 才会有底气地讨论消费者的隐私问题。而 Google 则不同,它是一家广告公司,它甚至会通过分析用户的邮件来进行精准广告投放。我并不想把 Google 妖魔化成一个侵犯消费者隐私的寡头,但是 Google 的不作为让 Android 成为了地球上最伟大的监控平台。Android 上的确没有 UDID 这么高质量的标识,但是它允许开发者直接获取 IMEI——利用 IMEI 理论上可以通过运营商获取手机号码,并且进行实时的监控。此外 Android 还允许开发者获取 MAC 地址和 Android ID 这些标识,而前者可以用于基于 Wi-Fi 的地理位置定位。这些看起来很糟糕,但还不是最糟糕的,因为 Android 还允许开发者获取安装应用列表、正在运行应用列表。换句话说,Android 不仅允许开发者监控自己的 App 使用情况,还可以监控其他的 App 的使用情况,这可是字面上的情报工作。这些在技术层面上都是 Android 允许的,对于已 Root 设备或者能够利用漏洞提权的 App 而言,Android 提供的想象空间几乎是无限的。

有些读者评论扯 Google 的 IDFA 对应物,那我举个 Google 平台上的栗子吧:

近日,多个与TalkingData合作的厂商表示在Google Play发布的产品于2016年5月25日凌晨陆续被下架。且下架的说明邮件里称:“违反了开发者条款”并指出是TalkingData的SDK的问题所导致。

TalkingData回应SDK导致下架:GooglePlay审核调整

这家公司更是毫不掩饰地展示自己侵犯隐私的能力:

什么是大数据?终于有人把大数据讲明白了

TalkingData-行为地图

那么问题来了,大家觉得他们的数据是哪里来的呢,是苹果用户还是安卓用户呢?

为了避免引起恐慌,这家公司的客户主要是某些银行和游戏,市场覆盖率并不是特别高。BAT 任何一家拥有的隐私数据都能秒杀这家公司,所以大家请保持内心的平静,睡觉前多玩玩手机。

C.

想象有这么一家智能手机厂商,它以极低的价格出售 Android 智能手机,它还声称自己是一家互联网公司,并且标榜自己是一家大数据公司。那么,这样的公司为什么会销售无线路由器呢?其实我说的不是国内的公司,而是 Google。当然这并不是什么秘密,有一段时间所有的互联网公司都想为用户提供所谓的智能路由器。

理由很充分,Wi-Fi 技术是以兼容以太网为目的局域网组网方案,它从来没有考虑过隐私和所谓的大数据带来的问题。以太网提供了一个高强度的网卡标识(即所谓的 MAC),理论上能提供 48 位的地址空间,从实际来说也足够所有的网卡制造商唯一地标识每一张网卡。最初这个网卡标识的设计目的是为了区分不同的设备,将冲突降到最低,因此对于给定的网卡,这个标识应该是永久不变的。这个标识在有线网络时代从来都不是一个真正的问题,因为 MAC 仅用于局域网通讯,任何设备在互联网上只会暴露 IP。为了无缝地兼容以太网,Wi-Fi 设备继承了这个标识,并且在扫描无线接入点的时候广播这个标识。换句话说,你随身携带的智能手机有一个几乎独一无二的永久标识,并且倾向于广播这个标识。因此对于很多大数据公司而言,这比你在脸上写着自己的姓名还要好得多。所以,苹果在最近的一次升级中改变了策略,所有的苹果手机在扫描热点的时候都会使用一个临时的 MAC。苹果这样做对于保护消费者的隐私很有帮助,但是离解决这个问题还很远。当苹果设备连接一个热点(例如咖啡厅里的免费热点)的时候,它依然会使用一个固定的网卡标识。

一个平庸的无线网卡标识为什么会跟大数据扯上关系呢?出乎标准设计者的意料,Wi-Fi 已经成为了一种主流的互联网接入方式,并且成了一种重要的辅助定位技术。不同于智能设备,大多数无线热点都是固定不动的,并且覆盖了都市的大多数区域。利用无线热点的 SSID 和 MAC,加上从智能手机采集的 GPS 信息,地理信息服务商可以利用这些信息完成误差在百米以内的定位。在 GPS 不能覆盖的室内,Wi-Fi 定位几乎是首选的解决方案。从这个角度来看,Wi-Fi 定位是一个方便消费者的福音。但是 Wi-Fi 的技术设计决定了它不是一个匿名的定位技术,在定位的过程中 Wi-Fi 热点同样可以获得智能手机的无线标识。因此从另一个角度来看,Wi-Fi 热点的运营商可以获得智能手机的一个时空坐标。这样第三方就有可能追踪智能手机在城市中的轨迹,其效果甚至可以超越运营商的监控手段。但是这并不是最糟糕的,出于统计的需求,很多 Android App 还会采集手机的 Wi-Fi 网卡标识。这些数据有可能将用户的行为和时空轨迹联系在一起,从而造成严重的隐私风险。正如 Facebook 一样,智能手机的普及是 CIA/NSA 做梦也想不到的好事。现代人进入了一个自愿监控自己的伟大时代,A Brave New World

Snowden 在讨论 XKeyscore 的时候,其实提到过 NSA 非常喜欢这一点:

EDITED TO ADD (9/18): Marcy Wheeler comments on the second story, noting that the NSA uses this capability to map MAC addresses.

Two New Snowden Stories

当然,得益于 Palantir 的支持,NSA 的 SIGINT 能力已经不再是 Snowden 能够想象的了。

D.

让我用一个思维实验来展示一个 Android 用户在这个大数据生态链中的位置吧(当然任何一个读者都可以亲自尝试,用 iPhone 手机效果会大打折扣)。某个周末,你来到了某个商场,在一个咖啡厅里面点了一杯咖啡,然后开始用智能手机上网。咖啡厅提供了免费 Wi-Fi 网络,由于法规要求需要你提供手机号进行实名认证,你毫不犹豫地输入了手机号。于是免费 Wi-Fi 的服务商知道了你的信息:你的手机号和智能手机的 MAC。然后你开始刷微博,由于微博的 API 通常不使用加密信道,于是 Wi-Fi 热点通过偷窥 HTTP 请求获得了你的微博账号。通过你的微博,Wi-Fi 服务商有可能了解你的性别年龄工作等信息。此外通过该热点请求的很多元信息都会被服务商保留,虽然它们未必知道怎么挖掘这些元信息,但是它们会尽量将你的身份和这些信息关联在一起并长期保留。喝完咖啡,你开始逛街,这时候你的手机会开始扫描热点,商场可以通过 Wi-Fi 探针追踪你的位置。如果商场使用的 Wi-Fi 服务商和咖啡厅是同一家,或者与服务商建立了数据交换的协议,那么商场有可能实名地追踪你的轨迹。商场的 Wi-Fi 服务商同样会非常有耐心地存储你的信息,以备不时之需。在逛街的过程中,你打开了一些购物 App 用于比价,顺便拍了一些照片发给好友。其中一些 App 会把你的 MAC 地址和通过 Wi-Fi 完成的定位信息也发送出去。如果存在一个完备的数据交易网络,任何对你感兴趣的人都有可能获得以下信息:你的电话号码、手机的 MAC、微博账号,何时出现在这个商场,在商场停留了多久,其间使用了哪些 App,在咖啡厅访问了哪些网站。而这一切都离不开 Wi-Fi 和 MAC。如果更极端一点,你使用了专车软件来这个商场,并且你经常来这家商场,那么你很可能已经在商场的常客数据库里了,你的家庭住址也不再是个秘密。

这个思维实验当然是虚构的,因为利益冲突无关公司之间很难达成信任,它们很少进行实质性的数据交换。但是寡头们可以通过收购和战略投资将第三方变成第二方,甚至亲自介入 Wi-Fi 热点的服务。利用这些数据和技术,大数据公司事实上可以将营销做到无孔不入。例如,利用上述信息,商场中的餐厅可以针对最近到过商场的用户推送折扣信息,并且根据情况选择短信或微博作为送达渠道。当然现实社会中的餐厅并不会走得这么远,它们更倾向于使用微信服务号一类的技术来建立会员机制。各种 P2P 金融公司、讨债公司对数据更加饥渴,它们会愿意为你的信息(尤其是位置信息)付大价钱。所以从某种意义上说,数据寡头更可能看重你的隐私的长期价值。

正因为如此,中国的三大寡头都参与了商业 Wi-Fi 的布局。除了微信 Wi-Fi,相信大多数人都没有注意过相关的报道。事实上新闻报道披露的仅仅是冰山一角。

本报讯公共交通领域最大的WIFI建设运营商16WIFI日前宣布,已完成由百度领投、荣之联等跟投的A轮融资,融资金额超过1亿元。这也标志着在商业WIFI领域,BAT(即百度、阿里、腾讯)再次到齐。

百度战略投资杀入商业WIFI_新浪新闻

E.

还是来点轻松的吧,看看 Google 是怎么利用大数据投放的:

什么是大数据?终于有人把大数据讲明白了

莫非喜欢 Fallout 的死宅更容易接受某教?我并不是想讽刺 Google 的算法或者宗教布道者的 SEM 策略,只是觉得这对于下面讨论的计算神学而言,是一个绝佳的隐喻。

计算神学是一种对计算的绝对信仰,其基本教义派别甚至认为整个宇宙都是一台量子计算机,可以用 Universal Wave Function 来完备地描述。在大数据流行起来之前,计算神学属于边缘学科(或者说伪科学),几乎无人问津。但是在大数据时代,计算能力和数据量都不再是问题,计算神学一下就成了主流的意识形态。经过大数据修正过的计算神学摒弃了科学的实证主义传统,试图将一切问题简化成数据处理。吊诡的是,很多计算神学的信徒获得了数据科学家的称号,这无异于将占星师当作天文学家,或者将炼金术士称为化学家(sadly, it was true before we had hard science)。

这些年我还真见过不少计算神学的布道者,他们开始张口就是大数据和机器学习,后来开始扯深度学习和人工智能。然而有一次我问某个信徒,他用的模型对性别的预测精度有多高,他居然诚实地回答接近 60%。如果需要考虑 Facebook 那么多种非常规的性别,这 60% 还是相当不错的,比扔硬币强不少呢。我之前的公司不幸跟某寡头有非平凡的合作,有幸跟对方的祭司阶级聊了几句,我发现这帮人对数据的理解连频率主义者都不如,连什么是信号什么是噪声都分不清楚。当然这圈子里面也有聪明人,并不是真诚地相信这些鬼话——据说某公司做了两三位数样本的问卷攒了份报告就卖了很多钱。

大数据是个系统工程,从采集数据到计算到应用到决策有很长的流水线。在这个流水线上的每一个环节,都存在严重的人才空缺。当然,更稀缺的是搞清楚整个流水线的综合性人才。计算神学的信徒们根本没有意识到这一点,或者他们也不关心。幸运的是,官僚们欣赏这些人的盲目乐观。所以这是个让人宽慰的好消息,这些个大数据公司里面还是以蠢货和官僚为主。

短期来说上述判断应该是靠谱的,至于更长期的我就不杞人忧天了。毕竟某位大师说过,in the long run, we are all dead.

所以,天朝把 Google 挡在外面是多么的英明神武啊。如果国内的公司都有了 AlphaGo 这样的暴力计算系统来搞大数据,我也该洗洗睡了改行做水管工算了。总体来说我还是一个悲观的存在主义者,要不了多久所有的 CCTV 都会成为面部识别算法的数据源。我感觉,计算神学训练出来的 AI 都是些反社会的自闭症患者,而不再是充满浪漫主义气息的面盲症患者。

Z.

数据和分析能解决很多实际的问题,而且并不总是需要以隐私作为代价。但是技术几乎总是双刃剑,风险与机遇并存。说个相对远一点的,如果新的基因测序技术能将全基因组测学成本降到足够低,利用大数据技术将有可能定量地测量很多遗传疾病的基因风险,这可是造福人类的善举。但是,这也意味着保险公司可以更加精确地估计投保人的健康状况,换句话说可以利用这些信息来进行歧视(美国已经有相关的立法,禁止保险公司利用基因相关的隐私)。再说一个相对近一点的,某公司垄断了天朝的搜索市场,几乎是躺着在挣钱,但是为了追求利润什么骗子广告都愿意打,还会往用户的电脑上装几乎无法卸载的全家桶。几乎所有的人都在说大数据是一座金矿,但是很少有人意识到提炼金子是个技术活,而且现在很多矿山的黄金生产成本已经高于期货价格了。利用数据变现还是颇有技术含量的,用常理就可以推断守着金矿不能赚钱是个什么样的感觉。至少在天朝,真正的问题在于有很多没有技术的公司守着大量的数据干着急——它们其实也很想卖点假药什么的,但是它们能卖的也仅仅是用户的隐私。

什么是大数据?终于有人把大数据讲明白了

据说,某些输入法会把你所有的输入都送回服务器,这样你也为大数据事业做出了贡献。现在大家应该很清楚,这些大数据都是从哪里来的了吧。

【1】想了解大数据知识,可以关注我下方评论转发后,私信“资料”。

【2】部分资料有时间限制,抓紧时间吧!


分享到:


相關文章: