什麼是大數據?終於有人把大數據講明白了

大數據只是一個空洞的商業術語,就跟所謂的商業智能一樣空洞無物。當然,這並不是說大數據沒有意義,只是對於不同的人有不同的含義。

A.

對於投資人和創業者而言,大數據是個熱門的融資標籤。就和前幾年流行的 SoLoMo,這幾年火爆的 P2P 一樣,大數據是資本泡沫的催化劑。如今任何一家(移動)互聯網公司都忙著把自己標榜為大數據公司,或者乾脆說自己是一家數據公司。遺憾的是,大多數中國的互聯網公司都是流量驅動的企業。與其說這些公司是大數據公司,不如說它們是數據採集公司。是的,每一家互聯網公司都是數據公司,因為數據(Data)是比信息(Information)要狹隘得多的詞彙。換句話說,任何一家 IT 行業的公司天然地都是數據公司。但是非 IT 公司同樣可以是數據公司,例如房地產企業和汽車銷售公司——畢竟他們優質低價地將顧客的信息轉賣給任何感興趣的個人或實體。遺憾的是,中國並沒有幾家 Pure-Play 的數據公司,因此中國不太可能出現 Palantir 這樣偉大的企業。我不幸見過一兩家國產獨角獸企業的技術/數據負責人,他們似乎並不瞭解這家 CIA 投資的創業公司,但這並不妨礙他們把自己的公司定位為世界級的大數據公司。我可以臆測,國內這些獨角獸企業的道德底線遠遠低於(為美帝情報機構服務的) Palantir,只是它們還沒有足夠的人才和技術來充分挖掘數據中的有效信息。

對於大多數互聯網公司或者工程師而言,大數據實際上只有一個意思,就是把一堆亂七八糟的數據扔到 HDFS 上面然後進行計算。計算的工具有很多,最常見的是 Map-Reduce,但是技術一直在演進,現在還流行 Impala、Spark、Presto 什麼的。對於這些搞大數據的工程師而言,這是一個非常好的事情,因為要把這麼多異構的數據和系統跑起來,需要很多人寫很多代碼,還需要有人來做運維。這麼一個部門總得需要幾十臺機器否則還不如單機計算能力強,工程師也得有十來人。然後可能還需要數據分析師,否則這部門跟擺設也沒什麼區別。如果系統做得不錯數據量也有了,總得配個數據科學家搞點數據挖掘或者機器學習什麼的吧。所以大數據這件事情可以解決很多就業問題,畢竟很多上了規模的互聯網公司都想搞大數據。

但是對於消費者或者互聯網所謂的“用戶”來說,大數據卻是另外一個意思。大數據的意思就是儘可能地蒐集跟終端消費者相關的隱私,然後進行營銷。從理論上說,大數據公司通過蒐集用戶行為,可以更好地瞭解消費者的需求,增強用戶體驗。但是在實踐上,這些所謂的智能推薦還停留在很初級的階段,因此會有人在淘寶上搜索棺材結果在微博上不停地看到跟喪葬相關的廣告。對於微博這樣的公司,還意味著它會傾向於通過直接或者間接地暴露你的隱私來獲得商業利益。據說,評價一家國內公司的大數據能力是跟被查水錶的頻繁程度正相關的。就目前而言,大數據對於終端消費者更多的是“被實名”。舉一個例子,如果你在 Android 手機上使用 Facebook 賬號訪問某個 App,那麼對不起,你在這個手機上的所有行為都有可能被 Facebook 關聯到你真實的身份上。在這種能力上,國內的三巨頭排序大概是 T > A >> B。所以最後這家公司的 App 特別流氓甚至超越了數字公司,如果你想幫幫這家公司就多用用他家的地圖或者訂點外賣。

B.

關於大數據和隱私,最核心的問題在於標識(Identity),尤其是所謂的 PII (Personal Identifiable Information)。但是要對用戶進行追蹤並不一定需要 PII,任何一個強度足夠高的隨機數都可以用來追蹤單個用戶。在 Web 時代,由於 Cookie 的生命週期問題,對用戶進行長期追蹤並不是很容易。但是最近幾年,越來越多的公司使用 Flash 來進行追蹤,最終演進成一種叫做數字指紋的技術。要解釋這些技術需要一些應用數學背景,知乎上應該可以找到相關的問答,我就不贅述了。我很想系統地講述在使用桌面瀏覽器上如何保護自己的隱私,但是似乎離題太遠了。但是我還是想提醒一句,在桌面瀏覽器上最有效的安全習慣就是禁用 Flash(當然,如果你出於安全裝了數字公司的軟件,那麼你可以假裝我說的都是廢話——畢竟數字公司連你開機時間這種信息都不放過,更何況這家公司可是以所謂的“厚數據”而聞名的)。

身份到底有多重要呢?我可以說說我自己的一些非理性的習慣。大多數地鐵一卡通都是不記名的,但是我以前會定期地破壞一卡通,從而避免在一卡通裡積累過多的數據。但是由於我並不能很頻繁地換卡,所以我這樣的非理性行為是毫無用處的——你只需要讀讀我的卡就知道我住在哪裡又在哪裡上班,誤差不會超過兩公里。從技術上說,任何一張非接觸卡都可以可能用於追蹤我的身份,以及我所在的時空座標。雖然我知道目前的技術並不能在超過一米的距離上讀出我隨身攜帶的卡片,但是我仍然把我身上所有的非接觸卡放在一個金屬的名片盒中。作為一個足夠偏執的人,我更相信物理隔離。遺憾的是,這些非理性的習慣在移動時代都是徒勞的。

在移動時代,身份問題變成了最嚴重的問題,因為智能手機在很大程度上是私人設備。大多數人都隨身攜帶這些設備,這就意味著設備的標識和個人幾乎是一一對應的。在這個問題上,就連蘋果公司都沒能意識到其嚴重性,以至於在早期的蘋果設備上有一個接近完美的唯一硬件標識(UDID)。這就意味著所有的 App 開發者都可以使用這個標識來追蹤設備和交換數據。換句話說,只要你在一個 App 中使用了 Facebook 賬號或者提交了電話號碼,那麼你在這個設備中的所有行為都有可能被關聯到你的 PII。蘋果直到兩年以前才堵上這個漏洞,並通過所謂的 IDFA 來替代 UDID。我並不喜歡蘋果公司,但是我在這裡提這個案例並不是為了貶低蘋果公司。事實上,蘋果公司是所有的智能手機制造商中最尊重用戶隱私的那一家,沒有之一。原因很簡單,蘋果公司並不是一家互聯網公司,它是通過向消費者出售手機來獲利的。蘋果公司的硬件利潤非常高,它不需要通過 App Store 和廣告來獲利,因此 Tim Cook 才會有底氣地討論消費者的隱私問題。而 Google 則不同,它是一家廣告公司,它甚至會通過分析用戶的郵件來進行精準廣告投放。我並不想把 Google 妖魔化成一個侵犯消費者隱私的寡頭,但是 Google 的不作為讓 Android 成為了地球上最偉大的監控平臺。Android 上的確沒有 UDID 這麼高質量的標識,但是它允許開發者直接獲取 IMEI——利用 IMEI 理論上可以通過運營商獲取手機號碼,並且進行實時的監控。此外 Android 還允許開發者獲取 MAC 地址和 Android ID 這些標識,而前者可以用於基於 Wi-Fi 的地理位置定位。這些看起來很糟糕,但還不是最糟糕的,因為 Android 還允許開發者獲取安裝應用列表、正在運行應用列表。換句話說,Android 不僅允許開發者監控自己的 App 使用情況,還可以監控其他的 App 的使用情況,這可是字面上的情報工作。這些在技術層面上都是 Android 允許的,對於已 Root 設備或者能夠利用漏洞提權的 App 而言,Android 提供的想象空間幾乎是無限的。

有些讀者評論扯 Google 的 IDFA 對應物,那我舉個 Google 平臺上的栗子吧:

近日,多個與TalkingData合作的廠商表示在Google Play發佈的產品於2016年5月25日凌晨陸續被下架。且下架的說明郵件裡稱:“違反了開發者條款”並指出是TalkingData的SDK的問題所導致。

TalkingData回應SDK導致下架:GooglePlay審核調整

這家公司更是毫不掩飾地展示自己侵犯隱私的能力:

什麼是大數據?終於有人把大數據講明白了

TalkingData-行為地圖

那麼問題來了,大家覺得他們的數據是哪裡來的呢,是蘋果用戶還是安卓用戶呢?

為了避免引起恐慌,這家公司的客戶主要是某些銀行和遊戲,市場覆蓋率並不是特別高。BAT 任何一家擁有的隱私數據都能秒殺這家公司,所以大家請保持內心的平靜,睡覺前多玩玩手機。

C.

想象有這麼一家智能手機廠商,它以極低的價格出售 Android 智能手機,它還聲稱自己是一家互聯網公司,並且標榜自己是一家大數據公司。那麼,這樣的公司為什麼會銷售無線路由器呢?其實我說的不是國內的公司,而是 Google。當然這並不是什麼秘密,有一段時間所有的互聯網公司都想為用戶提供所謂的智能路由器。

理由很充分,Wi-Fi 技術是以兼容以太網為目的局域網組網方案,它從來沒有考慮過隱私和所謂的大數據帶來的問題。以太網提供了一個高強度的網卡標識(即所謂的 MAC),理論上能提供 48 位的地址空間,從實際來說也足夠所有的網卡製造商唯一地標識每一張網卡。最初這個網卡標識的設計目的是為了區分不同的設備,將衝突降到最低,因此對於給定的網卡,這個標識應該是永久不變的。這個標識在有線網絡時代從來都不是一個真正的問題,因為 MAC 僅用於局域網通訊,任何設備在互聯網上只會暴露 IP。為了無縫地兼容以太網,Wi-Fi 設備繼承了這個標識,並且在掃描無線接入點的時候廣播這個標識。換句話說,你隨身攜帶的智能手機有一個幾乎獨一無二的永久標識,並且傾向於廣播這個標識。因此對於很多大數據公司而言,這比你在臉上寫著自己的姓名還要好得多。所以,蘋果在最近的一次升級中改變了策略,所有的蘋果手機在掃描熱點的時候都會使用一個臨時的 MAC。蘋果這樣做對於保護消費者的隱私很有幫助,但是離解決這個問題還很遠。當蘋果設備連接一個熱點(例如咖啡廳裡的免費熱點)的時候,它依然會使用一個固定的網卡標識。

一個平庸的無線網卡標識為什麼會跟大數據扯上關係呢?出乎標準設計者的意料,Wi-Fi 已經成為了一種主流的互聯網接入方式,並且成了一種重要的輔助定位技術。不同於智能設備,大多數無線熱點都是固定不動的,並且覆蓋了都市的大多數區域。利用無線熱點的 SSID 和 MAC,加上從智能手機採集的 GPS 信息,地理信息服務商可以利用這些信息完成誤差在百米以內的定位。在 GPS 不能覆蓋的室內,Wi-Fi 定位幾乎是首選的解決方案。從這個角度來看,Wi-Fi 定位是一個方便消費者的福音。但是 Wi-Fi 的技術設計決定了它不是一個匿名的定位技術,在定位的過程中 Wi-Fi 熱點同樣可以獲得智能手機的無線標識。因此從另一個角度來看,Wi-Fi 熱點的運營商可以獲得智能手機的一個時空座標。這樣第三方就有可能追蹤智能手機在城市中的軌跡,其效果甚至可以超越運營商的監控手段。但是這並不是最糟糕的,出於統計的需求,很多 Android App 還會採集手機的 Wi-Fi 網卡標識。這些數據有可能將用戶的行為和時空軌跡聯繫在一起,從而造成嚴重的隱私風險。正如 Facebook 一樣,智能手機的普及是 CIA/NSA 做夢也想不到的好事。現代人進入了一個自願監控自己的偉大時代,A Brave New World

Snowden 在討論 XKeyscore 的時候,其實提到過 NSA 非常喜歡這一點:

EDITED TO ADD (9/18): Marcy Wheeler comments on the second story, noting that the NSA uses this capability to map MAC addresses.

Two New Snowden Stories

當然,得益於 Palantir 的支持,NSA 的 SIGINT 能力已經不再是 Snowden 能夠想象的了。

D.

讓我用一個思維實驗來展示一個 Android 用戶在這個大數據生態鏈中的位置吧(當然任何一個讀者都可以親自嘗試,用 iPhone 手機效果會大打折扣)。某個週末,你來到了某個商場,在一個咖啡廳裡面點了一杯咖啡,然後開始用智能手機上網。咖啡廳提供了免費 Wi-Fi 網絡,由於法規要求需要你提供手機號進行實名認證,你毫不猶豫地輸入了手機號。於是免費 Wi-Fi 的服務商知道了你的信息:你的手機號和智能手機的 MAC。然後你開始刷微博,由於微博的 API 通常不使用加密信道,於是 Wi-Fi 熱點通過偷窺 HTTP 請求獲得了你的微博賬號。通過你的微博,Wi-Fi 服務商有可能瞭解你的性別年齡工作等信息。此外通過該熱點請求的很多元信息都會被服務商保留,雖然它們未必知道怎麼挖掘這些元信息,但是它們會盡量將你的身份和這些信息關聯在一起並長期保留。喝完咖啡,你開始逛街,這時候你的手機會開始掃描熱點,商場可以通過 Wi-Fi 探針追蹤你的位置。如果商場使用的 Wi-Fi 服務商和咖啡廳是同一家,或者與服務商建立了數據交換的協議,那麼商場有可能實名地追蹤你的軌跡。商場的 Wi-Fi 服務商同樣會非常有耐心地存儲你的信息,以備不時之需。在逛街的過程中,你打開了一些購物 App 用於比價,順便拍了一些照片發給好友。其中一些 App 會把你的 MAC 地址和通過 Wi-Fi 完成的定位信息也發送出去。如果存在一個完備的數據交易網絡,任何對你感興趣的人都有可能獲得以下信息:你的電話號碼、手機的 MAC、微博賬號,何時出現在這個商場,在商場停留了多久,其間使用了哪些 App,在咖啡廳訪問了哪些網站。而這一切都離不開 Wi-Fi 和 MAC。如果更極端一點,你使用了專車軟件來這個商場,並且你經常來這家商場,那麼你很可能已經在商場的常客數據庫裡了,你的家庭住址也不再是個秘密。

這個思維實驗當然是虛構的,因為利益衝突無關公司之間很難達成信任,它們很少進行實質性的數據交換。但是寡頭們可以通過收購和戰略投資將第三方變成第二方,甚至親自介入 Wi-Fi 熱點的服務。利用這些數據和技術,大數據公司事實上可以將營銷做到無孔不入。例如,利用上述信息,商場中的餐廳可以針對最近到過商場的用戶推送折扣信息,並且根據情況選擇短信或微博作為送達渠道。當然現實社會中的餐廳並不會走得這麼遠,它們更傾向於使用微信服務號一類的技術來建立會員機制。各種 P2P 金融公司、討債公司對數據更加飢渴,它們會願意為你的信息(尤其是位置信息)付大價錢。所以從某種意義上說,數據寡頭更可能看重你的隱私的長期價值。

正因為如此,中國的三大寡頭都參與了商業 Wi-Fi 的佈局。除了微信 Wi-Fi,相信大多數人都沒有注意過相關的報道。事實上新聞報道披露的僅僅是冰山一角。

本報訊公共交通領域最大的WIFI建設運營商16WIFI日前宣佈,已完成由百度領投、榮之聯等跟投的A輪融資,融資金額超過1億元。這也標誌著在商業WIFI領域,BAT(即百度、阿里、騰訊)再次到齊。

百度戰略投資殺入商業WIFI_新浪新聞

E.

還是來點輕鬆的吧,看看 Google 是怎麼利用大數據投放的:

什麼是大數據?終於有人把大數據講明白了

莫非喜歡 Fallout 的死宅更容易接受某教?我並不是想諷刺 Google 的算法或者宗教佈道者的 SEM 策略,只是覺得這對於下面討論的計算神學而言,是一個絕佳的隱喻。

計算神學是一種對計算的絕對信仰,其基本教義派別甚至認為整個宇宙都是一臺量子計算機,可以用 Universal Wave Function 來完備地描述。在大數據流行起來之前,計算神學屬於邊緣學科(或者說偽科學),幾乎無人問津。但是在大數據時代,計算能力和數據量都不再是問題,計算神學一下就成了主流的意識形態。經過大數據修正過的計算神學摒棄了科學的實證主義傳統,試圖將一切問題簡化成數據處理。弔詭的是,很多計算神學的信徒獲得了數據科學家的稱號,這無異於將佔星師當作天文學家,或者將鍊金術士稱為化學家(sadly, it was true before we had hard science)。

這些年我還真見過不少計算神學的佈道者,他們開始張口就是大數據和機器學習,後來開始扯深度學習和人工智能。然而有一次我問某個信徒,他用的模型對性別的預測精度有多高,他居然誠實地回答接近 60%。如果需要考慮 Facebook 那麼多種非常規的性別,這 60% 還是相當不錯的,比扔硬幣強不少呢。我之前的公司不幸跟某寡頭有非平凡的合作,有幸跟對方的祭司階級聊了幾句,我發現這幫人對數據的理解連頻率主義者都不如,連什麼是信號什麼是噪聲都分不清楚。當然這圈子裡面也有聰明人,並不是真誠地相信這些鬼話——據說某公司做了兩三位數樣本的問卷攢了份報告就賣了很多錢。

大數據是個系統工程,從採集數據到計算到應用到決策有很長的流水線。在這個流水線上的每一個環節,都存在嚴重的人才空缺。當然,更稀缺的是搞清楚整個流水線的綜合性人才。計算神學的信徒們根本沒有意識到這一點,或者他們也不關心。幸運的是,官僚們欣賞這些人的盲目樂觀。所以這是個讓人寬慰的好消息,這些個大數據公司裡面還是以蠢貨和官僚為主。

短期來說上述判斷應該是靠譜的,至於更長期的我就不杞人憂天了。畢竟某位大師說過,in the long run, we are all dead.

所以,天朝把 Google 擋在外面是多麼的英明神武啊。如果國內的公司都有了 AlphaGo 這樣的暴力計算系統來搞大數據,我也該洗洗睡了改行做水管工算了。總體來說我還是一個悲觀的存在主義者,要不了多久所有的 CCTV 都會成為面部識別算法的數據源。我感覺,計算神學訓練出來的 AI 都是些反社會的自閉症患者,而不再是充滿浪漫主義氣息的面盲症患者。

Z.

數據和分析能解決很多實際的問題,而且並不總是需要以隱私作為代價。但是技術幾乎總是雙刃劍,風險與機遇並存。說個相對遠一點的,如果新的基因測序技術能將全基因組測學成本降到足夠低,利用大數據技術將有可能定量地測量很多遺傳疾病的基因風險,這可是造福人類的善舉。但是,這也意味著保險公司可以更加精確地估計投保人的健康狀況,換句話說可以利用這些信息來進行歧視(美國已經有相關的立法,禁止保險公司利用基因相關的隱私)。再說一個相對近一點的,某公司壟斷了天朝的搜索市場,幾乎是躺著在掙錢,但是為了追求利潤什麼騙子廣告都願意打,還會往用戶的電腦上裝幾乎無法卸載的全家桶。幾乎所有的人都在說大數據是一座金礦,但是很少有人意識到提煉金子是個技術活,而且現在很多礦山的黃金生產成本已經高於期貨價格了。利用數據變現還是頗有技術含量的,用常理就可以推斷守著金礦不能賺錢是個什麼樣的感覺。至少在天朝,真正的問題在於有很多沒有技術的公司守著大量的數據乾著急——它們其實也很想賣點假藥什麼的,但是它們能賣的也僅僅是用戶的隱私。

什麼是大數據?終於有人把大數據講明白了

據說,某些輸入法會把你所有的輸入都送回服務器,這樣你也為大數據事業做出了貢獻。現在大家應該很清楚,這些大數據都是從哪裡來的了吧。

【1】想了解大數據知識,可以關注我下方評論轉發後,私信“資料”。

【2】部分資料有時間限制,抓緊時間吧!


分享到:


相關文章: