大數據給社會學研究帶來了什麼挑戰？

2020-03-21 11:41:08 微笑數據工程師

今天跟大家分享我的研究成果，我對大數據的觀察，不是掃盲。為了讓大家聽起來儘量沒有障礙，也加入了一些知識性的東西，因此，也是和各位交流。我想和大家討論三個問題：

第一，什麼是大數據？人們說的很多，錯誤的概念也非常多，我想澄清大數據是什麼？

第二，大數據和社會學研究到底有沒有關係？對這個問題，人們也有比較多的想法，同樣也有很多誤解，我要說說我的觀點。

第三，重點談一談，大數據對社會學研究的重點帶來什麼挑戰？大數據帶來的挑戰特別多，對社會學研究而言，到底有什麼樣的挑戰呢？

01. 什麼是大數據？

首先討論大數據到底是什麼？

大家聽的很多，瞭解的卻不是特別系統和具體。對社會學家而言，最熟悉的是社會活動。我稱之為人類活動的造痕。人類的任何活動都會留下痕跡。考古學研究在各地挖墓，挖各種各樣的東西，那些東西都是人類社會生活留下的痕跡，我們拿它作為證據，探討當時的社會生活。歷史中，人類社會生活留下的痕跡絕大多數都消失了，挖出來的墓，在整個人類墓地的億分位數都不到。因此，如果你說你掌握了過去人類社會的多少痕跡，我覺得千萬不能大膽講，是因為你真的不知道你到底掌握了多少。

我舉一個例子，譬如周原。我有一個博士生，我讓他回答一個簡單卻不不能簡單回答問題：中國的村莊為什麼三千年不散，如今卻突然就散了？在過去三千年裡，村莊始終是人類社會生活、人類聚集生活的一個狀態。我希望他藉助考古數據來做。北京大學考古學文博學院一直在探索陝西省的周原遺址。周原，過去三千年來一直有很多村莊，如今依然還是村莊狀態，但很快就會消失。三千年來，村莊生活留下了痕跡。能夠保留下來的痕跡，通常被稱之為證據。考古學、歷史學都用證據，社會學也用證據。社會科學其實都用證據。這些證據，通常也被稱為數據。不僅考古發現是人類活動的數據，歷史檔案也是人類活動的數據，譬如人口普查。不少人以為是美國人發明創造了人口普查，其實不是。中國在兩千多年前“廢井田、開阡陌”開始登記人口了。在兩千多年的行政歷史裡，戶口登記是一項重要的、涉及眾多公共事務的制度。

數據既然很早以前就有了，怎麼就冒出來大數據了呢？

一個簡單的回答是，實時地網絡化彙集、網絡化存儲和網絡化運用人類行為的痕跡，這才構成了大數據。

什麼叫大？麥肯錫從行業和業務和價值鏈的角度給了一個定義，說大數據是生產力的來源。如今，各行各業都在講“互聯網+”，“互聯網+”背後有一個非常重要的概念大家可能容易忽略，叫“數據驅動”。在社會學研究中，過去，我們很熟悉“理論驅動”；現在，數據驅動已經變成了非常重要的概念了。

麥肯錫定義的關鍵點叫消費者盈餘浪潮。過去，我們從石油裡找財富，後來從機器裡找財富，再後來從其它東西里找財富，現在可以從數據裡來找財富了。

其實，業界流傳的故事說，“大數據”概念是從IBM來的。從學術研究的立場出發，可以對大數據概念的出處存疑。不過，IBM的確用4個維度給大數據概念下了一個明確的定義：數量（volume）、形態（variety）、價值（value）、速度（velocity）。我認為，這是從數據出發的定義。

學術研究通常要按照學科規訓理解，我也按自己的方式來理解，我給大數據概念一個定義：痕跡數據彙集、存儲和運用的並行化、在線化、生活化和社會化。前面我之所以交代痕跡數據，希望說明的是，數據從來不缺。大數據是把過去數據的彙集、保存、利用方式做了一個很大的改變。不能說顛覆，現在顛覆為時太早，但它的改變確實非常重大。

彙集、存儲和運用的並行化是一個計算機和網絡科學的概念。什麼叫並行？其實很簡單，北京四環上的四條車道同時跑車就叫並行，如果只有一條車道跑，就不叫並行，叫串行。並行，指同時運行2個或多個線程。在計算機學科裡叫線程，在交通學科裡叫車道。

在線化也是一個計算機和網絡科學的概念，指始終在網絡上，數據的彙集、存儲和運用都是在線狀態。社會學的人都知道組織結構的科層制特徵。可是網絡裡的組織結構則不同，總體上看起來是科層制的，實際運行卻是網絡狀的，且不同的網絡結構混雜在一起。在線化意味著數據的彙集、存儲和運用，都在混亂結構的網絡上。

生活化則是一個社會學的科學概念，是說數據的彙集、存儲和運用已經滲透到了社會生活的方方面面，無處不在、無時不在。不僅生產活動在彙集、存儲和運用數據，如企業產品生產、商店產品銷售；生活活動也在彙集、存儲和運用數據，如大家日常生活對計算機、手機、網絡、家用電器的使用等。

社會化也是一個社會學的科學概念，指社會的大多數成員都參與了數據的彙集、存儲和運用。系統和科學地蒐集數據，是社會學的專長之一。過去，都是由機構去搜集、科學家去搜集。如今，每個人都是數據提供者、存儲者，同時也是數據的運用者。譬如導航，你在運用道路數據的同時，也在提供和存儲道路數據。

不過，理解痕跡數據彙集、存儲和運用並行化、在線化、生活化和社會化的前提是理解IBM概念的4V。下面，我先沿著IBM的4V概念做一個簡單的說明，讓各位對大數據在外觀上有一個感知。

首先是量。大數據指其超出了任何個人在可接受的時間和範圍內彙集、存儲和運用數據的能力。我給大家一個基本概念，2012年，單一數據集已經從兆級（MB），躍升到TB級，從MB到TB，中間還有GB。如果談大數據，至少是PB級數據。任何個人計算機、小型服務器、大型服務器，沒有單機可以處理PB級數據。為彙集、存儲和運用數據，並行化和在線化是其目前的解決方案。

在進一步討論前，普及一下信息計量單位。字節（bytes）是基本計量單位，相當於貨幣裡的一分錢，每滿1024個單位，向上提升一級，上一級為KB，之後有MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB等，簡單地說，以2的10次方晉級。

從直立行走到2013年，整個人類積累的可利用數據量大約為5EB，可2013年生產的數據量卻達到了800個EB。據統計，全球90%的數據是在過去兩年生產的，其中社交網絡、傳感器、科研、金融都在產生越來越多的數據，幾乎是每兩年數據量翻一番。

其次是形態。傳統的調查數據通常是結構化數據。結構化數據也是一個計算科學的術語。如果熟悉SPSS，就比較容易理解，通常可以形式化為一個二維表，第一行是變量（又叫字段），從第二行開始到結束，就是每一個變量的案例值，形成了一個規整的變量值矩陣。熟悉調查數據的都知道，如果一個值沒有對應的變量，就麻煩了，沒辦法處理了。結構化的特點就是這樣。

大數據不是結構化數據，是混合形態的數據。什麼叫做混合形態數據？指既有結構化數據，也有其他形態的數據。結構化的數據指各類結構化的數據庫表，工業計算和科學計算常見的都是結構化數據，像甲骨文和ERP都有自己的結構庫表，隨時可以通過輸入字段查詢，比如說在北京大學要找人，找郭志剛，依據結構庫表的約定，輸入郭志剛三個字的首字母馬上可以定位到郭志剛。邏輯是，在姓名字段裡給了兩個值，一個值是郭志剛的漢字，一個值就是郭志剛的漢語拼音首字母縮寫，也許GZG三個字母對應很多人名字，其中一定有郭志剛，這是結構化的。

大數據不完全是結構化的，有一部分是結構化的，如姓名、帳號、存款餘額、消費記錄等等，但大多數是非結構化的數據，比如說日誌，查了幾回，刷了幾次卡，每次在哪裡刷的，不是結構化的，刷了多少錢卻是結構化的，刷了幾次不是。每一位用戶都有使用日誌，有的還有音頻，比如說微信中的語音，音頻數據不是結構化的，圖片不是結構化的。用戶應用活動的很多數據都是非結構化，這就讓數據變成了混合形態，這是不同於傳統數據的非常重要的區別。

接下來，從商業視角來看數據的價值。傳統的數據通常是分析目標導向的數據，有非常明確的價值取向。譬如我做中國家庭跟蹤調查（CFPS），非常明確，蒐集與人類社會生活、未來成就、幸福相關聯的各種變量數據，有非常明確的價值指向。

大數據是記錄導向的，是一個顛倒。大數據是為了技術活動、獲得人類社會活動的痕跡而記錄數據，獲得是造痕者留下的並行數據（paradata）；不是為了解釋某個現象、分析某個結果來記數據。在數據獲取上，這又一個非常重要的變化。

影響的這個變化的因素，第一是記錄的便捷化，無需研究者花錢花資源去搜集數據，每一個用戶自己就主動提供了數據。第二是存儲的便宜，存儲的價格在過去的一段時間裡呈指數曲線下降。

正因為大數據不是有目的的測量，而是造痕者留下的痕跡，因此，它的價值密度與社會學的調查數據比較便低得多。如果希望用大數據來證明什麼，就需要從數據中去挖、去發現，而不是用假設檢驗的方式來檢驗。跟傳統的調查數據比較，其基本的出發點是有區別的。通常認為，大數據價值密度比較低，從商業角度來看，的確如此；從學術角度，卻不一定。

最後，非常重要的特徵是速度。傳統的數據，從設計、調查、清理到可用需要相當長的時間。舉一個例子，1887-1890年，赫爾曼·霍爾瑞斯為統計1890年人口普查的數據，發明了讀卡機，把原本需要8年人口普查活動用一年的時間完成了。再譬如CFPS，發動了幾百位訪員，用計算機採集數據，從調查結束到可用也用大概2年的時間，其中數據清理的時間非常長。

大數據，那麼大的量，怎麼處理？這是非常大的挑戰。此外，大數據不同於傳統數據的另一個特點是沒有數據概念，只有“數據流”概念。這是社會學研究需要換腦子的關鍵點。什麼意思呢？數據每時每刻都在產生、記錄，沒有一個時間節點的數據是完整的數據，因為，它根本就不是以完整數據為目的的數據，每時每刻都有數據可用，也都有它的約束性。其中的一個約束性是，它不是針對具體研究問題的可用數據。如果要研究一個問題，可以截一段數據出來，卻不是馬上就可用的數據，而是可以挖掘的數據。

不管大數據有什麼樣的特徵，本質上，它還是數據，是人類社會生活包括私秘生活留下痕跡的數據化。痕跡數據變成大數據有一些條件。第一個條件是行為的監測化，一旦造痕者的行為與數字化設備關聯在一起，就具有了可檢測性，比如說銀行數據、社交數據、健康數據、家居數據等等。很多人喜歡戴手環，手環就是一個監測設備。如果你有什麼自己不願意讓人知道的行為，建議你最好把手環摘掉。手環，不僅可以監測你的身體參數，也可以記錄你活動的地理位置參數。

第二個條件是監測和檢測的網絡化。如果只是局部監測，問題不大，天知、地知、你知、我知而已。一旦監測設備具有網絡功能，監測活動便讓任何造痕活動變成了網絡活動，甚至是在你不知情的前提下。比如說手機，現在每個人都在用智能手機，你們把設備上的位置選項打開看一看，默認狀態是開啟的。你說不願意讓自己的活動便成網絡活動，問題是設備的功能你不一定完全瞭解，它可能隨時隨地都在把你的活動便成網絡活動，監測的網絡化就是社會活動的網絡化過程，也是這個世界的連通過程，一個典型的例子是微信的朋友圈。

第三個條件是網絡的數據化。如果僅僅是造痕活動的網絡化倒也罷了，最多是知曉範圍的擴大。問題是，網絡化的過程也是數據化的過程。造痕活動的網絡化首先是活動的數據化，其次是活動數據的網絡化。單個節點的數據，常常不具有社會意義，節點數據的匯流便讓造痕活動具有了社會意義。比如說，某個老師每週到辦公室來兩次，根據GPS信息，可以知道他什麼時間到，什麼時候離開，中間離開幾次。如果這個老師有一個特別去處，每週固定的時間都要去。作為同事，我不知道，可手機運營商完全瞭解。依據也是這個老師手機提供的位置數據。當把所有人的位置數據彙集起來，可以知道的事情就多了。不僅可以知道有多少人有特別的去處，也可以知道每個的生活習慣、工作習慣、身體狀態等等。

大數據其實與人類的社會行為相伴隨，與網絡同在，與社會一體。我想，從社會的視角來看，這就是大數據。

簡單歸納一下，大數據，形態是數字化的、非結構化的、在線的、流動的數據；容量都在PB級以上，是單個計算設備無法處理的數據；來源，不是專門蒐集的數據，而是與行為相伴生的、通過傳感器、設備獲取的數據、通過網絡彙集的數據；不過，並非系統、也非完整的數據。

對社會學而言，大數據是一種新的研究數據來源，一種永不停歇流動的數據，目前還不是對過去其他來源數據的全面替代。

我給大家幾個例子，大家瞭解、體驗一下什麼是大數據。

2014年雙十一。阿里自己造了一個雲，叫ODPS雲，這個雲和世界上其他雲不一樣，用幾十萬臺個人電腦陣列，運行著自己的系統，在6個小時內處理100PB數據，相當於處理一億部高清電影。在零點以後，支撐了每一秒有7萬瞬時訂單，讓5萬個人同時搶1千件商品不超賣；3分鐘成交額10億人民幣，不出任何差錯；在570多億交易中，支持了243億的交易額在手機上完成，產生了2.78億個物流訂單；全球有217個國家和地區加入交易。這些事情如果不瞭解的，甚至都不敢想象，而且都是智能化的。

阿里還造了一個數據系統，叫聚石塔。這個聚石塔幹什麼呢？直接管訂單，2013年的雙十一隻有75%的訂單聚石塔上處理，沒有丟單；2014年處理的比例上升到95%；2015年的雙十一，估計全部都在這上面。

所有這些活動，都在實時發生，也在實時處理。發生的便成了數據，處理的也是數據。流動著的數據量，是傳統社會學想象不到的量級。能夠完成這些功過的就是計算能力，這個能力是人類在兩年前都無法想象的。

02. 大數據和社會學研究有關係麼？

接下來討論大數據和社會學研究有沒有關係？我的觀點是：有關係，目前還沒那麼緊迫。

咱們都是社會學的老師和學生，卻常常“只緣身在此山中”，忘記了社會學基本範式的差別。為理解大數據與社會學研究的關係，需要簡要回顧社會學的基本範式，然後再說明，如果大數據與社會學研究有關係，那麼，與什麼範式、有怎樣的關係。

在社會學的想象力下，我把社會學的基本範式分成三大類，與傳統區分的實證、詮釋、批判，不大相同，純粹是為了敘述的方便。第一類，我叫做思辨的社會學，比如說帕森斯（T. Parsons）的宏大社會系統，甚至福柯（M. Foucault）的多種理論，甚至吉登斯（A. Giddens）的社會結構理論等。這部分社會學大家，都是從概念到概念的思辨，基本上可以完全隔絕數據。再譬如布迪厄（P. Bourdieu），早年做教育社會學研究時用數據，後來也不怎麼用數據了，抽象了，思辨了。

第二類，我稱之為詮釋的社會學，從胡塞爾（E. G. A. Husserl）以降，舒茨（A.Schutz），甚至到格拉霍夫（R. Grathoff），這些人都圍繞意義在做研究。對他們來講，一個現象本身的代表性是沒有意義的，他們觀察的是一個現象本身，要闡釋這個現象的意義，他們認為的意義。他們也可以不用數據。不過，我認為對意義的挖掘也會面對意義社會性的挑戰。

第三類，我叫做實證的社會學，源於法國年鑑學派和美國社會學對帕森斯的反動。在第二次世界大戰以後，獲得了空前的發展。如果要在實證社會學與前兩類之間進行區分，很簡單，有沒有假設檢驗是一個關鍵特徵。實證社會學強調假設檢驗，強調用經驗事實檢驗理論假設。由於在檢驗中要使用數據和統計方法，也因此被貼上了“定性”或“定量”的標籤。

大數據與社會學關係最密切的是最後一類。實證社會學離不開數據，不管是什麼類型的數據，什麼形態的數據。剛才說，實證社會學在二戰以後有一個大發展，大家可以看一個趨勢。我用了兩份文獻，一份是普萊特的一部著作[1]，她對美國社會學三份主流期刊（ASR, AJS, Social Force）的研究顯示，1915-1924年期間，35%的研究用個案，53%的用統計；1955-1964年期間，用個案的下降至18%，用統計的上升到76%，其中ASR和AJS基本上排除了純粹的社會理論文章，只要涉及社會事實的，都要有數據，不管是什麼形態的數據。一份是中國的文獻，北大社會學系的林彬教授和他碩士研究生王文韜的研究顯示，2000年，實證化的趨勢在迅速加強[2]。現在的《社會學研究》沒有證據的文章基本上發不出來。

對經驗事實的刻畫需要測量，對理論假設的檢驗需要測量數據，實證和數據密切地關聯在一起，實證研究需要數據。可是，當我們對數據本身進行系統考察時卻發現，數據並非因研究需要而產生。我的觀察和探討顯示，數據最早源於管理活動的需要，後來慢慢地滲透到了社會科學的研究，直接影響了實證社會學的研究。

實證社會學過去的研究數據主要來自於調查活動。二戰以後，密西根大學建立了社會研究院（ISR），調查數據開始逐步成為社會學研究的基礎設施。在運用調查數據進行社會學研究的發展中，還有過一場辯論。基什（L. Kish）認為，與其花很多的錢進行人口普查，不如花少量的經費進行抽樣調查。基什把自己對抽樣調查的思考和想象，在世界各地傳播，他也到過北京大學，我記得是1990年代中期，專門在北京大學講了一週的抽樣調查，我學了整整一週。

調查數據還是社會學家手裡的一類資源、一種權力。在大數據之前的數據，主要有三個來源，分別代表了三種資源和三個群體中手中的權力。第一是行政數據，各個政府掌握了身份數據，流動數據，登記數據、家庭數據等等。第二是商業數據，譬如過去幾百年的金融數據，都在商業公司手裡。社會科學家到20世紀30年代才認識到數據的重要性，開始找數據、調查數據、運用數據，在蒐集和運用數據的經歷中，也認識到數據是研究者手中的資源，是讓社會學聲音具有獨立性的支持力量。進而，與行政數據和商業數據一起，形成了三角鼎立之勢。

大數據是痕跡數據一種，與實證社會學研究有非常密切的關係。哥德爾和梅西2014年的文章認為，數據腳印是社會學研究的挑戰，同時也是機會[3]。有興趣的可以找來讀一讀。我則認為，總體來講，大數據的確給社會學研究帶來了挑戰，不過，現在還沒有直接構成威脅。到底帶來了什麼樣的挑戰呢？接下來，我們做一些討論。

03. 大數據給社會學研究帶來了什麼挑戰？

一、還需要做調查麼？

我想，人們有興趣的第一個問題是，還需要做調查嗎？數據來源於問題。的確，大數據無需調查，只需選擇。數據調查是有目的、有研究假設的數據蒐集和研究活動。對於大數據而言，沒有任何人做研究假設，也沒有任何人有能力做大數據的研究假設。在這個意義上，與調查數據關注如何蒐集數據不同；對大數據，對研究而言，關注的是如何應用數據。

前面討論過大數據的特徵，使得個體研究者不具備接觸大數據的機會。對大數據的應用，現在主要是機構性的應用，尤其是商業機構，商業結構站到了第一線，阿里巴巴的大數據應用在世界範圍內也是一流的。阿里有人曾經在一個內部會議上說，如果不顧及中國，不呆在中國這塊土地上，完全可以把中國的銀行淹死掉。為什麼呢？阿里手裡有超過四億消費者的金融信息，他知道誰要買什麼，怎麼買，花多少錢，大概什麼時間段買。

與商業應用不同，學術研究還沒有走到PB級數據的臺階。如果有誰告訴你說他在用大數據做研究，你先問問多大的數據量。一個問題，你就知道他是不是用大數據在做研究。對大數據，社會學家們既然沒有可及性，或許也沒有相應的技能，還能幹什麼呢？就我所知，自稱在用大數據的，通常是大數據中的數據。社會學家不是像網絡科學家和計算科學家那樣，把建好的模型直接放到網絡上運行，譬如百度導航的交通狀況；而是從大數據中截取了一段數據在做研究，是大數據的一個小樣本。即使如此，也與傳統的調查有了很大的區別。我們依然可以把這樣的數據看作是調查數據，不過，有諸多的不一樣。“訪員”，傳統的調查數據是訪員詢問受訪對象，蒐集數據；現在沒有訪員了，而是讓機器自己彙集數據，研究者直接挑數據。

我給幾個例子。第一個是哈佛大學金教授（Gary King）及其同事做的一項研究[4]。他們用社交媒體的數據來觀察中國的沉默表達。數據從哪兒來呢？用網絡爬蟲直接從不同網站爬數據，獲得了1382個社交媒體網的數據。這項研究的影響還是很大的。

接下來，是我做得一項研究。2012-2013年，我跟淘寶做了一個好玩的研究，沒有寫文章，有一份很有趣的報告。淘寶希望瞭解店家的成長可能性，譬如年銷售額10元的是不是可能做到100萬，我希望瞭解誰在開網店[5]。我們從600萬個淘寶店家數據中抽取6萬個店家。從大數據中提取了6萬個店家的交易數據，還對6萬個店家進行了網絡問卷調查。我得到的結論是：居住在沿海、城鎮、年輕、中高學歷、家境殷實、價值觀居中的人在開網店。一年換三分之一的店家，能夠堅持乾的人，是用淘寶來謀生的人。在所有店家中，三分之一玩票，三分之一投機，三分之一謀生。

第三個例子，是我指導並參與的一項研究，通過分析並行數據，我們發現一個調查行為：臆答[6]。什麼叫臆答？臆答指，調查員找到了受訪對象，並且跟受訪對象聊了半天，不過，不是按照訪問規程詢問和填答，而是根據閒聊獲得的信息，憑藉自己的猜想代替受訪者填問卷。這種填答作弊的方式，在傳統的調查質量控制中是發現不了的。並行數據對訪問行為的記錄，讓研究者有機會在訪問行為數據挖掘中獲得一種快答模式，通過對訪員的詢問，才獲取了臆答作弊模式。

這三個例子都說明，即便是大數據中的數據，對社會學研究而言也是重要的。

二、大數據來自哪裡？

如果想做研究，從哪裡可以獲得大數據的數據呢？要回答這個問題，我們首先需要知道大數據到底來自於哪裡？

第一個是傳感器（Radio Frequency Identiﬁcation, RTID）。2005年大約是1.31億個，2010年增加到了30億個。總數是多少，不知道？因為，傳感器的用途越來越廣泛。什麼叫傳感器呢？馬路邊上的各類探頭，剛才講到的手環、手錶、手機、電腦、汽車、空調、電飯煲、插座、燈等，只要是器具，都可以變成傳感器，任何可以做數據監測、整合、傳輸的工具都是傳感器。不過，它的基本原理來自於射頻原理，所以叫射頻傳感器。

第二個是互聯網。根據不同來源的數據，我們瞭解到谷歌每天要處理大概24PB的數據，百度每天新增10TB數據，處理100PB。

第三個是社交網絡，像Facebook每天要23TB，推特每天7TB，騰訊每天大概增加200-300TB，數據總量大概100PB。

第四個是電信。中國移動產生10TB以上的話單數據、30TB以上的日誌和100TB以上的信令數據。其中，話單是結構化數據，有姓名、接入基站、通話時間、計費等，是結構化的數據。但日誌不是，日誌是非結構化數據。信令也是非結構化數據。

第五個是金融。每一個交易週期，紐交所捕獲的數據量只有1TB，沒有很大的數據量。

第六個是網絡銷售。淘寶每日訂單量大概1000萬，阿里巴巴已經積累的數據超過100PB。

第七個是科研。比如說，歐洲核子研究中心強子對撞機每秒產生大約40TB數據。

第八個是政府。美國政府大概擁有800PB以上數據。在美國，除了商業公司，美國政府大概是第二位擁有海量數據的數據源。

分行業的列舉，只是希望給各位一個印象，從比較中認識到，與傳統的三角鼎立之勢比較，在大數據時代，科學研究，尤其是社會科學的數據量是非常可憐的，你想找一個PB級數據的機構都找不到，幾乎沒有。要找一個PB級的社會學研究數據，我估計你在全世界都找不著。

為進一步讓各位瞭解數據的來源，給大家兩個圖示。第一幅是一分鐘在因特網上有多少事（what happens in an internet minute），第二幅是一天的每一分鐘互聯網上人們做什麼（every minute of the day）。兩幅圖，大家在網上都可以找到。給大家舉一個例子，比如說蘋果，一分鐘會有4.8萬個APP被下載，你就知道數據量有多大了。

圖1 “what happens in an internet minute”

圖2 “every minute of the day”

三、大數據的挑戰到底在哪裡？

我的觀點是，大數據對於調查數據的挑戰取決於它對調查數據的替代程度和擴展程度。

常用的調查數據，是小數據。大數據跟它有交集，現在問題在哪裡呢？這兩個數據都是可用的研究數據。對於社會學研究而言，至少是現在，我們用大數據的機會非常小，我們沒有大數據。好在，我們還有小數據。接下來的問題是，兩個數據的交集重疊的部分會怎樣發展變化（參見圖3）。如果調查數據完全被取代，則社會學研究的技能包括思想便需要重來，這將是最大的挑戰。否則，社會學研究還可以依據小數據繼續發展。

圖3 大數據、小數據與研究數據的關係

大數據對小數據的替代取決於兩個因素，一個是傳感器的應用，一個是算法技術的發展，兩者的發展都會直接影響社會學未來的發展走向。

對於調查數據而言，譬如人口普查、民意調查、社會調查、健康調查等等。這些調查通常用於什麼呢？對個體，用於研究人的行為、健康、教育、成就、幸福，大概就是這些事；對群體，用於研究群體的行為、結構和動態；對社會，研究社會的狀態、結構和動態。大數據對社會學研究的影響在於，大數據有沒有可能替代調查數據用於我們要研究的內容。

那麼，大數據可以用於什麼研究呢？譬如社交網是人的基本人情網絡或人際網絡；然後生活網，買東西，賣東西，刷卡；工作網絡，每天上地鐵，上班，在辦公室面用電腦；還有健康網，大家手裡戴的手環，等等。貌似個體和群體的數據都在了，只是這些數據現在都在商業公司手裡，不在研究者手裡；而且，只要不與商業公司發展利益衝突，商業公司也不在意學者們在說什麼。還有，這些數據還沒有互聯互通，如果互聯互通，商業公司的力量將更大。萬物皆比特[7]，數據就在那裡了，只是看怎麼用、誰在用，最重要的是，社會學家們有沒有機會和能力利用這些數據。

未來社會學研究對數據的利用，除了取決於機會和能力，還取決於數據化覆蓋的範圍。如教育，在線教育，大家現在可能還沒有感受到危機，坦率地說，危機已經在我們身邊了，各種內容產業的興起就是對教育潛移默化的挑戰。

如健康。未來的健康將是完全數據化的健康。中醫，過去是望聞問切、號脈，現在中醫也依靠檢測設備，也依賴數據了，西醫的檢查數據，中醫一樣要看，看完了中醫給另外一個解釋，不是西醫的解釋。從穿戴式設備到專業社會，都在把人類的健康狀態數據化，不少商業公司都在這個領域努力，包括互聯網巨頭們。

如物聯網。什麼叫物聯網？大家不要誤會了，以為是物流。物流不是物聯網，物流傳遞叫物流網。物聯網指器物之間的連接與互動。謝老師手裡拿著手機，說我馬上要回家了，把家裡的空調打開，手機上有空調的應用，按一下，通過網絡，指令就傳到了家裡的空調上。萬物之間的連接和互動，就是物聯網，是未來社會社會生活非常重要的一個領域，也是非常大的一個領域。

其中一個，就是無人機。無人機應用已經非常廣泛，從軍事到民用已經非常普及了，最近有幾個小夥子在深圳搞了一個四翼無人機，是做拍攝的。其實，不止做拍攝，什麼都可以做，有一部電影大家可以看一下，是一個真實故事，講在美國佛羅里達有一個軍事基地，在這個基地裡面駐紮著一批無人機空軍。他們幹什麼呢？像運用遊戲操縱桿一樣，操縱無人機。在阿富汗、也門，實施精準轟炸。裡面有一個鏡頭很有意思，裡面有一個阿富汗塔利班成員，那人是一個獨狼，經常幹壞事。他隔段時間會跑到一個人家裡強姦女人。操縱無人機的上校第一次在屏幕上看到時很鬱悶；第二次，也放了他；第三次，他預估這個人又要實施強姦了，便他對操作員們說，沒事了，你們休息吧。他一個人操作三臺機器，把這個人幹掉了。

操作無人機，運用的就是物聯網。社會學研究通常只關注社會的邏輯，不關注器物之間的邏輯，可如果不瞭解器物之間的邏輯，未來我們就無法理解社會，這也是對社會學研究非常嚴峻的挑戰。

如硬件，智能硬件。任何硬件都有它的智能特徵，只要可計算，背後都帶著智慧。智能空調是硬件，無人機也是硬件。社會學家們無需像計算、網絡、工程學家們那樣精通硬件，可也不能不瞭解背後的互動邏輯。

如工程。現在很多工程都不用人幹了，直接用數據來幹了。舉一個例子，比如說手術，過去的手術都是靠醫生操作的精準度；現在，手術的一半要藉助儀器，未來可能完全用機器人了。比如說切半頁肺，病人躺在手術床上，馬上開始3D掃描，把所有數據輸入計算機網絡，大數據開始調集所有相關案例數據，醫生輸入一個參數，如病灶在什麼地方，從哪兒切到哪兒，機器人便開始操作，把你胸打開一個口子，直接把東西切完，止血之後，把打開的口子縫上，手術就完成了，就這麼簡單。

建築工程也一樣。大家看到，越來越多的智能工程機械在從事建築活動。

製造也一樣。中國製造2025的目標就是智慧製造。大家千萬不要想象著，那只是製造業升級，不是，那是用智能替代人的一個過程。

還有農業。我剛大學畢業的時候在農場工作，每年有三個月時間需要飛機撒農藥，我在飛機上幹了兩年，每年幹一兩個月。幹什麼呢？幫助飛行員撒農藥。飛行員說，你打開閥門，我就打開閥門。農用飛機，機艙溫度高達40多度，熱的要死。現在，都是無人機。無人機一航拍，說產量怎麼樣，什麼地方有蟲災，什麼地方有病災，該怎麼撒農藥和施肥，清清楚楚，農業也完全改變了。這不是簡單的互聯網，而是多種科學數據的聯合應用，背後都是數據之間的邏輯。

再說金融。大家最有興趣，昨天股票跳水將近7%。其實，誰知道股票會跳水，上交所和深交所的人都知道，證監會也知道。事先他們都知道，只是鑑於交易規則不便透露而已。

簡單地說，大數據在社會生活中的滲透是完全徹底的。回到第一個問題，還要不要調查的問題，除了前面分析的交集的面積大小、大數據對小數據的替代以外，還有兩個兩個概念，分享一下。

第一個是“轉換”，轉換數據、轉換思維。數據來源完全變了，不是要你去調查，或者說，需要調查的越來越少。社會學家們掌握在手裡的資源越來越少了，由資源帶來的權力也越來越小了，我們不得不轉化思維，學習與有資源的行動者合作；不得不轉換技能，學習如何利用大數據。

第二個是“替代”。數據的來源完全變了，有可能未來完全不需要做大規模調查了，可能個別小事情需要做調查，調查的重要性會越來越下降將是一個大趨勢。社會學家作為一個科學群體可能會像社會學家曾經掌握的數據一樣，被其他學科所替代。社會學原本就是回應工業時代的需要產生的學科，一個時代結束，或許一個學科也會跟著被替代。在過去的一百年裡，學科消失並不是一件稀奇的事情，或許，社會學也免不了自己的宿命。

不管怎麼樣，現在認識這些問題，還不算晚。眼下，還是要傾注全力，適應大數據時代的需要，發展社會學的能力，拓展社會學的邊界。

四、社會學研究範式還有用嗎？

剛才講，大數據對社會學的第一個挑戰是：還需要社會調查嗎？通過上面的分析，答案應該是清楚的。第二個挑戰是：社會學研究範疇還有用嗎？

我嘗試著回答。要回答這個問題，不得不提到一本書，叫《大數據時代：生活、工作與思維的大變革》[8]。大家要讀英文標題，英文標題橙色部分叫“革命”。什麼是革命？他自己提了一個，抽樣、精確、因果這三個過去我們為之努力奮鬥的範式，正是革命的對象。

是不是真如此，我覺得，可以爭論。不過我認為，這至少是一個信號，值得社會學家們認真討論，因為從事實證社會學研究的人最熟悉這一套。我的問題是，大數據對社會學研究的影響，難道真的與調查數據的基本假設不一樣嗎？在調查數據的時代，我們用假設檢驗。如果真的要從假設檢驗轉換為大數據的總體歸納，這兩者之間難道一個是白天、一個黑夜嗎？我覺得不是，兩者之間必然有著千絲萬縷的關係。

大家知道，自然科學用的重複檢驗。我學生物學出身，生物學研究的要求是重複檢驗。你說某一個規律存在，至少要做三遍，得到的參數不超過誤差值，就說明規律暫時是存在的、邏輯暫時是有效的、模式暫時是有效的，否則你就得重新思考，重新做。

社會科學沒有重複檢驗的基礎和條件，故，我們做假設檢驗。不過，我認為，即便是歸納的模式也要滿足重複檢驗或（和）假設檢驗的基本要求。運用大數據的社會學研究，我認為，其範式也許重在發現，而不是重在推論。但是，基本的目標沒有變，我們還是要把握事物之間的關係模式。

大數據分析的一些技術性技能是社會學研究缺乏的，我快一點過了。儘管對理解大數據和小數據之間的範式差異非常重要，由於社會學家們通常對技術問題興趣不大，為了不至於讓各位打瞌睡，我還是過快一點。

剛在說大數據分析重在發現，而不是重在推論，在方法上也有證據。大數據的非分析目的性，讓對大數據的利用在方法上重視數據挖掘。什麼叫數據挖掘？簡單來講說，就是從雜亂的混合數據中發現有意義的事物之間的模式和規則。挖掘是針對大數據分析的一個基本策略，但不是具體方法。我簡單介紹一下什麼叫做大數據挖掘。

大數據，首先是亂的。面對混亂，怎麼辦？大數據挖掘有一些基本的步驟，就是混亂的東西先歸類，再降低它的維度，降維為若干類別以後，便讓大數據和調查數據的形態差不多了（見圖4）。圖上有四個步驟，第一步拿到數據，非結構化的和結構化的混合數據；第二步梳理數據，用HPCC，高性能計算系統，通過映射-降維（Map-Reduce），把混合數據就變成分類數據，可分析數據；第三步分析數據，作模式分析，獲得初步的結果；第四步應用結果。

圖4 數據挖掘的基本步驟

我們把這幅圖的步驟歸納一下。做大數據分析，第一步獲得數據，通過映射-降維，形成可分析的數據；第二步選擇要分析的降維數據，選擇變量，降維以後的數據變量是可選的；第三步進行數據變換，比如說數據類型的變換，數據模式的變換等等；第四步模式發現，數據挖掘就是要發現模式；第五步模式評估，對已經發現的模式，評估其信度和效度；第六步知識表達，社會學的最終產出在這（見圖5）。

圖5 數據挖掘流程

當然，數據挖掘跟社會學研究一樣，也有描述性研究，也有預測性研究，描述性研究同樣是探討特徵、探討屬性。預測性研究同樣探討變量之間的關係。

大數據分析的描述性研究，大概是四大類工作，第一是做特徵分析，特徵分析就是點分析。第二是做關聯分析，可以理解為雙變量和多變量之間關係的分析。第三是做聚類，聚類主要是做多特徵的綜合聚類。最後是做離群點分析，調查數據叫極值，在大數據裡叫離群點，兩個不一樣。描述性分析的目的是什麼呢？也是用數據刻劃，獲得研究對象的數字畫像。比如說要描繪一類人，性別、身高、生活規律，比如每天幾點睡覺、幾點起床、深睡時長、醒著的時長，做惡夢的時長，都可以用數據刻劃。

簡單介紹一下特徵分析。類似於針對調查數據做的單變量分析，刻畫研究對象的基本特徵，譬如手機用戶的年齡、心別、身份、行為、消費偏好、習慣、表情等；淘寶店家的年齡、性別、身份、家庭社會經濟地位等等；微博傳播的網絡結構如星形網絡、結構洞網絡等。

關聯分析，類似於調查數據的雙變量、多變量分析，是基於事物不同特徵之間的相關性分析。不過，其分析的基本思路卻大不相同，以頻繁項集為例，其基本思路是：將某個頻繁項集Y劃分成兩個非空的子集X和（Y-X），使得X→（Y-X）滿足置信度閾值。如果規則X→（Y-X）不滿足置信度閾值，則類似於X1→（Y-X1）的規則，一定也不滿足置信度閾值，這裡，X1是X的子集。根據這一特徵，假設由頻繁項集{a,b,c,d}產生規則，且規則{b,c,d}→{a}具有低置信度，則可以丟棄包含a的所有規則。有點暈了，對嗎？不暈才怪，這是計算思路，不是社會學的假設檢驗思路。

用一個例子試試。比如說，只要發現某教師哪天早晨五點鐘起床了，可預測其要出門，這就是頻繁項集的應用。注意，數據挖掘會運用其既往早起後的行為預測其會不會出門，並給出預測正確的概率。

聚類分析，原本就是調查數據統計分析方法的一種，用分類原則，篩選因子，減少變量的數量，又稱“降維”。在數據挖掘中，點集數據是適合聚類分析的數據類型，通過聚類，讓原本混雜的數據歸入各自的類。再強調一遍，對大數據的聚類分析，採用的依然是計算思維：可算，計算有效率。

接下來看看預測分析。預測分析的技術對我們來說複雜了一些，這裡不講。只講與調查數據分析根本不同的部分。調查數據是先建模，再蒐集數據，最後檢驗模型。大數據分析是先有數據，建模的基礎是數據，因此被稱為數據建模。數據建模是基於數據歸納的，在數據裡發現、挖掘，通過描述性分析建立簡單模型，用簡單模型讓機器學習。

還是舉剛才的例子。某個老師每週有哪幾天早晨五點起床，機器可以預測他到學校來，還是到另一個地點。也許會有離群點，不過沒關係，機器會自動調整預測概率。經過一段時間的數據積累和模型修訂和迭代，便可以準確地預測。如果某老師在週五的早晨五點起床，他到北京大學社會學系辦公室的概率有多大，通常，這個預測是精準的。這就是機器學習，不是人乾的事，完全交給機器了。

舉一個經典例子，谷歌流感模型。前面的故事大家應該都知道，即使不知道，網上搜索一下也可以知道。我要講的是，2007年穀歌處理了4.5億個模型，最後篩選出一個綜合模型，在這個模型基礎上，跟隨數據的積累，2012、2013年又修訂了新預測模型。現在，谷歌流感模型的預測比美國CDC的預測還要準。

大數據的數據建模，通常有兩類。一類是分類模型，一類是迴歸模型。分類模型分析事物的類別，關注特徵值；迴歸模型分析變量之間的關係模式，做預測。

在這個基礎上，數據挖掘是多種技術應用。首先是統計學，郭志剛老師不會失業，統計學你得繼續教，沒有統計學知識，大家玩不轉。其次是算法，如何讓機器可計算和計算的有效率。我覺得社會學的學生未來至少要懂一些算法，我們可以不寫代碼，但不能連基本原理都不懂。在算法中還涉及一系列的理論與技術如數據庫、可視化、機器學習、模式識別等等。

此外，數據挖掘還會用到一些其他的技術，這裡就不多說了。

先說統計技術，運用調查數據的統計技術，描述統計、推斷統計、假設檢驗、統計模型等，在大數據分析中，技術不一定會用到，思想卻不可或缺。大數據分析最常見的是迴歸分析。當然，大數據對統計技術和思想的應用與拓展也在發展，懂基礎是發展的前提。

再說算法，相對複雜一些，也是數據挖掘中的核心，他不僅用於建庫，也用於做所有與數據挖掘相關的工作，比如說機器學習。從初始數據建模到模型迭代、穩健，都依靠算法的效率。

前天，有個老師告訴我說，早上一來，發現計算機死機了。我問：為什麼？他說，做了一個迴歸模型。我問：你做多少？他說，做50步。50步？在大數據裡面是完全小兒科，而且一個數據量級，還記得谷歌的流感模型，初始模型4.5億個！初始建模、模型迭代、穩健化，都需要用算法。

機器學習是一個新興的知識領域，知識性問題我不講了，直接給大家例子。

淘寶2014年雙十一，讓TCL狠賺了一把，原來預定量，TCL預計只有8%，機器學習的結果預測4K電視機會熱銷，結果是一天上升了60%。還有一個更搞笑的，服飾公司A21，雙十一前通過阿里數據鎖定了1000個老客戶，公司只想試一下一種新的、依據數據的營銷方式。比如說你是A21的客戶，今年我根本不通知我要給你做衣服，也不要你在網上預定，而是把你的衣服做好了，直接送到你家門口，如果你認為不錯，你就收單；如果你不喜歡或不需要，就拒收。結果是：90%的客戶買單。

菜鳥網絡，這是馬雲2012年說自己退休以後乾的事。這是一個物流網絡，對不同線路訂單的預測準確率也達到90%。說的是什麼呢？各位知道，雙十一的訂單量驚人，如果不事先佈置地方性的倉儲，是無法在一週之內讓所有客戶拿到貨品的。問題是，誰知道哪兒的客戶需要什麼？需要多少呢？大數據知道。依據大數據建模，菜鳥網絡事先把貨品部署到各地的倉儲，一旦有訂單觸發，快遞網絡便直接從離訂單地最近的倉儲取貨和送貨。2014年，截止到11月14日下午14點，雙十一期間的物流已經被簽收4000萬個，雙十一商家當天發單率達到20%，攬收率60%多。對商業應用來講，預測的重要性可想而知。

對於社會學研究，其實沒那麼著急。不過，依然非常重要。

我們再舉一個例子，百度做的，春節期間的人口遷徙圖（見圖6）。做這樣的圖，對於有大數據的商業公司很簡單，可對社會學家們來說，貌似一個難題。說簡單，是說原理的確簡單。手機在中國的普及率非常高，有能力使用手機的人幾乎人手一部。手機之間的通話、短信、微信等，有一箇中介，那就是基站。每一部手機只有接入一個具體的基站，才算是上網了。每部手機都有唯一識別碼，每個基站也有一個唯一識別碼，運用手機在基站上的移動，就可以定位人口的遷徙了。春節期間，百度的人口遷徙圖，就是應用這個原理讓機器自己做的。其中，既有統計學原理，也有計算機的算法。

圖6 春節期間的人口遷徙圖

圖7 2012年歐洲盃期間的網絡成交量

再舉一個例子。2014-2015年跨年夜的上海踩踏事件。地圖搜索數據顯示，藍色的曲線是地圖搜索，搜索外灘，跨年夜的地點。12月25-30日搜索，數據很平穩，也很有規律（見圖8）。到了31日，搜索量陡升，還有兩幅熱成像圖我沒有放上來，人流熱度的移動也非常明顯，跟搜索圖完全重疊。31日下午的搜索量陡增就預示了晚上人流會激增。可是，上海市警方並沒有注意到大數據的力量，手裡有數據，卻不佈置警力。

圖8 上海踩踏事件前夕“跨年夜”關鍵字的地圖搜索量

運用這些例子，我想說明的是，大數據在滲透進我們社會生活的方方面面，其中的一些方面是社會學傳統的調查方法處理不了的，無論是方法還是時效，都難以應付的。但是，在大數據的挖掘和利用中，我們又常常看到社會學研究範式的影子。它意味著社會學範式不僅有用，而且有大用！

五、社會學的優勢在哪裡？

社會學曾經的優勢有調查數據、有分析工具、有知識積累。這三塊是社會學最核心的優勢。調查數據、政府數據、商業數據各自有自己的專業領域，也因此形成了各自的話語權，也保障了社會學家們的獨立性！除了數據以外，保障社會學家們話語權獨立的還有社會學的分析工具和知識積累。社會學家們用自己的數據、科學的分析工具，形成了針對社會的知識積累，形成對社會有益的一股力量。

大數據的發展，使社會學曾經擁有的優勢變了，社會學家們依然掌握著調查數據，可大數據對調查數據的衝擊越來越大，調查數據的侷限性越來越明顯，大數據對調查數據的替代趨勢也越來越強，將來會不會完全替代，現在下判斷還為時尚早。儘管如此，調查數據的話語權變弱是不爭的事實。

社會學家們剩下的優勢只有知識積累了。問題是，知識積累也依靠數據，在數據受到衝擊的前提下，社會學的知識積累也可能會坐吃山空，我想，這才是社會學研究面對的真正挑戰。未來，社會學如果不能尋找替代，在新的分工圖譜中找到自己的位置，沒有獨門秘籍，沒有超人的創新能力，面對的結局可能是大家非常不願意接受的，譬如做知識勞工。如果我們回顧自己的職業生涯，有一條線索非常清晰：從90年代開始，教授們的工作便在逐步的勞工化，先是做政府的勞工，幫政府做課題，哪一個政府找到你，請你做一個課題，你高興的要命。接下來做商業公司的勞工，商業公司請你開個會，給你一兩千塊錢，你也非常高興；讓你發表一個觀點，你也很高興。我們可能從來沒有想過，如何開發自己的腦力、知識力、社會學的知識力，形成一股獨立的力量，讓社會學家們再次成為一股獨立的社會力量。我認為現在是時候了。

歸納起來講，如果說大數據對社會學研究有什麼挑戰，其實不是大數據的挑戰，而是社會變遷的挑戰，我們生活的這個社會變了。社會學的先祖們曾經面對的是從農業社會到工業社會的變遷帶來的挑戰，我們如今面對的是從工業社會到信息社會的變遷帶來的挑戰，這個挑戰的基礎部分是社會的數據化。我們的先祖們把握了工業社會的特徵，讓社會學成為了一個學科；如今，如果我們沒有能力把握信息社會、數據化社會的特徵，社會學就有可能毀在我們手裡。因此，讓社會學再學習，向社會學習，把握數據化社會的特徵，可能是社會學進一步發展的希望。

對從事社會學教育的我們來說，與數據化社會相伴隨的更大挑戰還在於教育模式的革命性變革。這兩年教課，我有的一個體會，跟大家分享。請大家看圖（見圖九），上面有各種應用，非常形象地隱喻了一個學生的腦袋。他在幹什麼呢？數字化學習（e-learning），這個詞15年前在美國開始流行，今天依然流行。

圖9 數字化學習

大家知道大英百科全書是最大的百科全書，我記得，過去社會學系要買一套大英百科全書要請示校長，為什麼呢？太貴了！可如今，還需要買大英百科全書嗎？完全不需要！維基百科是眾多人修訂的成果，知識正確率96%，只要有錯，就會有人修訂，只要有錯，就會有人改，完全免費，比300部大英百科全書總量還要大，你為什麼還要買大英百科全書？為了適應信息社會的情境，大英百科全書不賣紙版了，也是世界上第一個不賣紙版的百科全書。

我用這個例子希望說明，學生的學習方式變了，純粹的知識性內容，完全可以通過搜索獲取和積累，完全不需要老師，有的時候，老師在課堂上講的還是錯的，為什麼要老師。學生在課堂上之所以需要老師，是希望老師帶給他們在網上搜索不到的東西，那麼，這個東西是什麼呢？我相信老師們對這個問題都有思考，可能也沒有直接的答案！

因此，更大的挑戰在於整個教育模式的革命轉變。挑戰不在於你當不當老師，而在於整個大學的教育模式，整個教育模式的未來，比如說班級模式還會不會繼續存在。我舉一個例子，初等教育的例子，有一個學生，應該是2011級的，休學了，自己去創業。做教育，做了一個小應用，很簡單。把各地的優質教師彙集到平臺上，學生付費進來。你說要什麼？學什麼？系統自動匹配，一對一。這就是一種新的教育模式。教育平臺，像馬雲做淘寶一樣。這樣模式能堅持多久，不知道。不過，在當下，社會是認可的，他差不多拿到了一億多的投資。用這個例子同樣希望說明，學習在變，初等教育在變。

高等教育難道不變嗎？美國人弄了兩個課程平臺，其中一個是斯坦福大學弄的，叫Coursera，7000多門課，我比較大膽，我放了一門在上面。如果你真的有信心，就需要在世界範圍內競爭，你講的不對，立馬有人吐槽，這就是教育模式的革命。我想，現在只是一個開始，更大的挑戰還在後面。

而這一些，都源於大數據作為一種新的社會資源帶來的挑戰。

04. 歸納

最後，我大致做一個歸納。

簡單來說，大數據是一個並行化、在線彙集整個人類社會生活的、包括個人隱私生活的大規模、混合結構的數據，傳感器是大數據蒐集的主要工具，人類行為，無論是社會性的還是私密性的，都是大數據的來源。

大數據與社會學研究密切相關，與傳統的調查數據不一定是競爭關係，可在事實上，我們觀察到了大數據對小數據的替代，也觀察到了大數據對數據覆蓋範圍的擴展。

大數據給社會學研究帶來的挑戰不僅在於數據源的替代，更在於社會學想象力和技能的轉換，甚至是擴展。適用於傳統調查數據的社會學能力在面對大數據時已明顯不足，社會學需要拓展想象力和技術能力，才可能把大數據作為一種新的研究資源納入社會學學科。

不僅如此，我認為，大數據帶來的更大挑戰在於對大學教育模式的衝擊。課堂上，知識性的傳授已經為大數據資源所取代，創造性的啟發和智力挖掘可能是教育的未來。

註釋：

[1]PLATT, JENNIFER. A History of Sociological Research Methods in America: 1920-1960[M]. New York: Cambridge University Press,1996.

[2]林彬，王文韜. 對當代中國社會學經驗研究及研究方法的分析與反思——90年代社會學經驗研究論文的內容分析[J]. 社會學研究，2000（6）:38-48.

[3]GOLDER, SCOTT A, MICHAEL WM. Digital Footprints: Opportunities and Challenges for Online Social Research[J]. Annual Review of Sociology,2014, 40:129.

[4]KING G, JENNIFER P, MARGARET E,et.al. How Censorship in China Allows Government Criticism but Silences Collective Expression[J]. American Political Science Review,2013,107(2):326-43.

[5]在網上搜索“誰在開網店”即可以獲得研究報告的各種版本。

[6]嚴潔，邱澤奇，任莉穎，丁華，孫妍.社會調查質量研究：訪員臆答與干預效果[J].社會學研究，2012（02）:168-81.

[7]詹姆斯·格雷克，信息簡史[M].高博，譯.北京：人民郵電出版社，2013.

[8]維克托·邁爾-舍恩伯格，肯尼思·庫克耶. 大數據時代：生活、工作與思維的大變革[M].盛楊燕、周濤，譯.杭州：浙江人民出版社，2013.

最後說一下，想要學習大數據的限時領取免費資料及課程

領取方法：

還是那個萬年不變的老規矩

1.評論文章，沒字數限制，一個字都行！

3.私信小編：“大數據開發教程”即可！

謝謝大家，祝大家學習愉快！（拿到教程後一定要好好學習，多練習哦!)

分享到:

閱讀更多 微笑數據工程師 的文章

關鍵字: 美好，一直在身邊 IBM 歷史學

小米太無恥了。

小米高管不只口嗨了，在國內拳打友商，在國外卻開始下跪了。下一步，我猜小米會喊，高通爸爸，人家愛死你了，人家已經五體投地了喲。

蹭熱點！說說我理解的手機包裝盒事件。

今早醒來刷頭條，發現大批米系自媒體鋪天蓋地發文嘲諷華為系自媒體，忍不住好奇瞭解了一下情況，原來是剛發佈的一加8 海外版手機的手機包裝盒上面印了一句話:with easy access to the Google apps you use most.而這句話也印在前段時間發佈的小

蘋果公司正式發佈iPhone SE二代手機

新品名為“iPhoneSE”，擁有跟iPhone 8相似的外觀，搭載了蘋果當前最新的A13仿生芯片，具備IP67級別防水防塵能力，配備4.7英寸LCD材質屏幕，支持原彩顯示，配備了Touch ID指紋識別。

華為河圖、麒麟芯片和鴻蒙OS三駕馬車並行？華為生態建設佈局深遠

至於受很多人關注的華為河圖全面落地問題，官方有消息稱，2020年第二季度會提供100個華為河圖測試點，測試點到第四季度會增加至1000個，測試覆蓋空間包括智慧園區、旅遊景點、高鐵站和機場等。

小米高管表示，四千毫安時 5G 手機，和三千多毫安時 4G 手機一樣

小米科技高管盧偉冰在近日表示，5G旗艦手機如果5G網絡全開，功耗會比4G手機高20%，4000mAh的5G手機大約等於4G手機的3200mAH；今年Redmi堅持把5G手機的容量控制在4500mAh以上，也是考慮到5G網絡耗電大的原因，今年很多5G智能手機均採用大電池的設計。

5G畫風變了：麒麟985落地首跑，榮耀坐上開往高端的「地鐵」

榮耀30Pro/30 Pro+同時搭載麒麟990 5G SoC，相應的其它配置更高：Wi-Fi6+，支持紅外遙控，USB 3.0 Type-C接口。

旗艦手機標配Wifi 6 換Wifi 6路由器的時機到了嗎？

現在，家庭寬帶都在500M左右，大部分手機也不支持Wifi6標準，換Wifi 6無線路由器有點早，因為換了Wifi 6無線路由器網速也不會變快。

2020年5G手機賣不動？繼蘋果砍單25%之後，華為小米紛紛跟砍？

都說蘋果手機賣不動了，可我看想買iPhone手機的人還是那麼多，不然之前蘋果公司怎麼會限購？數據顯示，3月份在國內的 iPhone 銷量比 2 月份激增 416%，達到約 250 萬部。

幹翻華為P40系列榮耀30也玩中

而今天的華為發佈會上，榮耀30、30 Pro、30 Pro +3個版本中、大、特大杯齊亮相，又一片全新5G SOC，麒麟985也要登場。

程序員辭互聯網工作，跨行傳統上市公司，上班第1天就蒙了

原來男子是從事互聯網工作，後面覺得是互聯網寒冬來了，就堅決辭去互聯網工作，跨行選擇了一個教育傳統上市公司，可是第1天上班就蒙了，公司讓做的活兒太死板了，沒有發揮空間，同事一點都不友善，領導不放權，而且管理線超級單一，氛圍一點都不一樣，所以想離職。

蘋果發佈新款iPhoneSE，3299元起售

北京時間4月15日晚，蘋果正式發佈了新款iPhone SE，搭載了A13仿生芯片，支持最新的iOS 13系統，支持 18W快充，也支持Qi無線充電。SE機型蘋果到目前為止只發布了兩款，這是iPhone產品體系裡小屏和低價的典型機器。

我很糾結：我究竟適不適合做亞馬遜電商？看了這三條你就知道了

請仔細閱讀，關於跨境電商你想知道的都在這兒

政府對於跨境電商行業的大力支持給咱們廣大跨境電商賣家吃了一顆“定心丸”。我們所做的跨境電商事業在一定程度上不再是為個人謀利益，而是成為了中國產品走向世界，為國家賺取外匯的主力軍。

騙子手段太“精明”：商家賠了貨物又賠款，亞馬遜平臺騙術大揭祕

在開始文章的乾貨分享之前，先給大家講一個商家被用戶勒索的案例。有一位朋友剛剛加入亞馬遜跨境電商平臺兩個多月，在這期間有位美國用戶在他店鋪裡面購買了一個毛巾架。

做跨境電商這麼多年，今天才知道給國外客戶發文件原來這麼簡單

做過跨境電商朋友肯定知道，很多國外客戶對於有些商品看不懂說明書，想索要商品使用視頻教程，畢竟視頻信息量大，容易理解和快速上手。

值得收藏！三類賣家三種選品方案，總有適合你的一個……

網上很多所謂的“大佬”喜歡吹噓用某某工具就可以迅速選品效率，迅速取得很高效率等等，其實這類人就是在賣軟件，收培訓費用…

萬萬沒想到！亞馬遜平臺上面賣床單竟營收一個億！你還在等什麼？

做店鋪這麼多年，今天才知道我的listing突然被封，竟是因為……

亞馬遜小白看過來！請採納這些：亞馬遜選品和運營的小建議

亞馬遜賣家如何爆單？跨境精細化運營攻略必看

不收保證金、入住費、年費，還免三個月佣金，我也想入駐這個平臺

咱們今天不說主打歐美市場的亞馬遜，只談一下以東南亞市場為主的Shopee。好多人都聽說過，但是沒有真正瞭解過，好多人想加入Shopee但是顧慮重重，今天我來給大家普及一下關於Shopee小秘密。

馬雲終於要辭職了，留下的話句句觸動人心

去年，在教師節這天，阿里巴巴集團創始人馬雲今天公開信宣佈：一年後的阿里巴巴20週年之際，即2019年9月10日，也就是今天，他將不再擔任集團董事局主席，卻留下句句觸動心靈的話！！

等等，明年5G手機將迎來大降價

11月26日下午，聯發科技（MediaTek）在深圳舉辦“聯發科技 5G方案發布暨全球合作伙伴大會”，正式發佈了全新的5G新芯片品牌——“天璣”，同時帶來了首款集成式旗艦級5G移動平臺——天璣1000。

微信公開課PRO版2019正在進行時，往屆各自都有什麼黑科技

微信公開課pro版2019，為期兩天微信大會正在廣州火熱進行中，本次會議主題為：同行WITHUS。微信這一款超級應用，已經深入到我們生活的方方面面，所以這48小時的未來盛宴必將吸引無數眼球。

推出「信任分」升級「閃購」，美團本地生活這盤棋有多大？

小海按：美團的超級App夢想更近了？Tech星球文 | 馬微冰陳橋輝頭圖 | IC Photo王興曾說，“太多人關注邊界，而不關注核心。”

5G我們超越了6G我們也將領先! 美國為什麼會害怕失去5G領導地位呢

而且在我們國內和美企中，有相當一部分覺得我們研發不了5G，更特說超越他們了。由於，我們在科技領域一直是，裝備一代，研發一代，探索一代。

界讀｜華為：幫助英國共渡疫情難關，無端批評令英國蒙受損失

前段時間，英國首相呼籲員工在家辦公的第二天，英國網絡就出現大面積崩潰現象，不僅無法正常上網，而且電話也不能打、短信也不能發，給用戶造成了很大的困擾。

為什麼華為今天可以傲視群雄，在世界上立於不敗之地？

為什麼華為今天可以傲視群雄，在世界上立於不敗之地？因為五年內沒有人能超過整個5G領域，所以美國人無法超越，為什麼？

血戰「在線辦公」，阿里、騰訊、字節、華為的底牌與大殺器

小海按：前端殺手級應用，後端雲服務，在線辦公「四小龍」之戰開啟。本來，在線辦公更多的是阿里巴巴的主場。

2020年最強拍照旗艦來了華為P40系列多項業界首創香！

原來華為P40Pro+在上一代P30 Pro潛望式鏡頭橫置長焦鏡頭模組和感光器件基礎之上，進一步採用全新的多反射潛望式光路摺疊技術，實現5次反射光路，光程比上一代潛望式長焦提升178%。

今天聊一聊直播

今天聊一聊直播突然談到這個話題，是因為後知後覺的我，突然發現幾乎所有大互聯網公司都進軍了網絡直播行業，或者正在準備進軍直播領域。

通過直播賺錢不容易，既要豁得出去，又要端得起來

今天咱們繼續聊一聊直播吧當下，像頭條、網易、百度等公司，看上去和直播八竿子打不著的公司，也開始涉足直播了。

AI和自動化技術聯手，最終會讓60%的工人失去現有的飯碗。

並非危言聳聽，AI和自動化結合，勢必會把數十億人類踢出勞動力市場，數量巨大的失業工人，將會構成一個規模龐大的新階級。AI最終會讓60%的工人失去現有的飯碗。

這個網還能不能好好上了？今日全球IPv4地址正式耗盡

長期以來，一直令人擔心的IPv4地址耗盡的問題，今天這一刻終於發生——所有43億個IPv4地址已分配完畢，這意味著沒有更多的IPv4地址可以分配給ISP和其他大型網絡基礎設施提供商。

12306系統不行？內行人告訴你它有多牛，阿里騰訊高手去了也膜拜

很多人認為12306系統很不好，之前我也是這麼認為的，因為我覺得像雙十一這麼大流量，阿里都能承受住，為什麼12306不行，這其實是誤解，12306擁有著神一般的架構設計，平時的壓力比淘寶大的多。

有內幕？美國防部授與微軟百億雲合同，亞馬遜不滿發起訴訟

據路透社消息，10月25日，美國防部將高達100億美元的十年期戰略合同授予微軟公司，這一舉動引起亞馬遜的不滿。

未來之芯--RISC-V總部從美國遷往瑞士，華為、阿里是其成員

北京時間26日消息，國際開源芯片技術組織RISC-V基金會週一宣佈，由於擔心美國的貿易限制，計劃將總部從美國特拉華州遷往瑞士。該基金會首席執行官卡利絲塔-雷蒙德（Calista Redmond）表示，希望確保美國以外的大學、政府和企業能夠幫助開發其開源技術。

神話還能繼續嗎？幾度過山車，比特幣半年來首次跌破7000美元

比特幣價格今年如同坐上過山車，年初的3000美元到最高13861.9美元，今天跌破7000美元，算是這半年來的最低點了。說起比特幣，給人印象最深刻的，莫過於2017年末到2018年初的暴漲了吧。

劉強東卸任後，突然宣佈一個“好消息”，讓馬雲措手不及！

蘋果的瘋狂其實從未停止，AirPower或將重新啟航

可是，蘋果事實上一直都在推動終端產品進入全面無線時代，所以他們是不太可能在真正意義上放棄這款產品。有外媒稱，蘋果目前正準備重新啟動AirPower項目。

曾保護近4億中國人的電腦，卻因得罪阿里、騰訊，慘遭市場淘汰

曾保護近4億中國人的電腦，卻因得罪阿里、騰訊，慘遭市場淘汰隨著網絡的不斷髮展，如何確保網絡信息安全成為人們十分重視的問題。

互聯網流量需求增大希臘民眾“宅生活”考驗網速

英國諮詢公司Tech4i2報告指出，在疫情期間，希臘的互聯網流量需求至少增長50%，但網速僅下降1.2%，而在大多數歐洲國家，網速平均下降了5%-7%。

互聯網科技企業，傳統辦公模式該走向何處?

　　紐約，處於美國疫情震中的城市，工作模式大多是使用公司發放的電腦進行遠程辦公，而在這之前，部分互聯網企業本來默認每週三為在家辦公日，所以大家對在線辦公可以說駕輕就熟。

微信又悄悄上線一新功能～網友卻開始擔心

備註後的群聊名稱僅自己可見往後再也不用為分清亂糟糟的微信群聊而困擾不過從目前來看只有iOS端上線了這一新功能安卓用戶還需要再等等並且此次更新為後臺更新無需到AppStore更新即可看到這個新功能該功能上線後網友們紛紛站隊但也有網友視野開闊擔心起另一件事對於微信新功能群備註你覺得實

正式確認！孫正義退出市值5959億阿里，20年與馬雲成就彼此

文：小娜說到孫正義這個名字，我們很多人都知道他是日本軟銀集團的創始人兼總裁，但他除此之外也有另外的身份，那就是阿里巴巴最大的董事之一。阿里之所以成為今天的阿里，與孫正義的投資是分不開的。當時，馬雲和孫正義僅僅交談了五分鐘，孫正義當即就決定投資阿里，而且一下就投資2000萬美元。

科技添柴“非接觸經濟”升溫

新華社記者王全超攝中國同拉美和加勒比國家舉行視頻工作會議，就新冠肺炎疫情防控開展交流。亞歷山大·培尼亞攝在中國科學技術大學附屬第一醫院，乘客用“無接觸電梯按鈕”操作電梯。

好像在哪見過？華為nova7官宣餘承東:何必只有一點點

全新iPhoneSE根據此前爆料，此次華為nova7系列將有nova7 SE、nova7和nova7 Pro三個版本，可能會採用“麒麟985+麒麟990”或“麒麟820+麒麟985+麒麟990”兩種芯片組合。

行業紅利、資本湧入，疫情後的在線教育聚師網如何“涅槃”

2018年，線下培訓機構受到了相關部門政策的影響，整體發展勢頭趨降，然而市場上對於教育的需求卻在不斷增加，於是，大量學員開始把需求放到了線上，其中，職業教育在這方面的變化尤其明顯。

數字貨幣真的來了？首吃螃蟹者傳出，碰一碰功能露臉

蘇州相城區政府相關人士對此未予置評，區金融局人士表示“不便答覆”，其他多個當地機關單位稱尚不知情，央行蘇州市中心支行表示“以總行口徑為準”，央行總行方面未予確認。新京報記者程維妙陳鵬編輯嶽彩周校對薛京寧

實例 | 200 SMART運動控制基本指令詳解

C_Dir:表示電機的當前方向信號狀態，0 = 正向 1 = 反向。 START:觸發開始發脈衝信號，必須要在運動軸空閒時發送一次信號，必須用邊沿觸發。

大數據給社會學研究帶來了什麼挑戰？

領取方法：

還是那個萬年不變的老規矩

1.評論文章，沒字數限制，一個字都行！

3.私信小編：“大數據開發教程”即可！

謝謝大家，祝大家學習愉快！（拿到教程後一定要好好學習，多練習哦!)

相關文章:

小米太無恥了。

蹭熱點！說說我理解的手機包裝盒事件。

蘋果公司正式發佈iPhone SE二代手機

華為河圖、麒麟芯片和鴻蒙OS三駕馬車並行？華為生態建設佈局深遠

小米高管表示，四千毫安時 5G 手機，和三千多毫安時 4G 手機一樣

5G畫風變了：麒麟985落地首跑，榮耀坐上開往高端的「地鐵」

旗艦手機標配Wifi 6 換Wifi 6路由器的時機到了嗎？

2020年5G手機賣不動？繼蘋果砍單25%之後，華為小米紛紛跟砍？

幹翻華為P40系列 榮耀30也玩中

程序員辭互聯網工作，跨行傳統上市公司，上班第1天就蒙了

蘋果發佈新款iPhoneSE，3299元起售

我很糾結：我究竟適不適合做亞馬遜電商？看了這三條你就知道了

請仔細閱讀，關於跨境電商你想知道的都在這兒

騙子手段太“精明”：商家賠了貨物又賠款，亞馬遜平臺騙術大揭祕

做跨境電商這麼多年，今天才知道給國外客戶發文件原來這麼簡單

值得收藏！三類賣家三種選品方案，總有適合你的一個……

萬萬沒想到！亞馬遜平臺上面賣床單竟營收一個億！你還在等什麼？

做店鋪這麼多年，今天才知道我的listing突然被封，竟是因為……

亞馬遜小白看過來！請採納這些：亞馬遜選品和運營的小建議

亞馬遜賣家如何爆單？跨境精細化運營攻略必看

不收保證金、入住費、年費，還免三個月佣金，我也想入駐這個平臺

馬雲終於要辭職了，留下的話句句觸動人心

等等，明年5G手機將迎來大降價

微信公開課PRO版2019正在進行時，往屆各自都有什麼黑科技

推出「信任分」升級「閃購」，美團本地生活這盤棋有多大？

5G我們超越了6G我們也將領先! 美國為什麼會害怕失去5G領導地位呢

界讀｜華為：幫助英國共渡疫情難關，無端批評令英國蒙受損失

為什麼華為今天可以傲視群雄，在世界上立於不敗之地？

血戰「在線辦公」，阿里、騰訊、字節、華為的底牌與大殺器

2020年最強拍照旗艦來了 華為P40系列多項業界首創 香！

今天聊一聊直播

通過直播賺錢不容易，既要豁得出去，又要端得起來

AI和自動化技術聯手，最終會讓60%的工人失去現有的飯碗。

這個網還能不能好好上了？今日全球IPv4地址正式耗盡

12306系統不行？內行人告訴你它有多牛，阿里騰訊高手去了也膜拜

有內幕？美國防部授與微軟百億雲合同，亞馬遜不滿發起訴訟

未來之芯--RISC-V總部從美國遷往瑞士，華為、阿里是其成員

神話還能繼續嗎？幾度過山車，比特幣半年來首次跌破7000美元

劉強東卸任後，突然宣佈一個“好消息”，讓馬雲措手不及！

蘋果的瘋狂其實從未停止，AirPower或將重新啟航

曾保護近4億中國人的電腦，卻因得罪阿里、騰訊，慘遭市場淘汰

互聯網流量需求增大 希臘民眾“宅生活”考驗網速

互聯網科技企業，傳統辦公模式該走向何處?

微信又悄悄上線一新功能～網友卻開始擔心

正式確認！孫正義退出市值5959億阿里，20年與馬雲成就彼此

科技添柴“非接觸經濟”升溫

好像在哪見過？華為nova7官宣 餘承東:何必只有一點點

行業紅利、資本湧入，疫情後的在線教育聚師網如何“涅槃”

數字貨幣真的來了？首吃螃蟹者傳出，碰一碰功能露臉

實例 | 200 SMART運動控制基本指令詳解

為啥路燈不裝漏電保護器，電死人怎麼辦？

今年的疫情對果農有多大的影響？

出租車司機面對疫情怎麼辦，停工份子錢如何解決？

怎麼才能讓糧食豐產豐收？如何有一個穩定價高的糧食收購渠道？

Alan巔峰賽遇演員，對噴一整局，稱Alan不配玩橘右京，estar是野雞戰隊，你有何看法？

母豬如何保健，多久保健一次？

到處封路養殖戶怎麼辦？

空氣開關C型與D型如何選擇？

我有個女同事已35歲了，至今未婚，別人著急，但她不著急，說結婚不將就，你怎麼看？

小區物業究竟有沒有合法權力拒絕非業主人員的進入？

請問一下，疫情還要持續多久，才可以上班？

受新型冠狀病毒疫情影響，2020年留在農村發展，該做什麼產業好？

這場疫情過去以後，你想明白了什麼？

假設疫情結束了，你今後會如何看待萬事萬物呢？包括生命？

中國的散養戶未來怎麼發展，家庭農場是一個好的形式嗎？

老公26歲不求上進，守著一份月收入五千的工作，有房貸，還要養孩子，你會怎麼做？

有人說“社會現實，有錢說話才有底氣，有錢處世才硬氣”你怎麼看？

疫情期間，大家都是怎麼工作的？

男的單身可以理解，為什麼女的還單身那麼多？

若將普通高中的最差生送到衡水中學學習，能考上北大清華嗎？

現在種地好還是不種地好？

呼和浩特市區玉泉區有那幾所小學？

早上看到中央一號文件又提出了鼓勵農村三農發展，有什麼可以做的？

幹翻華為P40系列榮耀30也玩中

2020年最強拍照旗艦來了華為P40系列多項業界首創香！

互聯網流量需求增大希臘民眾“宅生活”考驗網速

好像在哪見過？華為nova7官宣餘承東:何必只有一點點