大數據給社會學研究帶來了什麼挑戰?

今天跟大家分享我的研究成果,我對大數據的觀察,不是掃盲。為了讓大家聽起來儘量沒有障礙,也加入了一些知識性的東西,因此,也是和各位交流。我想和大家討論三個問題:


第一,什麼是大數據?人們說的很多,錯誤的概念也非常多,我想澄清大數據是什麼?


第二,大數據和社會學研究到底有沒有關係?對這個問題,人們也有比較多的想法,同樣也有很多誤解,我要說說我的觀點。


第三,重點談一談,大數據對社會學研究的重點帶來什麼挑戰?大數據帶來的挑戰特別多,對社會學研究而言,到底有什麼樣的挑戰呢?


01. 什麼是大數據?


首先討論大數據到底是什麼?


大家聽的很多,瞭解的卻不是特別系統和具體。對社會學家而言,最熟悉的是社會活動。我稱之為人類活動的造痕。人類的任何活動都會留下痕跡。考古學研究在各地挖墓,挖各種各樣的東西,那些東西都是人類社會生活留下的痕跡,我們拿它作為證據,探討當時的社會生活。歷史中,人類社會生活留下的痕跡絕大多數都消失了,挖出來的墓,在整個人類墓地的億分位數都不到。因此,如果你說你掌握了過去人類社會的多少痕跡,我覺得千萬不能大膽講,是因為你真的不知道你到底掌握了多少。


我舉一個例子,譬如周原。我有一個博士生,我讓他回答一個簡單卻不不能簡單回答問題:中國的村莊為什麼三千年不散,如今卻突然就散了?在過去三千年裡,村莊始終是人類社會生活、人類聚集生活的一個狀態。我希望他藉助考古數據來做。北京大學考古學文博學院一直在探索陝西省的周原遺址。周原,過去三千年來一直有很多村莊,如今依然還是村莊狀態,但很快就會消失。三千年來,村莊生活留下了痕跡。能夠保留下來的痕跡,通常被稱之為證據。考古學、歷史學都用證據,社會學也用證據。社會科學其實都用證據。這些證據,通常也被稱為數據。不僅考古發現是人類活動的數據,歷史檔案也是人類活動的數據,譬如人口普查。不少人以為是美國人發明創造了人口普查,其實不是。中國在兩千多年前“廢井田、開阡陌”開始登記人口了。在兩千多年的行政歷史裡,戶口登記是一項重要的、涉及眾多公共事務的制度。


數據既然很早以前就有了,怎麼就冒出來大數據了呢?


一個簡單的回答是,實時地網絡化彙集、網絡化存儲和網絡化運用人類行為的痕跡,這才構成了大數據。


什麼叫大?麥肯錫從行業和業務和價值鏈的角度給了一個定義,說大數據是生產力的來源。如今,各行各業都在講“互聯網+”,“互聯網+”背後有一個非常重要的概念大家可能容易忽略,叫“數據驅動”。在社會學研究中,過去,我們很熟悉“理論驅動”;現在,數據驅動已經變成了非常重要的概念了。


麥肯錫定義的關鍵點叫消費者盈餘浪潮。過去,我們從石油裡找財富,後來從機器裡找財富,再後來從其它東西里找財富,現在可以從數據裡來找財富了。


其實,業界流傳的故事說,“大數據”概念是從IBM來的。從學術研究的立場出發,可以對大數據概念的出處存疑。不過,IBM的確用4個維度給大數據概念下了一個明確的定義:數量(volume)、形態(variety)、價值(value)、速度(velocity)。我認為,這是從數據出發的定義。


學術研究通常要按照學科規訓理解,我也按自己的方式來理解,我給大數據概念一個定義:痕跡數據彙集、存儲和運用的並行化、在線化、生活化和社會化。前面我之所以交代痕跡數據,希望說明的是,數據從來不缺。大數據是把過去數據的彙集、保存、利用方式做了一個很大的改變。不能說顛覆,現在顛覆為時太早,但它的改變確實非常重大。


彙集、存儲和運用的並行化是一個計算機和網絡科學的概念。什麼叫並行?其實很簡單,北京四環上的四條車道同時跑車就叫並行,如果只有一條車道跑,就不叫並行,叫串行。並行,指同時運行2個或多個線程。在計算機學科裡叫線程,在交通學科裡叫車道。


在線化也是一個計算機和網絡科學的概念,指始終在網絡上,數據的彙集、存儲和運用都是在線狀態。社會學的人都知道組織結構的科層制特徵。可是網絡裡的組織結構則不同,總體上看起來是科層制的,實際運行卻是網絡狀的,且不同的網絡結構混雜在一起。在線化意味著數據的彙集、存儲和運用,都在混亂結構的網絡上。


生活化則是一個社會學的科學概念,是說數據的彙集、存儲和運用已經滲透到了社會生活的方方面面,無處不在、無時不在。不僅生產活動在彙集、存儲和運用數據,如企業產品生產、商店產品銷售;生活活動也在彙集、存儲和運用數據,如大家日常生活對計算機、手機、網絡、家用電器的使用等。


社會化也是一個社會學的科學概念,指社會的大多數成員都參與了數據的彙集、存儲和運用。系統和科學地蒐集數據,是社會學的專長之一。過去,都是由機構去搜集、科學家去搜集。如今,每個人都是數據提供者、存儲者,同時也是數據的運用者。譬如導航,你在運用道路數據的同時,也在提供和存儲道路數據。


不過,理解痕跡數據彙集、存儲和運用並行化、在線化、生活化和社會化的前提是理解IBM概念的4V。下面,我先沿著IBM的4V概念做一個簡單的說明,讓各位對大數據在外觀上有一個感知。


首先是量。大數據指其超出了任何個人在可接受的時間和範圍內彙集、存儲和運用數據的能力。我給大家一個基本概念,2012年,單一數據集已經從兆級(MB),躍升到TB級,從MB到TB,中間還有GB。如果談大數據,至少是PB級數據。任何個人計算機、小型服務器、大型服務器,沒有單機可以處理PB級數據。為彙集、存儲和運用數據,並行化和在線化是其目前的解決方案。


在進一步討論前,普及一下信息計量單位。字節(bytes)是基本計量單位,相當於貨幣裡的一分錢,每滿1024個單位,向上提升一級,上一級為KB,之後有MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB等,簡單地說,以2的10次方晉級。


從直立行走到2013年,整個人類積累的可利用數據量大約為5EB,可2013年生產的數據量卻達到了800個EB。據統計,全球90%的數據是在過去兩年生產的,其中社交網絡、傳感器、科研、金融都在產生越來越多的數據,幾乎是每兩年數據量翻一番。


其次是形態。傳統的調查數據通常是結構化數據。結構化數據也是一個計算科學的術語。如果熟悉SPSS,就比較容易理解,通常可以形式化為一個二維表,第一行是變量(又叫字段),從第二行開始到結束,就是每一個變量的案例值,形成了一個規整的變量值矩陣。熟悉調查數據的都知道,如果一個值沒有對應的變量,就麻煩了,沒辦法處理了。結構化的特點就是這樣。


大數據不是結構化數據,是混合形態的數據。什麼叫做混合形態數據?指既有結構化數據,也有其他形態的數據。結構化的數據指各類結構化的數據庫表,工業計算和科學計算常見的都是結構化數據,像甲骨文和ERP都有自己的結構庫表,隨時可以通過輸入字段查詢,比如說在北京大學要找人,找郭志剛,依據結構庫表的約定,輸入郭志剛三個字的首字母馬上可以定位到郭志剛。邏輯是,在姓名字段裡給了兩個值,一個值是郭志剛的漢字,一個值就是郭志剛的漢語拼音首字母縮寫,也許GZG三個字母對應很多人名字,其中一定有郭志剛,這是結構化的。


大數據不完全是結構化的,有一部分是結構化的,如姓名、帳號、存款餘額、消費記錄等等,但大多數是非結構化的數據,比如說日誌,查了幾回,刷了幾次卡,每次在哪裡刷的,不是結構化的,刷了多少錢卻是結構化的,刷了幾次不是。每一位用戶都有使用日誌,有的還有音頻,比如說微信中的語音,音頻數據不是結構化的,圖片不是結構化的。用戶應用活動的很多數據都是非結構化,這就讓數據變成了混合形態,這是不同於傳統數據的非常重要的區別。


接下來,從商業視角來看數據的價值。傳統的數據通常是分析目標導向的數據,有非常明確的價值取向。譬如我做中國家庭跟蹤調查(CFPS),非常明確,蒐集與人類社會生活、未來成就、幸福相關聯的各種變量數據,有非常明確的價值指向。


大數據是記錄導向的,是一個顛倒。大數據是為了技術活動、獲得人類社會活動的痕跡而記錄數據,獲得是造痕者留下的並行數據(paradata);不是為了解釋某個現象、分析某個結果來記數據。在數據獲取上,這又一個非常重要的變化。


影響的這個變化的因素,第一是記錄的便捷化,無需研究者花錢花資源去搜集數據,每一個用戶自己就主動提供了數據。第二是存儲的便宜,存儲的價格在過去的一段時間裡呈指數曲線下降。


正因為大數據不是有目的的測量,而是造痕者留下的痕跡,因此,它的價值密度與社會學的調查數據比較便低得多。如果希望用大數據來證明什麼,就需要從數據中去挖、去發現,而不是用假設檢驗的方式來檢驗。跟傳統的調查數據比較,其基本的出發點是有區別的。通常認為,大數據價值密度比較低,從商業角度來看,的確如此;從學術角度,卻不一定。


最後,非常重要的特徵是速度。傳統的數據,從設計、調查、清理到可用需要相當長的時間。舉一個例子,1887-1890年,赫爾曼·霍爾瑞斯為統計1890年人口普查的數據,發明了讀卡機,把原本需要8年人口普查活動用一年的時間完成了。再譬如CFPS,發動了幾百位訪員,用計算機採集數據,從調查結束到可用也用大概2年的時間,其中數據清理的時間非常長。


大數據,那麼大的量,怎麼處理?這是非常大的挑戰。此外,大數據不同於傳統數據的另一個特點是沒有數據概念,只有“數據流”概念。這是社會學研究需要換腦子的關鍵點。什麼意思呢?數據每時每刻都在產生、記錄,沒有一個時間節點的數據是完整的數據,因為,它根本就不是以完整數據為目的的數據,每時每刻都有數據可用,也都有它的約束性。其中的一個約束性是,它不是針對具體研究問題的可用數據。如果要研究一個問題,可以截一段數據出來,卻不是馬上就可用的數據,而是可以挖掘的數據。


不管大數據有什麼樣的特徵,本質上,它還是數據,是人類社會生活包括私秘生活留下痕跡的數據化。痕跡數據變成大數據有一些條件。第一個條件是行為的監測化,一旦造痕者的行為與數字化設備關聯在一起,就具有了可檢測性,比如說銀行數據、社交數據、健康數據、家居數據等等。很多人喜歡戴手環,手環就是一個監測設備。如果你有什麼自己不願意讓人知道的行為,建議你最好把手環摘掉。手環,不僅可以監測你的身體參數,也可以記錄你活動的地理位置參數。


第二個條件是監測和檢測的網絡化。如果只是局部監測,問題不大,天知、地知、你知、我知而已。一旦監測設備具有網絡功能,監測活動便讓任何造痕活動變成了網絡活動,甚至是在你不知情的前提下。比如說手機,現在每個人都在用智能手機,你們把設備上的位置選項打開看一看,默認狀態是開啟的。你說不願意讓自己的活動便成網絡活動,問題是設備的功能你不一定完全瞭解,它可能隨時隨地都在把你的活動便成網絡活動,監測的網絡化就是社會活動的網絡化過程,也是這個世界的連通過程,一個典型的例子是微信的朋友圈。


第三個條件是網絡的數據化。如果僅僅是造痕活動的網絡化倒也罷了,最多是知曉範圍的擴大。問題是,網絡化的過程也是數據化的過程。造痕活動的網絡化首先是活動的數據化,其次是活動數據的網絡化。單個節點的數據,常常不具有社會意義,節點數據的匯流便讓造痕活動具有了社會意義。比如說,某個老師每週到辦公室來兩次,根據GPS信息,可以知道他什麼時間到,什麼時候離開,中間離開幾次。如果這個老師有一個特別去處,每週固定的時間都要去。作為同事,我不知道,可手機運營商完全瞭解。依據也是這個老師手機提供的位置數據。當把所有人的位置數據彙集起來,可以知道的事情就多了。不僅可以知道有多少人有特別的去處,也可以知道每個的生活習慣、工作習慣、身體狀態等等。


大數據其實與人類的社會行為相伴隨,與網絡同在,與社會一體。我想,從社會的視角來看,這就是大數據。


簡單歸納一下,大數據,形態是數字化的、非結構化的、在線的、流動的數據;容量都在PB級以上,是單個計算設備無法處理的數據;來源,不是專門蒐集的數據,而是與行為相伴生的、通過傳感器、設備獲取的數據、通過網絡彙集的數據;不過,並非系統、也非完整的數據。


對社會學而言,大數據是一種新的研究數據來源,一種永不停歇流動的數據,目前還不是對過去其他來源數據的全面替代。


我給大家幾個例子,大家瞭解、體驗一下什麼是大數據。


2014年雙十一。阿里自己造了一個雲,叫ODPS雲,這個雲和世界上其他雲不一樣,用幾十萬臺個人電腦陣列,運行著自己的系統,在6個小時內處理100PB數據,相當於處理一億部高清電影。在零點以後,支撐了每一秒有7萬瞬時訂單,讓5萬個人同時搶1千件商品不超賣;3分鐘成交額10億人民幣,不出任何差錯;在570多億交易中,支持了243億的交易額在手機上完成,產生了2.78億個物流訂單;全球有217個國家和地區加入交易。這些事情如果不瞭解的,甚至都不敢想象,而且都是智能化的。


阿里還造了一個數據系統,叫聚石塔。這個聚石塔幹什麼呢?直接管訂單,2013年的雙十一隻有75%的訂單聚石塔上處理,沒有丟單;2014年處理的比例上升到95%;2015年的雙十一,估計全部都在這上面。


所有這些活動,都在實時發生,也在實時處理。發生的便成了數據,處理的也是數據。流動著的數據量,是傳統社會學想象不到的量級。能夠完成這些功過的就是計算能力,這個能力是人類在兩年前都無法想象的。


02. 大數據和社會學研究有關係麼?


接下來討論大數據和社會學研究有沒有關係?我的觀點是:有關係,目前還沒那麼緊迫。


咱們都是社會學的老師和學生,卻常常“只緣身在此山中”,忘記了社會學基本範式的差別。為理解大數據與社會學研究的關係,需要簡要回顧社會學的基本範式,然後再說明,如果大數據與社會學研究有關係,那麼,與什麼範式、有怎樣的關係。


在社會學的想象力下,我把社會學的基本範式分成三大類,與傳統區分的實證、詮釋、批判,不大相同,純粹是為了敘述的方便。第一類,我叫做思辨的社會學,比如說帕森斯(T. Parsons)的宏大社會系統,甚至福柯(M. Foucault)的多種理論,甚至吉登斯(A. Giddens)的社會結構理論等。這部分社會學大家,都是從概念到概念的思辨,基本上可以完全隔絕數據。再譬如布迪厄(P. Bourdieu),早年做教育社會學研究時用數據,後來也不怎麼用數據了,抽象了,思辨了。


第二類,我稱之為詮釋的社會學,從胡塞爾(E. G. A. Husserl)以降,舒茨(A.Schutz),甚至到格拉霍夫(R. Grathoff),這些人都圍繞意義在做研究。對他們來講,一個現象本身的代表性是沒有意義的,他們觀察的是一個現象本身,要闡釋這個現象的意義,他們認為的意義。他們也可以不用數據。不過,我認為對意義的挖掘也會面對意義社會性的挑戰。


第三類,我叫做實證的社會學,源於法國年鑑學派和美國社會學對帕森斯的反動。在第二次世界大戰以後,獲得了空前的發展。如果要在實證社會學與前兩類之間進行區分,很簡單,有沒有假設檢驗是一個關鍵特徵。實證社會學強調假設檢驗,強調用經驗事實檢驗理論假設。由於在檢驗中要使用數據和統計方法,也因此被貼上了“定性”或“定量”的標籤。


大數據與社會學關係最密切的是最後一類。實證社會學離不開數據,不管是什麼類型的數據,什麼形態的數據。剛才說,實證社會學在二戰以後有一個大發展,大家可以看一個趨勢。我用了兩份文獻,一份是普萊特的一部著作[1],她對美國社會學三份主流期刊(ASR, AJS, Social Force)的研究顯示,1915-1924年期間,35%的研究用個案,53%的用統計;1955-1964年期間,用個案的下降至18%,用統計的上升到76%,其中ASR和AJS基本上排除了純粹的社會理論文章,只要涉及社會事實的,都要有數據,不管是什麼形態的數據。一份是中國的文獻,北大社會學系的林彬教授和他碩士研究生王文韜的研究顯示,2000年,實證化的趨勢在迅速加強[2]。現在的《社會學研究》沒有證據的文章基本上發不出來。


對經驗事實的刻畫需要測量,對理論假設的檢驗需要測量數據,實證和數據密切地關聯在一起,實證研究需要數據。可是,當我們對數據本身進行系統考察時卻發現,數據並非因研究需要而產生。我的觀察和探討顯示,數據最早源於管理活動的需要,後來慢慢地滲透到了社會科學的研究,直接影響了實證社會學的研究。


實證社會學過去的研究數據主要來自於調查活動。二戰以後,密西根大學建立了社會研究院(ISR),調查數據開始逐步成為社會學研究的基礎設施。在運用調查數據進行社會學研究的發展中,還有過一場辯論。基什(L. Kish)認為,與其花很多的錢進行人口普查,不如花少量的經費進行抽樣調查。基什把自己對抽樣調查的思考和想象,在世界各地傳播,他也到過北京大學,我記得是1990年代中期,專門在北京大學講了一週的抽樣調查,我學了整整一週。


調查數據還是社會學家手裡的一類資源、一種權力。在大數據之前的數據,主要有三個來源,分別代表了三種資源和三個群體中手中的權力。第一是行政數據,各個政府掌握了身份數據,流動數據,登記數據、家庭數據等等。第二是商業數據,譬如過去幾百年的金融數據,都在商業公司手裡。社會科學家到20世紀30年代才認識到數據的重要性,開始找數據、調查數據、運用數據,在蒐集和運用數據的經歷中,也認識到數據是研究者手中的資源,是讓社會學聲音具有獨立性的支持力量。進而,與行政數據和商業數據一起,形成了三角鼎立之勢。


大數據是痕跡數據一種,與實證社會學研究有非常密切的關係。哥德爾和梅西2014年的文章認為,數據腳印是社會學研究的挑戰,同時也是機會[3]。有興趣的可以找來讀一讀。我則認為,總體來講,大數據的確給社會學研究帶來了挑戰,不過,現在還沒有直接構成威脅。到底帶來了什麼樣的挑戰呢?接下來,我們做一些討論。


03. 大數據給社會學研究帶來了什麼挑戰?


一、還需要做調查麼?


我想,人們有興趣的第一個問題是,還需要做調查嗎?數據來源於問題。的確,大數據無需調查,只需選擇。數據調查是有目的、有研究假設的數據蒐集和研究活動。對於大數據而言,沒有任何人做研究假設,也沒有任何人有能力做大數據的研究假設。在這個意義上,與調查數據關注如何蒐集數據不同;對大數據,對研究而言,關注的是如何應用數據。


前面討論過大數據的特徵,使得個體研究者不具備接觸大數據的機會。對大數據的應用,現在主要是機構性的應用,尤其是商業機構,商業結構站到了第一線,阿里巴巴的大數據應用在世界範圍內也是一流的。阿里有人曾經在一個內部會議上說,如果不顧及中國,不呆在中國這塊土地上,完全可以把中國的銀行淹死掉。為什麼呢?阿里手裡有超過四億消費者的金融信息,他知道誰要買什麼,怎麼買,花多少錢,大概什麼時間段買。


與商業應用不同,學術研究還沒有走到PB級數據的臺階。如果有誰告訴你說他在用大數據做研究,你先問問多大的數據量。一個問題,你就知道他是不是用大數據在做研究。對大數據,社會學家們既然沒有可及性,或許也沒有相應的技能,還能幹什麼呢?就我所知,自稱在用大數據的,通常是大數據中的數據。社會學家不是像網絡科學家和計算科學家那樣,把建好的模型直接放到網絡上運行,譬如百度導航的交通狀況;而是從大數據中截取了一段數據在做研究,是大數據的一個小樣本。即使如此,也與傳統的調查有了很大的區別。我們依然可以把這樣的數據看作是調查數據,不過,有諸多的不一樣。“訪員”,傳統的調查數據是訪員詢問受訪對象,蒐集數據;現在沒有訪員了,而是讓機器自己彙集數據,研究者直接挑數據。


我給幾個例子。第一個是哈佛大學金教授(Gary King)及其同事做的一項研究[4]。他們用社交媒體的數據來觀察中國的沉默表達。數據從哪兒來呢?用網絡爬蟲直接從不同網站爬數據,獲得了1382個社交媒體網的數據。這項研究的影響還是很大的。


接下來,是我做得一項研究。2012-2013年,我跟淘寶做了一個好玩的研究,沒有寫文章,有一份很有趣的報告。淘寶希望瞭解店家的成長可能性,譬如年銷售額10元的是不是可能做到100萬,我希望瞭解誰在開網店[5]。我們從600萬個淘寶店家數據中抽取6萬個店家。從大數據中提取了6萬個店家的交易數據,還對6萬個店家進行了網絡問卷調查。我得到的結論是:居住在沿海、城鎮、年輕、中高學歷、家境殷實、價值觀居中的人在開網店。一年換三分之一的店家,能夠堅持乾的人,是用淘寶來謀生的人。在所有店家中,三分之一玩票,三分之一投機,三分之一謀生。


第三個例子,是我指導並參與的一項研究,通過分析並行數據,我們發現一個調查行為:臆答[6]。什麼叫臆答?臆答指,調查員找到了受訪對象,並且跟受訪對象聊了半天,不過,不是按照訪問規程詢問和填答,而是根據閒聊獲得的信息,憑藉自己的猜想代替受訪者填問卷。這種填答作弊的方式,在傳統的調查質量控制中是發現不了的。並行數據對訪問行為的記錄,讓研究者有機會在訪問行為數據挖掘中獲得一種快答模式,通過對訪員的詢問,才獲取了臆答作弊模式。


這三個例子都說明,即便是大數據中的數據,對社會學研究而言也是重要的。


二、大數據來自哪裡?


如果想做研究,從哪裡可以獲得大數據的數據呢?要回答這個問題,我們首先需要知道大數據到底來自於哪裡?


第一個是傳感器(Radio Frequency Identification, RTID)。2005年大約是1.31億個,2010年增加到了30億個。總數是多少,不知道?因為,傳感器的用途越來越廣泛。什麼叫傳感器呢?馬路邊上的各類探頭,剛才講到的手環、手錶、手機、電腦、汽車、空調、電飯煲、插座、燈等,只要是器具,都可以變成傳感器,任何可以做數據監測、整合、傳輸的工具都是傳感器。不過,它的基本原理來自於射頻原理,所以叫射頻傳感器。


第二個是互聯網。根據不同來源的數據,我們瞭解到谷歌每天要處理大概24PB的數據,百度每天新增10TB數據,處理100PB。


第三個是社交網絡,像Facebook每天要23TB,推特每天7TB,騰訊每天大概增加200-300TB,數據總量大概100PB。


第四個是電信。中國移動產生10TB以上的話單數據、30TB以上的日誌和100TB以上的信令數據。其中,話單是結構化數據,有姓名、接入基站、通話時間、計費等,是結構化的數據。但日誌不是,日誌是非結構化數據。信令也是非結構化數據。


第五個是金融。每一個交易週期,紐交所捕獲的數據量只有1TB,沒有很大的數據量。


第六個是網絡銷售。淘寶每日訂單量大概1000萬,阿里巴巴已經積累的數據超過100PB。


第七個是科研。比如說,歐洲核子研究中心強子對撞機每秒產生大約40TB數據。


第八個是政府。美國政府大概擁有800PB以上數據。在美國,除了商業公司,美國政府大概是第二位擁有海量數據的數據源。


分行業的列舉,只是希望給各位一個印象,從比較中認識到,與傳統的三角鼎立之勢比較,在大數據時代,科學研究,尤其是社會科學的數據量是非常可憐的,你想找一個PB級數據的機構都找不到,幾乎沒有。要找一個PB級的社會學研究數據,我估計你在全世界都找不著。


為進一步讓各位瞭解數據的來源,給大家兩個圖示。第一幅是一分鐘在因特網上有多少事(what happens in an internet minute),第二幅是一天的每一分鐘互聯網上人們做什麼(every minute of the day)。兩幅圖,大家在網上都可以找到。給大家舉一個例子,比如說蘋果,一分鐘會有4.8萬個APP被下載,你就知道數據量有多大了。


大數據給社會學研究帶來了什麼挑戰?

圖1 “what happens in an internet minute”

大數據給社會學研究帶來了什麼挑戰?

圖2 “every minute of the day”


三、大數據的挑戰到底在哪裡?


我的觀點是,大數據對於調查數據的挑戰取決於它對調查數據的替代程度和擴展程度。


常用的調查數據,是小數據。大數據跟它有交集,現在問題在哪裡呢?這兩個數據都是可用的研究數據。對於社會學研究而言,至少是現在,我們用大數據的機會非常小,我們沒有大數據。好在,我們還有小數據。接下來的問題是,兩個數據的交集重疊的部分會怎樣發展變化(參見圖3)。如果調查數據完全被取代,則社會學研究的技能包括思想便需要重來,這將是最大的挑戰。否則,社會學研究還可以依據小數據繼續發展。


大數據給社會學研究帶來了什麼挑戰?

圖3 大數據、小數據與研究數據的關係


大數據對小數據的替代取決於兩個因素,一個是傳感器的應用,一個是算法技術的發展,兩者的發展都會直接影響社會學未來的發展走向。


對於調查數據而言,譬如人口普查、民意調查、社會調查、健康調查等等。這些調查通常用於什麼呢?對個體,用於研究人的行為、健康、教育、成就、幸福,大概就是這些事;對群體,用於研究群體的行為、結構和動態;對社會,研究社會的狀態、結構和動態。大數據對社會學研究的影響在於,大數據有沒有可能替代調查數據用於我們要研究的內容。


那麼,大數據可以用於什麼研究呢?譬如社交網是人的基本人情網絡或人際網絡;然後生活網,買東西,賣東西,刷卡;工作網絡,每天上地鐵,上班,在辦公室面用電腦;還有健康網,大家手裡戴的手環,等等。貌似個體和群體的數據都在了,只是這些數據現在都在商業公司手裡,不在研究者手裡;而且,只要不與商業公司發展利益衝突,商業公司也不在意學者們在說什麼。還有,這些數據還沒有互聯互通,如果互聯互通,商業公司的力量將更大。萬物皆比特[7],數據就在那裡了,只是看怎麼用、誰在用,最重要的是,社會學家們有沒有機會和能力利用這些數據。


未來社會學研究對數據的利用,除了取決於機會和能力,還取決於數據化覆蓋的範圍。如教育,在線教育,大家現在可能還沒有感受到危機,坦率地說,危機已經在我們身邊了,各種內容產業的興起就是對教育潛移默化的挑戰。


如健康。未來的健康將是完全數據化的健康。中醫,過去是望聞問切、號脈,現在中醫也依靠檢測設備,也依賴數據了,西醫的檢查數據,中醫一樣要看,看完了中醫給另外一個解釋,不是西醫的解釋。從穿戴式設備到專業社會,都在把人類的健康狀態數據化,不少商業公司都在這個領域努力,包括互聯網巨頭們。


如物聯網。什麼叫物聯網?大家不要誤會了,以為是物流。物流不是物聯網,物流傳遞叫物流網。物聯網指器物之間的連接與互動。謝老師手裡拿著手機,說我馬上要回家了,把家裡的空調打開,手機上有空調的應用,按一下,通過網絡,指令就傳到了家裡的空調上。萬物之間的連接和互動,就是物聯網,是未來社會社會生活非常重要的一個領域,也是非常大的一個領域。


其中一個,就是無人機。無人機應用已經非常廣泛,從軍事到民用已經非常普及了,最近有幾個小夥子在深圳搞了一個四翼無人機,是做拍攝的。其實,不止做拍攝,什麼都可以做,有一部電影大家可以看一下,是一個真實故事,講在美國佛羅里達有一個軍事基地,在這個基地裡面駐紮著一批無人機空軍。他們幹什麼呢?像運用遊戲操縱桿一樣,操縱無人機。在阿富汗、也門,實施精準轟炸。裡面有一個鏡頭很有意思,裡面有一個阿富汗塔利班成員,那人是一個獨狼,經常幹壞事。他隔段時間會跑到一個人家裡強姦女人。操縱無人機的上校第一次在屏幕上看到時很鬱悶;第二次,也放了他;第三次,他預估這個人又要實施強姦了,便他對操作員們說,沒事了,你們休息吧。他一個人操作三臺機器,把這個人幹掉了。


操作無人機,運用的就是物聯網。社會學研究通常只關注社會的邏輯,不關注器物之間的邏輯,可如果不瞭解器物之間的邏輯,未來我們就無法理解社會,這也是對社會學研究非常嚴峻的挑戰。


如硬件,智能硬件。任何硬件都有它的智能特徵,只要可計算,背後都帶著智慧。智能空調是硬件,無人機也是硬件。社會學家們無需像計算、網絡、工程學家們那樣精通硬件,可也不能不瞭解背後的互動邏輯。


如工程。現在很多工程都不用人幹了,直接用數據來幹了。舉一個例子,比如說手術,過去的手術都是靠醫生操作的精準度;現在,手術的一半要藉助儀器,未來可能完全用機器人了。比如說切半頁肺,病人躺在手術床上,馬上開始3D掃描,把所有數據輸入計算機網絡,大數據開始調集所有相關案例數據,醫生輸入一個參數,如病灶在什麼地方,從哪兒切到哪兒,機器人便開始操作,把你胸打開一個口子,直接把東西切完,止血之後,把打開的口子縫上,手術就完成了,就這麼簡單。


建築工程也一樣。大家看到,越來越多的智能工程機械在從事建築活動。


製造也一樣。中國製造2025的目標就是智慧製造。大家千萬不要想象著,那只是製造業升級,不是,那是用智能替代人的一個過程。


還有農業。我剛大學畢業的時候在農場工作,每年有三個月時間需要飛機撒農藥,我在飛機上幹了兩年,每年幹一兩個月。幹什麼呢?幫助飛行員撒農藥。飛行員說,你打開閥門,我就打開閥門。農用飛機,機艙溫度高達40多度,熱的要死。現在,都是無人機。無人機一航拍,說產量怎麼樣,什麼地方有蟲災,什麼地方有病災,該怎麼撒農藥和施肥,清清楚楚,農業也完全改變了。這不是簡單的互聯網,而是多種科學數據的聯合應用,背後都是數據之間的邏輯。


再說金融。大家最有興趣,昨天股票跳水將近7%。其實,誰知道股票會跳水,上交所和深交所的人都知道,證監會也知道。事先他們都知道,只是鑑於交易規則不便透露而已。


簡單地說,大數據在社會生活中的滲透是完全徹底的。回到第一個問題,還要不要調查的問題,除了前面分析的交集的面積大小、大數據對小數據的替代以外,還有兩個兩個概念,分享一下。


第一個是“轉換”,轉換數據、轉換思維。數據來源完全變了,不是要你去調查,或者說,需要調查的越來越少。社會學家們掌握在手裡的資源越來越少了,由資源帶來的權力也越來越小了,我們不得不轉化思維,學習與有資源的行動者合作;不得不轉換技能,學習如何利用大數據。


第二個是“替代”。數據的來源完全變了,有可能未來完全不需要做大規模調查了,可能個別小事情需要做調查,調查的重要性會越來越下降將是一個大趨勢。社會學家作為一個科學群體可能會像社會學家曾經掌握的數據一樣,被其他學科所替代。社會學原本就是回應工業時代的需要產生的學科,一個時代結束,或許一個學科也會跟著被替代。在過去的一百年裡,學科消失並不是一件稀奇的事情,或許,社會學也免不了自己的宿命。


不管怎麼樣,現在認識這些問題,還不算晚。眼下,還是要傾注全力,適應大數據時代的需要,發展社會學的能力,拓展社會學的邊界。


四、社會學研究範式還有用嗎?


剛才講,大數據對社會學的第一個挑戰是:還需要社會調查嗎?通過上面的分析,答案應該是清楚的。第二個挑戰是:社會學研究範疇還有用嗎?


我嘗試著回答。要回答這個問題,不得不提到一本書,叫《大數據時代:生活、工作與思維的大變革》[8]。大家要讀英文標題,英文標題橙色部分叫“革命”。什麼是革命?他自己提了一個,抽樣、精確、因果這三個過去我們為之努力奮鬥的範式,正是革命的對象。


是不是真如此,我覺得,可以爭論。不過我認為,這至少是一個信號,值得社會學家們認真討論,因為從事實證社會學研究的人最熟悉這一套。我的問題是,大數據對社會學研究的影響,難道真的與調查數據的基本假設不一樣嗎?在調查數據的時代,我們用假設檢驗。如果真的要從假設檢驗轉換為大數據的總體歸納,這兩者之間難道一個是白天、一個黑夜嗎?我覺得不是,兩者之間必然有著千絲萬縷的關係。


大家知道,自然科學用的重複檢驗。我學生物學出身,生物學研究的要求是重複檢驗。你說某一個規律存在,至少要做三遍,得到的參數不超過誤差值,就說明規律暫時是存在的、邏輯暫時是有效的、模式暫時是有效的,否則你就得重新思考,重新做。


社會科學沒有重複檢驗的基礎和條件,故,我們做假設檢驗。不過,我認為,即便是歸納的模式也要滿足重複檢驗或(和)假設檢驗的基本要求。運用大數據的社會學研究,我認為,其範式也許重在發現,而不是重在推論。但是,基本的目標沒有變,我們還是要把握事物之間的關係模式。


大數據分析的一些技術性技能是社會學研究缺乏的,我快一點過了。儘管對理解大數據和小數據之間的範式差異非常重要,由於社會學家們通常對技術問題興趣不大,為了不至於讓各位打瞌睡,我還是過快一點。


剛在說大數據分析重在發現,而不是重在推論,在方法上也有證據。大數據的非分析目的性,讓對大數據的利用在方法上重視數據挖掘。什麼叫數據挖掘?簡單來講說,就是從雜亂的混合數據中發現有意義的事物之間的模式和規則。挖掘是針對大數據分析的一個基本策略,但不是具體方法。我簡單介紹一下什麼叫做大數據挖掘。


大數據,首先是亂的。面對混亂,怎麼辦?大數據挖掘有一些基本的步驟,就是混亂的東西先歸類,再降低它的維度,降維為若干類別以後,便讓大數據和調查數據的形態差不多了(見圖4)。圖上有四個步驟,第一步拿到數據,非結構化的和結構化的混合數據;第二步梳理數據,用HPCC,高性能計算系統,通過映射-降維(Map-Reduce),把混合數據就變成分類數據,可分析數據;第三步分析數據,作模式分析,獲得初步的結果;第四步應用結果。


大數據給社會學研究帶來了什麼挑戰?

圖4 數據挖掘的基本步驟


我們把這幅圖的步驟歸納一下。做大數據分析,第一步獲得數據,通過映射-降維,形成可分析的數據;第二步選擇要分析的降維數據,選擇變量,降維以後的數據變量是可選的;第三步進行數據變換,比如說數據類型的變換,數據模式的變換等等;第四步模式發現,數據挖掘就是要發現模式;第五步模式評估,對已經發現的模式,評估其信度和效度;第六步知識表達,社會學的最終產出在這(見圖5)。


大數據給社會學研究帶來了什麼挑戰?

圖5 數據挖掘流程


當然,數據挖掘跟社會學研究一樣,也有描述性研究,也有預測性研究,描述性研究同樣是探討特徵、探討屬性。預測性研究同樣探討變量之間的關係。


大數據分析的描述性研究,大概是四大類工作,第一是做特徵分析,特徵分析就是點分析。第二是做關聯分析,可以理解為雙變量和多變量之間關係的分析。第三是做聚類,聚類主要是做多特徵的綜合聚類。最後是做離群點分析,調查數據叫極值,在大數據裡叫離群點,兩個不一樣。描述性分析的目的是什麼呢?也是用數據刻劃,獲得研究對象的數字畫像。比如說要描繪一類人,性別、身高、生活規律,比如每天幾點睡覺、幾點起床、深睡時長、醒著的時長,做惡夢的時長,都可以用數據刻劃。


簡單介紹一下特徵分析。類似於針對調查數據做的單變量分析,刻畫研究對象的基本特徵,譬如手機用戶的年齡、心別、身份、行為、消費偏好、習慣、表情等;淘寶店家的年齡、性別、身份、家庭社會經濟地位等等;微博傳播的網絡結構如星形網絡、結構洞網絡等。


關聯分析,類似於調查數據的雙變量、多變量分析,是基於事物不同特徵之間的相關性分析。不過,其分析的基本思路卻大不相同,以頻繁項集為例,其基本思路是:將某個頻繁項集Y劃分成兩個非空的子集X和(Y-X),使得X→(Y-X)滿足置信度閾值。如果規則X→(Y-X)不滿足置信度閾值,則類似於X1→(Y-X1)的規則,一定也不滿足置信度閾值,這裡,X1是X的子集。根據這一特徵,假設由頻繁項集{a,b,c,d}產生規則,且規則{b,c,d}→{a}具有低置信度,則可以丟棄包含a的所有規則。有點暈了,對嗎?不暈才怪,這是計算思路,不是社會學的假設檢驗思路。


用一個例子試試。比如說,只要發現某教師哪天早晨五點鐘起床了,可預測其要出門,這就是頻繁項集的應用。注意,數據挖掘會運用其既往早起後的行為預測其會不會出門,並給出預測正確的概率。


聚類分析,原本就是調查數據統計分析方法的一種,用分類原則,篩選因子,減少變量的數量,又稱“降維”。在數據挖掘中,點集數據是適合聚類分析的數據類型,通過聚類,讓原本混雜的數據歸入各自的類。再強調一遍,對大數據的聚類分析,採用的依然是計算思維:可算,計算有效率。


接下來看看預測分析。預測分析的技術對我們來說複雜了一些,這裡不講。只講與調查數據分析根本不同的部分。調查數據是先建模,再蒐集數據,最後檢驗模型。大數據分析是先有數據,建模的基礎是數據,因此被稱為數據建模。數據建模是基於數據歸納的,在數據裡發現、挖掘,通過描述性分析建立簡單模型,用簡單模型讓機器學習。


還是舉剛才的例子。某個老師每週有哪幾天早晨五點起床,機器可以預測他到學校來,還是到另一個地點。也許會有離群點,不過沒關係,機器會自動調整預測概率。經過一段時間的數據積累和模型修訂和迭代,便可以準確地預測。如果某老師在週五的早晨五點起床,他到北京大學社會學系辦公室的概率有多大,通常,這個預測是精準的。這就是機器學習,不是人乾的事,完全交給機器了。


舉一個經典例子,谷歌流感模型。前面的故事大家應該都知道,即使不知道,網上搜索一下也可以知道。我要講的是,2007年穀歌處理了4.5億個模型,最後篩選出一個綜合模型,在這個模型基礎上,跟隨數據的積累,2012、2013年又修訂了新預測模型。現在,谷歌流感模型的預測比美國CDC的預測還要準。


大數據的數據建模,通常有兩類。一類是分類模型,一類是迴歸模型。分類模型分析事物的類別,關注特徵值;迴歸模型分析變量之間的關係模式,做預測。


在這個基礎上,數據挖掘是多種技術應用。首先是統計學,郭志剛老師不會失業,統計學你得繼續教,沒有統計學知識,大家玩不轉。其次是算法,如何讓機器可計算和計算的有效率。我覺得社會學的學生未來至少要懂一些算法,我們可以不寫代碼,但不能連基本原理都不懂。在算法中還涉及一系列的理論與技術如數據庫、可視化、機器學習、模式識別等等。


此外,數據挖掘還會用到一些其他的技術,這裡就不多說了。


先說統計技術,運用調查數據的統計技術,描述統計、推斷統計、假設檢驗、統計模型等,在大數據分析中,技術不一定會用到,思想卻不可或缺。大數據分析最常見的是迴歸分析。當然,大數據對統計技術和思想的應用與拓展也在發展,懂基礎是發展的前提。


再說算法,相對複雜一些,也是數據挖掘中的核心,他不僅用於建庫,也用於做所有與數據挖掘相關的工作,比如說機器學習。從初始數據建模到模型迭代、穩健,都依靠算法的效率。


前天,有個老師告訴我說,早上一來,發現計算機死機了。我問:為什麼?他說,做了一個迴歸模型。我問:你做多少?他說,做50步。50步?在大數據裡面是完全小兒科,而且一個數據量級,還記得谷歌的流感模型,初始模型4.5億個!初始建模、模型迭代、穩健化,都需要用算法。


機器學習是一個新興的知識領域,知識性問題我不講了,直接給大家例子。


淘寶2014年雙十一,讓TCL狠賺了一把,原來預定量,TCL預計只有8%,機器學習的結果預測4K電視機會熱銷,結果是一天上升了60%。還有一個更搞笑的,服飾公司A21,雙十一前通過阿里數據鎖定了1000個老客戶,公司只想試一下一種新的、依據數據的營銷方式。比如說你是A21的客戶,今年我根本不通知我要給你做衣服,也不要你在網上預定,而是把你的衣服做好了,直接送到你家門口,如果你認為不錯,你就收單;如果你不喜歡或不需要,就拒收。結果是:90%的客戶買單。


菜鳥網絡,這是馬雲2012年說自己退休以後乾的事。這是一個物流網絡,對不同線路訂單的預測準確率也達到90%。說的是什麼呢?各位知道,雙十一的訂單量驚人,如果不事先佈置地方性的倉儲,是無法在一週之內讓所有客戶拿到貨品的。問題是,誰知道哪兒的客戶需要什麼?需要多少呢?大數據知道。依據大數據建模,菜鳥網絡事先把貨品部署到各地的倉儲,一旦有訂單觸發,快遞網絡便直接從離訂單地最近的倉儲取貨和送貨。2014年,截止到11月14日下午14點,雙十一期間的物流已經被簽收4000萬個,雙十一商家當天發單率達到20%,攬收率60%多。對商業應用來講,預測的重要性可想而知。


對於社會學研究,其實沒那麼著急。不過,依然非常重要。


我們再舉一個例子,百度做的,春節期間的人口遷徙圖(見圖6)。做這樣的圖,對於有大數據的商業公司很簡單,可對社會學家們來說,貌似一個難題。說簡單,是說原理的確簡單。手機在中國的普及率非常高,有能力使用手機的人幾乎人手一部。手機之間的通話、短信、微信等,有一箇中介,那就是基站。每一部手機只有接入一個具體的基站,才算是上網了。每部手機都有唯一識別碼,每個基站也有一個唯一識別碼,運用手機在基站上的移動,就可以定位人口的遷徙了。春節期間,百度的人口遷徙圖,就是應用這個原理讓機器自己做的。其中,既有統計學原理,也有計算機的算法。


大數據給社會學研究帶來了什麼挑戰?

圖6 春節期間的人口遷徙圖

大數據給社會學研究帶來了什麼挑戰?

圖7 2012年歐洲盃期間的網絡成交量


再舉一個例子。2014-2015年跨年夜的上海踩踏事件。地圖搜索數據顯示,藍色的曲線是地圖搜索,搜索外灘,跨年夜的地點。12月25-30日搜索,數據很平穩,也很有規律(見圖8)。到了31日,搜索量陡升,還有兩幅熱成像圖我沒有放上來,人流熱度的移動也非常明顯,跟搜索圖完全重疊。31日下午的搜索量陡增就預示了晚上人流會激增。可是,上海市警方並沒有注意到大數據的力量,手裡有數據,卻不佈置警力。


大數據給社會學研究帶來了什麼挑戰?

圖8 上海踩踏事件前夕“跨年夜”關鍵字的地圖搜索量


運用這些例子,我想說明的是,大數據在滲透進我們社會生活的方方面面,其中的一些方面是社會學傳統的調查方法處理不了的,無論是方法還是時效,都難以應付的。但是,在大數據的挖掘和利用中,我們又常常看到社會學研究範式的影子。它意味著社會學範式不僅有用,而且有大用!


五、社會學的優勢在哪裡?


社會學曾經的優勢有調查數據、有分析工具、有知識積累。這三塊是社會學最核心的優勢。調查數據、政府數據、商業數據各自有自己的專業領域,也因此形成了各自的話語權,也保障了社會學家們的獨立性!除了數據以外,保障社會學家們話語權獨立的還有社會學的分析工具和知識積累。社會學家們用自己的數據、科學的分析工具,形成了針對社會的知識積累,形成對社會有益的一股力量。


大數據的發展,使社會學曾經擁有的優勢變了,社會學家們依然掌握著調查數據,可大數據對調查數據的衝擊越來越大,調查數據的侷限性越來越明顯,大數據對調查數據的替代趨勢也越來越強,將來會不會完全替代,現在下判斷還為時尚早。儘管如此,調查數據的話語權變弱是不爭的事實。


社會學家們剩下的優勢只有知識積累了。問題是,知識積累也依靠數據,在數據受到衝擊的前提下,社會學的知識積累也可能會坐吃山空,我想,這才是社會學研究面對的真正挑戰。未來,社會學如果不能尋找替代,在新的分工圖譜中找到自己的位置,沒有獨門秘籍,沒有超人的創新能力,面對的結局可能是大家非常不願意接受的,譬如做知識勞工。如果我們回顧自己的職業生涯,有一條線索非常清晰:從90年代開始,教授們的工作便在逐步的勞工化,先是做政府的勞工,幫政府做課題,哪一個政府找到你,請你做一個課題,你高興的要命。接下來做商業公司的勞工,商業公司請你開個會,給你一兩千塊錢,你也非常高興;讓你發表一個觀點,你也很高興。我們可能從來沒有想過,如何開發自己的腦力、知識力、社會學的知識力,形成一股獨立的力量,讓社會學家們再次成為一股獨立的社會力量。我認為現在是時候了。


歸納起來講,如果說大數據對社會學研究有什麼挑戰,其實不是大數據的挑戰,而是社會變遷的挑戰,我們生活的這個社會變了。社會學的先祖們曾經面對的是從農業社會到工業社會的變遷帶來的挑戰,我們如今面對的是從工業社會到信息社會的變遷帶來的挑戰,這個挑戰的基礎部分是社會的數據化。我們的先祖們把握了工業社會的特徵,讓社會學成為了一個學科;如今,如果我們沒有能力把握信息社會、數據化社會的特徵,社會學就有可能毀在我們手裡。因此,讓社會學再學習,向社會學習,把握數據化社會的特徵,可能是社會學進一步發展的希望。


對從事社會學教育的我們來說,與數據化社會相伴隨的更大挑戰還在於教育模式的革命性變革。這兩年教課,我有的一個體會,跟大家分享。請大家看圖(見圖九),上面有各種應用,非常形象地隱喻了一個學生的腦袋。他在幹什麼呢?數字化學習(e-learning),這個詞15年前在美國開始流行,今天依然流行。


大數據給社會學研究帶來了什麼挑戰?

圖9 數字化學習


大家知道大英百科全書是最大的百科全書,我記得,過去社會學系要買一套大英百科全書要請示校長,為什麼呢?太貴了!可如今,還需要買大英百科全書嗎?完全不需要!維基百科是眾多人修訂的成果,知識正確率96%,只要有錯,就會有人修訂,只要有錯,就會有人改,完全免費,比300部大英百科全書總量還要大,你為什麼還要買大英百科全書?為了適應信息社會的情境,大英百科全書不賣紙版了,也是世界上第一個不賣紙版的百科全書。


我用這個例子希望說明,學生的學習方式變了,純粹的知識性內容,完全可以通過搜索獲取和積累,完全不需要老師,有的時候,老師在課堂上講的還是錯的,為什麼要老師。學生在課堂上之所以需要老師,是希望老師帶給他們在網上搜索不到的東西,那麼,這個東西是什麼呢?我相信老師們對這個問題都有思考,可能也沒有直接的答案!


因此,更大的挑戰在於整個教育模式的革命轉變。挑戰不在於你當不當老師,而在於整個大學的教育模式,整個教育模式的未來,比如說班級模式還會不會繼續存在。我舉一個例子,初等教育的例子,有一個學生,應該是2011級的,休學了,自己去創業。做教育,做了一個小應用,很簡單。把各地的優質教師彙集到平臺上,學生付費進來。你說要什麼?學什麼?系統自動匹配,一對一。這就是一種新的教育模式。教育平臺,像馬雲做淘寶一樣。這樣模式能堅持多久,不知道。不過,在當下,社會是認可的,他差不多拿到了一億多的投資。用這個例子同樣希望說明,學習在變,初等教育在變。


高等教育難道不變嗎?美國人弄了兩個課程平臺,其中一個是斯坦福大學弄的,叫Coursera,7000多門課,我比較大膽,我放了一門在上面。如果你真的有信心,就需要在世界範圍內競爭,你講的不對,立馬有人吐槽,這就是教育模式的革命。我想,現在只是一個開始,更大的挑戰還在後面。


而這一些,都源於大數據作為一種新的社會資源帶來的挑戰。


04. 歸納


最後,我大致做一個歸納。


簡單來說,大數據是一個並行化、在線彙集整個人類社會生活的、包括個人隱私生活的大規模、混合結構的數據,傳感器是大數據蒐集的主要工具,人類行為,無論是社會性的還是私密性的,都是大數據的來源。


大數據與社會學研究密切相關,與傳統的調查數據不一定是競爭關係,可在事實上,我們觀察到了大數據對小數據的替代,也觀察到了大數據對數據覆蓋範圍的擴展。


大數據給社會學研究帶來的挑戰不僅在於數據源的替代,更在於社會學想象力和技能的轉換,甚至是擴展。適用於傳統調查數據的社會學能力在面對大數據時已明顯不足,社會學需要拓展想象力和技術能力,才可能把大數據作為一種新的研究資源納入社會學學科。


不僅如此,我認為,大數據帶來的更大挑戰在於對大學教育模式的衝擊。課堂上,知識性的傳授已經為大數據資源所取代,創造性的啟發和智力挖掘可能是教育的未來。


註釋:

[1]PLATT, JENNIFER. A History of Sociological Research Methods in America: 1920-1960[M]. New York: Cambridge University Press,1996.

[2]林彬,王文韜. 對當代中國社會學經驗研究及研究方法的分析與反思——90年代社會學經驗研究論文的內容分析[J]. 社會學研究,2000(6):38-48.

[3]GOLDER, SCOTT A, MICHAEL WM. Digital Footprints: Opportunities and Challenges for Online Social Research[J]. Annual Review of Sociology,2014, 40:129.

[4]KING G, JENNIFER P, MARGARET E,et.al. How Censorship in China Allows Government Criticism but Silences Collective Expression[J]. American Political Science Review,2013,107(2):326-43.

[5]在網上搜索“誰在開網店”即可以獲得研究報告的各種版本。

[6]嚴潔,邱澤奇,任莉穎,丁華,孫妍.社會調查質量研究:訪員臆答與干預效果[J].社會學研究,2012(02):168-81.

[7]詹姆斯·格雷克,信息簡史[M].高博,譯.北京:人民郵電出版社,2013.

[8]維克托·邁爾-舍恩伯格,肯尼思·庫克耶. 大數據時代:生活、工作與思維的大變革[M].盛楊燕、周濤,譯.杭州:浙江人民出版社,2013.

最後說一下,想要學習大數據的限時領取免費資料及課程

領取方法:

還是那個萬年不變的老規矩

1.評論文章,沒字數限制,一個字都行!

3.私信小編:“大數據開發教程”即可!

謝謝大家,祝大家學習愉快!(拿到教程後一定要好好學習,多練習哦!)



分享到:


相關文章: