為了不讓朋友圈失傳,這群人正在備份整個互聯網

《銀河系漫遊指南》的作者道格拉斯·亞當斯曾提出一個有趣的科技三定律:

任何在我出生時已經有的科技都是稀鬆平常的世界未來秩序的一部分;任何在我 15-35 歲之間誕生的科技都是將會改變世界的革命性產物;任何在我 35 歲之後誕生的科技都是違反自然規律要遭天譴的。

這三個定律調侃了人因為年齡增長對新事物的接受程度下降,而互聯網的快速發展進一步加速了這個過程。

如今兩代人的代際劃分從 10 年縮短到 5 年甚至更短,95 後甚至可能已經聽不懂 00 後「黑話」,對於一出生就處於互聯網時代的年輕人,不會再看著同一部電視劇、動漫、小說長大,因此擁有的共同回憶也會越來越少。

為了不讓朋友圈失傳,這群人正在備份整個互聯網

▲你看懂上面這段對話了嗎

互聯網加速了人與人的代溝,帶來的另一個影響就是,互聯網的記憶更快的被遺忘。

有統計稱網頁的平均壽命約為 100 天(實際觀感更短),80 後 90 後的青春隨時可能因為天涯和網易博客這些平臺的關閉而消散,沒人預計現在流行的社交平臺能不能活到你百年歸老。

「互聯網之父」Vint Cerf 對於「21 世紀會成為信息黑洞」的擔憂,正在成為現實。與此同時也有一批網民如西西弗斯般打撈著互聯網角落的碎片,來對抗互聯網的易逝性。

活在互聯網侏羅紀時期的第一代網民

最近在國外論壇 Reddit 上出現了一個有意思的帖子,讓一些「老齡網民」告訴現在的年輕人,如果真的生活在那個年代會遭遇什麼挑戰。

為了不讓朋友圈失傳,這群人正在備份整個互聯網

其實 web 1.0 年代至於距今才不到 30 年 ,但已經是互聯網的侏羅紀時代。在那個網頁「只讀」的年代,人們無法在網上記錄自己的狀態,因此現在要了解早期網民的生活狀態只能依靠這些「互聯網活化石」。

不信你來看看 Reddit 那個帖子上的幾個熱門回答,如果你有共鳴,那一定也不年輕。

你一定不知道撥號上網有多麼痛苦!除了要忍受煩人的噪音,還要等待 8 分鐘才刷開一個一個網頁,如果你的家人在中途拿起了電話,那前面的等待就白費了。

當第一代網民在撥號上網的時候,BAT 都還沒面世,可以瀏覽的網站也寥寥。網上的聊天室也只有兩個功能:群聊和單聊。

為了不讓朋友圈失傳,這群人正在備份整個互聯網

至於網購、音樂和影視流媒體服務當然也不可能出現了,因此當時的人們的生活狀態是這樣的:

如果一款商品沒有出現在你所在社區附近的連鎖商店的貨架上,那麼你不僅買不到它,甚至根本不會知道它的存在。人們很討厭商業廣告,但這幾乎是大多數人瞭解新商品的唯一方式。當你在電臺聽到一首喜歡的歌曲時,你最好希望 DJ 會把歌名告訴你,否者你可能永遠不知道這首歌的名字。如果你在電視裡看到一部即將上映的電影,你只有走進電影院才能看到這部電影的預告片。

不過,這也意味著要盜竊一首歌曲一部電影的話,必須冒著進店行竊的風險,而不是動動鼠標就能完成。

為了不讓朋友圈失傳,這群人正在備份整個互聯網

▲還記得自己買的第一盒磁帶嗎?

這些老齡網民的隻言片語,拼湊起這代年輕人對那個年代互聯網生活的印象,而國內則興起了類似@千禧 bot 這樣以懷舊為主題的社交賬號。

正如該賬號置頂帖子所寫的,「想從 20 和 21 世紀的裂縫中打撈一些有趣的東西,旨在分享一些屬於 90 年代末和 00 年代初的記憶。」

為了不讓朋友圈失傳,這群人正在備份整個互聯網

在這個以 Windows 98 開機頁面為頭像的賬號下,可以看到各種小時候流行的物品,比如數碼暴龍機和拓麻歌子,每條微博下都成了無數 80 後 90 後分享懷舊記憶的場所。

為了不讓朋友圈失傳,這群人正在備份整個互聯網

這些帖子將很多互聯網原住民沒聽過的事物帶到互聯網上,這些老網民貢獻了一段段互聯網往事的口述史,只是這些記錄終究是碎片化的,在快速刷新的社交媒體時間線下很快被淹沒。

於是有另外一些網民開始嘗試更有體系地來記錄和保存著互聯網上的一切。

互聯網歷史記憶的守護者

不久前一位叫做 Clash-Cash-Car 的豆瓣網友的故事在網上流傳開來,感動了不少人。在《好奇心日報》一篇介紹黑膠工作室的報道中,提到了 Clash-Cash-Car 的故事:

曾有個叫作 Clash-Cash-Car 的人,他從 2008 年開始往豆瓣不斷增添音樂條目,為之前從未被人聽過的唱片建立標籤,規模前所未有,是一個有點傳奇的人。2008 年-2016 年,「Clash-Cash-Car1」在網站資料庫內建立 6108 個音樂條目,標註共 371 個派別,「沒人知道他是如何找到這些音樂的,可能下載,或者黑膠和 CD」。2016 年,網友得知他去世。他的真實職業是一名保安。

當一位豆瓣網友把這張報道截圖發到豆瓣廣播後,引發了很多豆瓣網友對 Clash-Cash-Car 的討論,一位豆瓣網友把 Clash-Cash-Car 稱為「中華音樂圈的掃地僧」。

為了不讓朋友圈失傳,這群人正在備份整個互聯網

用這位豆瓣網友的話來說,Clash-Cash-Car 對於互聯網最大的貢獻是將各種小眾的唱片轉錄成 MP3 上傳到下載平臺,並在豆瓣給每張唱片編寫了相關信息。

雖然這可能涉及版權問題,但就像前段時間引起熱議的盜版電影網站胖鳥電影一樣,客觀上促進了某種亞文化的普及,正是像 Clash-Cash-Car 這樣無私分享的網友,將互聯網上碎片化的信息整理成方便被索引的資料庫。

就像另一位「互聯網活化石」和菜頭所說的,「在中國互聯網的古代,人們不僅只是使用互聯網,那時候的人們參與建設互聯網。」一代代網民的眾創和分享成就了今天的互聯網。

不過就算是維基百科這樣互聯網的百科全書,所能記錄的也只是互聯網很少一部分。但的確有人試圖備份整個互聯網,那就是美國一家非營利性的數字圖書館——互聯網檔案館(Internet Archive)。

為了不讓朋友圈失傳,這群人正在備份整個互聯網

互聯網檔案館目標是保存人類在互聯網上創造的所有文明,自從 1996 年成立至今,收集了大量的網頁、視頻、音頻、軟件和電子書,目前檔案館已經收錄了超過 3510 億個網頁。

其中最重要的項目叫做時光機(Wayback Machine),每個小時時光機都會通過網頁爬蟲抓取每一個網頁並存檔(聲明不允許被抓取的網站除外),因此你可以訪問每個網頁過去每一天甚至每小時的樣子,就像時光倒流一樣。

為了不讓朋友圈失傳,這群人正在備份整個互聯網

▲阿里巴巴 2000 年 3 月 3 日的網頁

互聯網檔案館還有一百多名僱員,每天在世界各地掃描數以百計進入公有領域的書籍上傳到檔案館的服務器,只要是不涉及版權問題的媒體文件,都會在網站上公開供人免費下載,而互聯網檔案館的口號就是:共享世間一切知識。(Universal Access to All Knowledge)

在這 20 多年來,互聯網檔案館已經多次突顯了自己的價值。因南斯拉夫解體而失效的「.yu」域名得以保存,還有每天維基百科上大量失效的引用鏈接也是如此。

還有 2014 年的馬航 MH17 客機遭到導彈襲擊墜毀後,武裝領袖在社交網站上對襲擊負責的帖子發佈後不久就被刪除,此時互聯網檔案館已經將其收錄到「烏克蘭衝突」系列文獻中。

而今天一篇帖子或一篇文章因為各種原因在互聯網上徹底消失的例子已經不勝枚舉,而檔案館讓互聯網的一些歷史不會因為時間而消失。

為了不讓朋友圈失傳,這群人正在備份整個互聯網

不久前昔日音樂社交巨頭 Myspace 在遷移服務器時丟失了 2016 之前幾乎所有用戶上傳的內容,所幸互聯網檔案館收錄了部分 Myspace 的音樂文件,才讓一些音樂人早期的作品被保留下來。

除了互聯網檔案館,已經有越來越多的機構加入這個行列。比如 Twitter 上所有推文都會收錄到美國國會圖書館,2003 年多國的國家圖書館還和互聯網檔案館一起成立了國際互聯網保存聯盟((International Internet Preservation Consortium))。

而這些每天不斷備份互聯網的人,自然也成了互聯網歷史記憶的守護者。

易逝的互聯網

隨著互聯網的普及,每天都會新增海量的數據。根據 IDC 的數據,去年中國產生的數據就有 7.6ZB( 約合 7.6 萬億 GB),到了 2020 年全球的數據量預計將達到 44ZB。

為了不讓朋友圈失傳,這群人正在備份整個互聯網

▲Google 數據中心的機房

且不說是否有一個機構有能力持續備份這麼大量的數據,即便可以也不意味著互聯網的信息能一直完好無損地記錄和傳承後世。

就算是互聯網檔案館,對於屏蔽網絡爬蟲的網頁也無能為力。只要在網頁根目錄中增加一個名為「robots.txt」的文本文件,檔案館的時光機就會停止索引該網站,比如百度就無法被收錄。

為了不讓朋友圈失傳,這群人正在備份整個互聯網


除此之外,在移動互聯網時代,信息被各種 app 分割成一座座孤島,像微信、微博、抖音等主流社交平臺的信息都不能通過搜索引擎找到了,也更加不會被互聯網檔案館爬蟲了。

為了不讓朋友圈失傳,這群人正在備份整個互聯網

keso 在《易逝的互聯網》一文提到,過去由於搜索引擎和 Web 索引和緩存技術的強大,很多人認為任何內容只要曾經在互聯網上出現過,就永遠存在於互聯網上了,然而事實並非如此。

一方面對互聯網重度依賴的我們幾乎難以消除自己在網絡上的痕跡,因此在很多公共事件發生後都會出現當事人被「人肉」的情況,但另一方面我們也很難保存各個網絡平臺上的個人數據,比如你無法備份和導出朋友圈和微博。

這也導致大量網頁或 app 的數據,隨著平臺的消亡而消失。最近的就有網易博客和熊貓直播,而在互聯網誕生這幾十年裡,倒下的互聯網公司已經不計其數,其中不乏積累千萬級以上用戶的大平臺。

為了不讓朋友圈失傳,這群人正在備份整個互聯網

就算互聯網平臺還在,但也有可能由於各種意外導致數據丟失。比如丟失 5000 萬首曲目的 Myspace ,Google 郵箱 Gmail 也曾因為一次更新中的 Bug 意外刪除了 40000 多個賬戶的郵件。

TCP/IP 協議的共同發明者之一,被稱為「互聯網之父」Vint Cerf 認為二十一世紀可能會成為信息黑洞,不是因為數據會丟失,而是未來的人們可能根本無法讀取這些數據。

Vint Cerf 表示往後 1000 年甚至更久的未來,人們可能無法把現在的數據讀取出來。要知道曾在市場上佔據主導地位的 WordPerfec 文件格式,Windows 系統在好幾年前已經不再支持。

為了不讓朋友圈失傳,這群人正在備份整個互聯網

儘管現在雲計算被認為是未來趨勢,但你或許不知道包括 Google 、亞馬遜和微軟等提供雲服務的科技公司,其實也還在使用磁帶來備份海量數據。

業內不少人都認為磁帶會是數據儲存的未來,人類備份信息的媒介從遠古時代的石頭,到後來的紙張、硬盤,再到雲端,兜兜轉轉又回到了離線的磁帶,互聯網上的一切終究還是太容易消逝。

不知道 100 年後,還能不能看到這篇文章?

題圖來自:生活大爆炸


分享到:


相關文章: