每天產生這麼多的視頻,頭條的存儲服務器得多大空間?會不會有存儲極限?

泰山數碼小李



理論上有極限,實際上不會輕易觸及


因為有硬件設備的限制,所以任何服務器都是有極限的,但是作為互聯網企業的命根子,企業絕對不會讓自己的服務器觸及到這個極限,實際上一個業務做得大的互聯網企業,自然在服務器數據管理方面也需要做得比較好,不然業務是沒辦法正常開展的。

比如谷歌,它的接入的是全球的數據,毫無疑問每天產生的數據量異常大,但是也也沒聽過其到達服務器承載量上限的說法,那是因為它在全國各地分佈有數據中心,其中僅位於洛華州康斯爾布拉夫斯市的數據中心面積空間就超過115000平方英尺。

這樣一對比下來,似乎頭條在數據的處理方面就顯得沒那麼艱難了。實際上,作為字節跳動旗下的重要產品,今日頭條、抖音等接受著字節跳動超17萬臺服務器的硬實力支撐,這個體量在國內甚至國際上也是相當大的。


分佈式數據中心

和谷歌的數據中心類似,字節跳動等大型互聯網企業的網絡一般可以分為數據中心內部網絡和WAN網,它們的數據中心會分佈在全國各個城市,甚至是海外各個城市,各個數據中心又分別和運營商的網絡進行對接,這樣就避免了所有的業務積壓在同一個數據中心,有效分攤了巨大的數據壓力。

企業也可以根據業務的擴張,更加靈活地發展各地的數據服務分中心,所以從這個角度看,今日頭條的數據中心也可以說是沒有存儲極限的。


根據流量的方向,我們又可以將WAN網分為內網和外網。

內網是各個數據中心之間互聯的網絡,用來連接互聯網企業在地理上分佈的多個數據中心,我們可以通俗地理解為各個數據中心互聯的專屬網絡。而外網則是面向互聯網用戶訪問的網絡,用來提供面向用戶的各種雲服務,比如搜索、視頻、文字資訊、下載支持等等。

字節跳動的數據中心擴張速度很快從2017年年初的2、3萬臺,到截至去年年底的17萬臺,這樣的速度和規模確實非常讓人驚訝。系列新技術的應用也為字節跳動取得了多個國內“首個”的頭銜,國內首個大規模分佈式全預製、國內首個大平層預製框架結構、國內首個整體電源模塊預製、國內首個間接蒸發自然冷卻模塊、國內首個計算模塊一體化預製……


這些硬核的實力便是今日頭條得以有效處理每日產生的巨大的數據信息的秘密。


強大的數據分析處理能力


當然了,數據儲存只是數據服務中心的重要作用之一,字節跳動的數據處理能力在眾多互聯網企業裡面也是名列前茅的。推薦系統和審核系統是使字節跳動在眾多資訊平臺中脫穎而出的關鍵,這個關鍵讓其不再只是簡單的新媒體資訊平臺,而是為其融入了更多的AI含義,這一切得益於數據中心先進的處理分析技術。


字節跳動取得的成績,從小的方面說,豐富了我們的精神娛樂生活,從大的方面說,展現了中國互聯網發展市場的潛力,同時也意味著中國數據中心技術的進步。


趙廣亞


我用實驗來回答這個問題。

一個視頻有多大?

以頭條系的西瓜視頻為例,這裡,我就用我自己發的一個小視頻為例,時長58s。

我們先來看看這個視頻有多大?用Chrome瀏覽器打開視頻鏈接(防止平臺判定為廣告,我就不放鏈接了),按F12出現調試模式,可以看到整個頁面裡圖片、js、css等各種元素文件的加載情況,包括這個元素所在的服務器IP地址、域名、類型、以及我們所關注的文件大小。如下圖,瞅見沒?(有問題私聊我)

如上圖所示,文件類型為media,大小為1.5MB。

至此,我們得到答案,50s的視頻,大小為1.5MB。(實際上,受碼率和時長影響可能會有波動,這裡暫且算是個平均值)


接下來看第2個問題。

視頻有多少個?

在正式回答這個問題之前,先來了解一下視頻的熱度。

視頻有冷熱之分,遵循“28”定律,即20%的熱門視頻吸引80%的用戶流量。

很顯然,熱門視頻是視頻網站方關注的重點(像我舉的這個例子,點擊量就很慘,妥妥的冷門資源)。

為了照顧用戶的訪問感知,網站方一般會把熱門視頻複製多個副本,存放在多個服務器上。想象一下,最近有個熱門電視劇《慶餘年》,如果沒有副本全國只有一個服務器,上億的用戶都來訪問這個資源,大聲地告訴我,這個視頻卡不卡頓?答案是,不僅是卡,網站肯定癱瘓,拒絕訪問。

這裡就有個關鍵點,即:熱門視頻會複製多份,冷門視頻可能只有1份。

那視頻所佔的空間應該是:單個視頻大小*副本份數。

那這個視頻有幾個副本呢?同樣實驗走起:

點擊對應視頻資源,查看header信息,如上圖所示,這個資源的域名是v1- ,所在的服務器IP是223.111.19.3。

看不懂?別急。簡單普及下,域名和IP存在對應關係,這種對應關係由DNS來完成(我的其他文章裡有普及過)。網站方的調度都是通過域名來調度的,而不是通過IP地址。為啥呢,一是IP多難記啊,一串數字;二是IP經常變,而域名穩定。

總之,記住一句話,域名是網站方調度的最小單位。

那我們來看看這個域名對應幾個服務器?記住一個命令nslookup:

這裡我測試的網絡環境是江蘇移動的網絡,所以dns服務器是移動的dns地址,數一下有多少個IP?一共13個。

至此,得出一個結論:我這個視頻在江蘇移動網絡內有13個副本。同樣電信可能也會有13個,大家可以自行測試。

這裡,我只想闡述一個副本數量的概念。具體容量大家可以自行估算一下。


很自然,會有第3個問題:

這些視頻存放在哪兒?

同樣實驗走起,我們看看這個Chrome抓包上能發現點啥?

看見沒,有個jiangsuyidong Cdn字樣(我理解是,江蘇移動CDN)。

沒錯,視頻是放在CDN網絡上承載的。

這裡涉及一個CDN的概念,簡單來講就是,網站方會把視頻內容複製多個副本,放在多個CDN網絡節點中,在南京放一份,在蘇州也放一份。這樣一來,南京的用戶就訪問南京的節點,蘇州的用戶就訪問蘇州的節點,互不干擾,確保用戶訪問離自己最近的網絡服務器,這樣就保證了視頻不卡。


除了上面提到的江蘇移動CDN,國內還有網宿、華為、七牛雲、金山雲等CDN廠家。


通過我的抓包分析,今日頭條視頻(含抖音、西瓜視頻),分佈在中國移動、網宿、金山雲、白山雲、阿里雲等CDN網絡承載。


寫在最後

其實在我看來,儲存技術的發展,容量大小已不是關鍵問題(看看各個網盤廠家動不動就送幾個T);帶寬問題是影響網站方成本投入的重要因素。另外,最關鍵技術是網站方的視頻內容如何與CDN廠家的承載網絡協同和調度。


誠邀您關注,隨手一關注,一起聊聊互聯網那些事。


一腚溫柔


很多朋友可能對於像阿里巴巴,騰訊,百度以及字節跳動這樣的公司,這些公司每天存儲的數據量非常龐大,可以達到TB級別。但是他們給我們的感覺是,無論我們在這些平臺中產生什麼樣的內容,多大的數據量,他們都能夠裝得進去,好像他們的服務器容量是無限的。這是為什麼呢?


其實對於技術感興趣的朋友可能會了解到,像這些公司他們一定使用的是一種叫做分佈式存儲的技術方案。


分佈式存儲

分佈式存儲的技術思想其實在10多年前就已經有了,這是因為當時的谷歌也面臨著存儲海量網頁的問題,當時他們在內部試行了一套系統,後來被證實是可用的。於是他們在2010年,公開發表了三篇論文,分別是Google big table、Google file system以及Google mapreduce。那麼這其中的Google file system就是現如今各種分佈式存儲方案的核心思想。


這張圖就展示了HDFS的一個版本,它就是一個分佈式的文件存儲系統。我們可以看到,中間的每個namenode都有三個箭頭指向最下一層的datanode,這是什麼意思呢?NameNode其實並不直接存儲數據,直接存儲數據的是下面的三個datenote,也就是數據分片。而且我們要查詢數據的時候,也是從這些數據分片上把數據提取出來,然後進行整合反饋給我們這些用戶,就這樣形成了一個閉環。


簡單來說就是在存儲數據的時候,不管是視頻、圖片還是文本內容等等這些數據,我們都可以把這些海量的數據,將其進行切分,然後放在不同的服務器中去存儲。因為每一個datenode就代表一臺服務器,而且因為整個分佈式的架構又是高可用的,它可以橫向的無限拓展,那麼也就意味著datanote可以拓展無限個。就這樣,通過分佈式的一個思想,我們從技術層面解決了海量數據的存儲問題。

字節跳動海量數據的存儲

字節跳動這家公司,其實在18年,它的服務器數量已經達到了17萬臺,這些服務器可能分佈在全國各個地方。那麼發展到現在,我估計至少也有20多萬臺,正是由於這20對萬臺服務器的不斷拓展,才支撐起今日頭條、抖音、西瓜視頻、火山小視頻、悟空問答等流行社交媒體產品線上的海量數據存儲。而對於我們用戶來說,我們每天發視頻,每天寫文章上傳到字節跳動的服務器,我們並沒有什麼感覺,原因就在這兒。


所以,只要服務器能夠不斷的橫向拓展,理論上來說,存儲是可以沒有上限的。


贈人點贊,手留餘香。我是小強Talk,歡迎大家關注我,和我一起共同成長進步!


小強Talk


這個問題問的太笨了,連阿里、騰訊都還沒有叫喊存儲服務器的存儲極限,頭條比他們倆互聯網大佬晚成立很多年,這麼點視頻文件,距離“極限”還早著呢。

你是不是以為頭條有視頻原創頻道,因為都是網友自制視頻上傳,所以皇帝不急太監急,開始替頭條擔心服務器存儲不夠用?那麼視頻網站怎麼玩的?谷歌旗下的 YouTube也基本上都是網友上傳的視頻,它成立於2005年,迄今已經十四年了, YouTube也沒有擔心存儲服務器會不夠用啊。中國也有好幾個成立很早的視頻網站,優酷、六間房、騰訊視頻、愛奇藝等,優酷算是其中最早的大佬,成立於2006年,今天的它是和土豆網合併的規模,雖然它有購買影視劇,但網友自制上傳的視頻應該是佔比最大的,這麼多年它也沒有叫喊存儲服務器有極限——

回到問題上來,頭條創建於2012年,迄今才七年,它的用戶規模實力真正開始進入到可以叫板騰訊,可能只有三、四年,所以我想你暫時是不需要為頭條擁有的存儲空間擔心的,至於未來,網站存儲和我們電腦存儲一樣,可以擴展啊,我以前只是電腦一個硬盤,最大1T、2T,可現在我購買了一個外置硬盤櫃,插了四個硬盤,我現在總共有將近十個T的存儲空間。網站也可以如此,可以擴展,所謂網站的數據中心,像谷歌那樣的世界級互聯網公司,是在全世界各地建造數據中心,尤其在北歐那裡,那裡寒冷,數據中心可以依靠自然界的氣溫進行降溫,成本節省不少。中國的貴州有一陣子報道很多公司都在那裡建立數據中心,據說也是那裡的自然條件適合建造數據中心。所以,大體上可以這樣下結論,無論個人玩電腦還是互聯網公司玩網站,鈔票可能有極限,存儲空間不存在極限,前者靠賺,不容易,所以有極限,後者靠鈔票去投入,只要有錢,你可以無限制的擴展你的數據中心。


天淞子


問題:每天產生這麼多的視頻,頭條的存儲服務器得多大空間?會不會有存儲極限?

回答:今日頭條系的服務器,2018年的時候已經超過了17萬臺了,2019年或者是2020年肯定是更加高。


龐大的數據中心

大型的互聯網企業例如阿里、騰訊、今日頭條等企業都是採用分佈式的數據中心。這些數據中心可以分佈在不同的城市。例如阿里就在貴州等不同的城市都有數據中心的分佈。

而且,越是大型的企業就會購買越多的服務器,並且興起更多的數據中心,第一個是因為他們需求很多的數據中心來滿足企業和用戶的需求;第二個是因為他們還會做備份和後備的,一旦一個數據中心出現問題就會在幾毫秒之內自動切換到另外一個數據中心,保持企業運轉。

所以,他們有數十萬甚至更多的服務器也是正常的。

分佈式的設計

理論上即使是分佈式的設計,都會存在極限的。但是這個極限非常大,幾乎沒有可能達到。

你要知道,他們採用分佈式的數據中心設計,可以根據需求,興建數據中心,然後購買服務器並且重新它的數據中心,能夠大規模的橫向增加服務器,只有成本能夠承受得起就不用擔心服務器不夠用的問題。

甚至有一些企業,例如百度、阿里、騰訊、華為這些甚至還會賣雲服務,他們擁有大量的雲資源可以給小企業使用。


太平洋電腦網


說到雲服務器最早是亞馬遜為了應對全球的業務,採購了大量的雲服務器基本上不是所有的服務器都能滿負荷的運轉,於是亞馬遜就產生了如何剩餘的機器以及機器運行負荷不是很高的情況下獲取一定的利益,這是最初雲服務器最原始的需求,現在的雲計算已經成為了一種核心技術,由於亞馬遜這個事情做的比較早,所以在這個行業的積累最長,從全球雲計算的市場份額就可以看出來,亞馬遜幾乎是壓倒性的優勢佔據著市場的主導地位。

微軟自從蓋茨離開之後一直處於不溫不火的狀態,自從涉足了雲計算的業務直接把這個老牌企業拉到市值第一的位置,可見雲計算在未來全球科技中佔據多麼重要的作用,谷歌也在雲計算領域投入了大量的資源,國內的阿里雲依靠亞太市場整體的市場份額已經能夠佔據到全球前三的位置,而且排名在前三的雲計算都是使用的完全自主研發的技術,所以跟進速度特別的快。

回到頭條的存儲服務器,可能和真正的雲計算服務器還是存在一定的差距,依據頭條的實力未來也不排除在這方面發力,頭條的存儲服務器在2018年的時候已經達到了17萬臺,聽起來就是一個非常恐怖的數字,而且這個數字還在一直增長,隨著頭條業務不斷的拓展未來在雲上一定儲備一定的技術,未來的頭條的設想不但但是信息流以及短視頻這麼簡單的事情,而且未來還將成為騰訊公司最大的競爭對手,目前的騰訊公司是國內的最大的流量企業畢竟像QQ和微信用戶使用量極其的巨大。

當然在實際存儲過程中還會採用分佈式的技術,因為不可能把所有的數據都集中在一個服務器,想要配套相應的備份服務器,雖然服務器的數量已經非常巨大,但是也需要大量的備份服務器,一個地方的服務器數據丟失了,還能繼續使用別的區域的服務器,早期的頭條公司經常出現服務器宕機的情況,其中很大一個原因是服務器數量不夠,很快就達到負載極限,加上早期頭條公司研發能力不像現在這麼強大,也代表一個企業在飛速的發展。

一般配置的服務器都是超標配置,如果因為數據空間不足,影響到用戶的體驗就會顯得特別被動,所以頭條在經歷了快速發展期之後就開始大規模的部署服務器,當然也包括很多存儲服務器,而且很多存儲服務器部署在分佈式已經被分割起來,最終哪天頭條搞出來頭條雲也不要太過於驚訝,畢竟如此巨量的服務器一直放在那邊,可以資源最大化的利用這應該是頭條未來的一個重要的一個戰略點,目前主要精力在於在全球範圍內推廣自己的頭條產品矩陣,而且抖音的出海非常成功,未來科技企業戰略點還是在於核心技術的積累,頭條未來想要發展壯大必然也要走上這條道路,希望能幫到你。


大學生編程指南


    淘寶、今日頭條等這些互聯網公司,大部分採用了分佈式存儲方案,存儲空間可以彈性增加,自由擴展,可以說沒有存儲的極限。在介紹分佈式存儲之前,首先說一說集中存儲。


    集中存儲

    一箇中小型公司,大部分採用了集中存儲方式,也就是整個存儲集中到一個系統中,為了增加系統的可靠性,可能採用了兩地三中心的備份方案。集中存儲並不是一個獨立的設備,而是集中到一套系統中的多個設備。


    集中存儲的架構

    集中存儲包含了很多組件,比如控制器、磁盤陣列、交換機等,還有管理設備等輔助設備,下圖顯示了一個集中式存儲的基本邏輯圖。

    集中存儲的核心部件是機頭,包含了兩個控制器,互為備份,避免硬件故障導致整個存儲系統不可用。控制器分為前端端口和後端端口,前端端口為服務器提供存儲服務,後端端口用戶擴充存儲容量,後端端口連接存儲設備,形成一個非常大的存儲資源池。


    簡單來說,集中式存儲最大的特點就是有一個統一的入口,所有的數據都要經過整個入口,對應存儲系統的機頭。


    分佈式存儲

    分佈式存儲最早由谷歌提出,目的是通過廉價的服務器提供大規模、高併發場景下的應用。下圖顯示了谷歌分佈式存儲的簡化模型,整個系統將服務器分為兩種類型:namenode存儲管理數據(元數據),datanode負責實際數據的存儲。

    讀取過程為,首先從namenode中獲取該文件的位置,然後從datanode中獲取具體數據。通過橫向擴展datanode的數量,就可以增加承載容量,實現了動態橫向擴展的能力。


    無中心架構的分佈式存儲

    谷歌的分佈式存儲架構,仍然有中心節點,即負責管理元數據的namenode節點。

    Ceph存儲架構的分佈式存儲,完全沒有中心節點,客戶端通過一個設備映射關係計算寫入數據的位置,客戶端直接與存儲節點通信。Ceph存儲架構如下圖所示。

    在Ceph存儲架構中,有Mon服務、OSD服務、MDS服務等。客戶端訪問存儲設備的流程為:首先從Mon服務中讀取存儲資源佈局信息,然後計算出期望的數據位置,包括物理服務器信息和磁盤信息,然後直接通信,讀取或者寫入數據。


    以上就是集中式存儲和分佈式存儲的區別,大型的互聯網公司通常採用了去中心化的分佈式存儲技術,對存儲容量可以橫向擴展,技術上來說“永遠存不滿”。

如果覺得對你有幫助,可以多多點贊哦,也可以隨手點個關注哦,謝謝。

Geek視界


不夠加快10t硬盤。1t等於1024g。1024g等於5000個200m左右的視頻,10t等於5萬個。多加硬盤,足夠應付廣大自媒體了


虎虎vlog


頭條和抖音產生最多的文件為視頻,圖片,這些傳到服務器後一般不會經常修改,被稱為靜態文件,靜態文件如視頻、圖片、音頻等的存儲一般使用對象存儲,公有云如aws s3,阿里雲的OSS,私有云如openstack,不確定頭條具體是使用公有云還是自己搭建的私有云,也有可能是混合雲。。



Spider蛛絲


有沒有這種可能,就像英文26個字母,分佈26臺服務器,訪問時電腦自動提取組合,這樣不就永遠裝不滿了,以現在電腦數億次計算能力,組個數據不是毫秒的事。



分享到:


相關文章: