大數據庫和數據庫到底有什麼區別和聯繫?

網雲技術


大數據是我的主要研究方向之一,所以我來回答一下這個問題。

首先,大數據本身代表一個龐大的技術體系結構,從技術體系結構來劃分,涉及到數據的採集、整理、存儲、安全、分析和呈現等一系列技術標準,而數據庫僅僅是大數據技術體系中的一個環節,主要用於數據的存儲,以及部分數據管理任務。

從當前大數據平臺的體系結構來看,大數據平臺主要以分佈式存儲和分佈式計算兩大基礎技術來展開,其中分佈式存儲就涉及到數據庫。大數據的數據結構與傳統的數據結構有很大的不同,傳統的數據庫數據主要以結構化數據為主,而大數據系統中的數據往往有非常複雜的數據結構,其中既有結構化數據,也有大量的非結構化數據和半結構化數據,所以目前大數據技術體系不僅會採用傳統的數據庫來存儲數據,也會採用NoSql數據庫來存儲數據,這也是大數據時代對於數據存儲方式的一個重要改變。

從當前大數據落地方案來看,大數據系統會同時採用關係型數據庫和NoSql數據庫,而且為了方便傳統的數據庫人員操作NoSql數據庫,大數據平臺也增加了相應的功能模塊。從這個角度來看,未來傳統的關係型數據庫和NoSql數據庫會長期並存,共同來完成數據管理任務。

從大數據的發展趨勢來看,未來大量的大數據應用都會藉助於大數據平臺來展開,所以目前大型科技公司往往更關注於大數據平臺研發,而對於中小型科技公司來說,藉助於大數據平臺來完成行業創新應用,也會分享到大數據時代的發展紅利。

我從事互聯網行業多年,目前也在帶計算機專業的研究生,主要的研究方向集中在大數據和人工智能領域,我會陸續寫一些關於互聯網技術方面的文章,感興趣的朋友可以關注我,相信一定會有所收穫。

如果有互聯網、大數據、人工智能等方面的問題,或者是考研方面的問題,都可以在評論區留言,或者私信我!


IT人劉俊明


大數據本質是一種概念,既數據體量大、數據格式複雜、數據來源廣。而數據庫則是一種具體的計算機技術,用來存儲數據,常見的數據庫有 Mysql 數據庫、Oracle 數據庫等,底層還是基於磁盤來進行存儲。

從大數據在引申出來的技術,比如數據量大的情況,怎麼存儲數據,以及怎麼對這些數據進行加工處理。像現在 HBase 大數據組件,主要是針對大數據存儲的,Hadoop MapReduce 計算框架、Spark 計算框架等,則是針對大數據計算的。

大數據與數據庫之間的關係,從大數據涉及到的技術中,包括數據庫技術。因為在大數據情況下,也需要存儲這些數據,此時就需要使用到數據庫。當然,大數據技術存儲數據不僅僅能夠使用到數據庫,還可以使用分佈式文件系統,比如 HDFS 分佈式文件系統,亞馬遜的 S3 等。

同時,在大數據所涉及到的技術中,也包括了大數據計算、數據的展示等等。所以從技術領域來區分,大數據的技術會更廣,而數據庫技術則是更加的具體,就是用來存儲數據。

目前在國內互聯網公司而言,大數據方面數據庫使用最多的還是 HBase 列式數據庫。比如阿里巴巴,其內部有很多使用 HBase 列式數據庫的場景。HBase 數據庫支持水平擴展,同時由於其採用 LSM 架構,天然的對數據寫入支持非常好,因為是對磁盤進行追加寫的模式,這比對內存隨機寫要更加的快速。

不僅僅是阿里,像在小米其實也有很多使用 HBase 列式數據庫的場景,當然,其他小公司也在使用。所以在未來,我認為 HBase 列式數據庫的發展前景非常好,畢竟也有互聯網大廠在使用,開源社區方面也有它們在推動發展。如果你想學習一門大數據方面的數據庫技術的話,我推薦你可以學習 HBase。

我是Lake,專注大數據技術原理、人工智能、數據庫技術、程序員經驗分享,如果我的問答對你有幫助的話,希望你能點贊關注我,感謝。

我會持續大數據、數據庫方面的內容,如果你有任何問題,也歡迎關注私信我,我會認真解答每一個問題。期待您的關注


Lake說科技



看頭條、刷抖音,其實都是基於大數據推薦場景的應用

首先舉個大家都熟悉的場景幫助大家來理解什麼是大數據應用吧,為什麼大家在看頭條、刷抖音都忘記了時間呢,根本不捨得放下手機呢?你是不是覺得這些產品內容都是自己喜歡看的內容呢?好像就是專門為你定製的內容呢,越看越吸引人呢,根本抵抗不住內容的誘惑呢。你是否想過,為啥這些產品知道你喜歡看啥呢?


其實這個場景就是一個典型的大數據應用場景,我們在做產品時,有個專業的詞叫做“人物畫像”,說明白點就是把你這個人的行為進行數據化,從你剛開始用這款產品時,他們已經開始對你進行數字化的統計分析了,比如剛開始使用時,產品會進行一些嘗試性的推薦,如果你點了相關內容進行閱讀時,比如你點的是歷史類文章,然後進行了認真的閱讀,系統可能會認為你喜歡歷史類的類容,閱讀完了,系統會繼續給你推薦更多歷史相關的文章,如果你繼續點擊的話,系統就給你的興趣貼上了“歷史”類的標籤了。這只是人物畫像的一個興趣維度而已,其實一個人的畫像數據遠比這個複雜,比如根據你的性別、職業、年齡、關注的人、地區、評論過什麼內容、看過什麼廣告等等,只有更多的數據維度,才能更全面的瞭解你,給你推薦的內容才更加精準。在系統面前,我們很透明,你在想什麼,也許比你自己更清楚,這就是大數據的價值,這也是頭條、抖音當下這麼火的原因,是因為他們比你更瞭解自己,頭條、抖音也算是得益於大數據商業應用最成功的案例吧!


大數據離我們很近,不久的將來,更瞭解你的是大數據系統而不是你自己

除了看頭條、刷抖音這些產品瞭解你喜歡看什麼內容,我們在聊微信、玩QQ、逛淘寶、天貓、京東時,這些產品同樣也是這樣做的,把你這個人看的很通透,通過大數據分析的一清二楚,比如給你推薦精準的電商廣告、產品導購,讓你點點、買買,儘可能的掏空你的錢包,讓你月月光。這些產品想著法子向你索要更多的數據,除了分析你個人、還要分析你身邊的親屬、朋友、同學只要和你相關的人,系統都要建立關係,建立一張更大的關係網,只要數據足夠多,我相信在不久的將來,會有一個很智能的系統,只要輸入你身份證或者照片,系統就會給出一個很詳細的圖譜信息,涉及方方面面,如果系統足夠智能的話,還能預測你未來要做的事情,比如要買什麼東西,是否想去旅遊,最近心情如何,健康情況如何等等,以前在神話劇裡的掐指一算預測未來的場景,我相信很快就會變成現實。


大數據形式很多,內容十分巨大,數據庫只是大數據存儲方式之一

說了這麼多,到底什麼大數據,大家應該有個大概的認識了吧。對於大數據,麥肯錫全球研究所給出的定義是:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力範圍的數據集合。從這句定義來看,所謂大大數據足夠的大,大到傳統的數據庫都無法存儲的地步。


我們以前做個網站,比如追溯到03年左右,那時候asp動態網站很流行,一個小型企業官網,微軟的ACCESS文件數據庫就足以應付,稍微大點的MySQL、SQLServer這些關係數據庫已經夠用。但是到了如今,大數據產生的數據實在太多,這些過去傳統的數據庫存儲形式已經遠遠滿足不了現在互聯網的需求了,很多大數據容量都達到PB以上級別,必須藉助於更先進的技術和更大容量的存儲設備,如現在的大數據基本都採用分佈式系統、雲數據庫和NoSQL數據庫等存儲技術方式。大數據的形式也不同於過去簡單的文本類型了,在當下形式更加豐富,大數據很難說清楚是具體存儲哪些類別的數據,也可以說只要能被智能設備收集的,都可能成為大數據的一部分,可能包括各種記錄表格、文檔、日誌、圖片、音頻、視頻等等。


如下一張圖來源於網絡,預測了2025年全球互聯網用戶將會產生175ZB(Zettabyte 十萬億億字節 澤字節)


ZB是一個多大的單位呢?讓我們來看看一張換算關係圖,如下圖所示:

如果你對上面的數字沒有概念,讓我來舉一個更形象的例子吧,1ZB大概是1.1萬億GB,等同於全世界沙子數量總和。沙子是多麼的渺小,能把沙子數字化,並裝進計算機系統,要損耗多少存儲硬件啊,想想都是一件可怕的事情!


大數據的應用場景十分廣闊

剛才前面提及到了大數據已經在我們的生活場景中有了方方面面的應用,比如頭條、抖音給我們推送更精準更感興趣的文章視頻內容,在電商行業,電商企業通過分析用戶的行為、習慣等的大數據,為用戶提供更加精準的商品服務;未來在醫療行業,通過對大數據的分析,對疾病提前預判並採取預防、治療措施;智慧城市場景的應用,比如交通領域,通過對交通行為、位置等的大數據分析,預判每個時段、地區的交通擁堵情況,引導車輛行駛更加合適的路線等等。大數據的應用場景遠遠不止於上面提到的,還會有更多的應用場景,來方便我們吃穿住行。


小節

今天關於大數據的分享就和大家聊到這裡,我相信大家對大數據應該有了個初步的認知了吧,大數據將會涉及我們未來生活的方方面面,相信在不久的將來,將會為我們帶來更多的驚喜,感謝大家的閱讀!


前端達人


數據庫只是存放數據的倉庫,無需對數據進行分類分析理解。

大數據是,通過收集大量的相關屬性數據樣本,經過提取歸類統計得到分佈等規律。這些數據是可以放在數據庫、緩存、文件或其地方。需要時可以用數據庫調取統計。



九百雲


小型數據庫一般都是用於數據量不是很大的軟件中;主要用的是mysql、db2;軟件類型一般是辦公軟件(公司、單位內部用)。大型數據庫一般都是用於數據量很大的軟件中;主要用的是oracle;軟件類型一般是網站開發(面向眾量用戶)。 ------------- 如果我回答對你有幫助,請關注我一下。或有其他問題也可以關注我,給我發私信


蔓莓愛畫畫


數據庫比較窄,例如稅收數據、交通數據。大數據是綜合數據,出行、購物、消費、年齡等綜合數據。


分享到:


相關文章: