- 大數據的核心在於新的大數據平臺。
- 大數據平臺hadoop 使得原來需要超級計算中心才能做的事情,現在在企業,通過普通的集群也可以處理了。
- 大數據的核心理論-谷歌的三大論文
- Google File System :分佈式文件系統
- 單個磁盤不夠大——-> 解決方法是:GFS 的解決是多個磁盤(DataNode)來存儲 ——-> 新的問題:效率地下 ——-> 新問題的解決辦法水平復制+按照塊存儲(hadoop1.x 一個塊 64M,hadoop2.x 一個塊是128M)
- ——-> 新的問題:磁盤太慢 ——->新的解決方案:SPARK解決磁盤和內存映射問題
- 數據不安全。磁盤損壞,壞道等。——-> 解決多級冗餘備份,對於hadoop默認是三級備份,也就是一份數據默認在三個位置上存儲——-> 多個磁盤如何管理(NameNode)監控和處理磁盤故障
- BigTable 所有的數據存入一張表中間。
- MapReduce
- 機器學習與傳統編程的區別
- 傳統編程是編程驅動數據,機器學習是算法部分和傳統一樣是用算法驅動數據,但是在訓練上就是數據驅動編程,同樣的算法,不同的數據得出來不同訓練模型。
- 機器學習與深度學習
- 深度學習是一種特殊的機器學習,它將現實世界表示為嵌套的層次神經網絡,從而獲得強大的性能與靈活性。
- 深度學習算法也就是改進了的神經網絡。
- 以前的機器學習算法偏向CNN,SVM等,不需要集群也能做出一點效果的,舊神經網絡的算法很多時候不能做出好的效果,原因有二:其一是算法需要的計算即資源太多。其二數據一旦上規模之後,運算不出來。算法得到了改進,第二大數據的進步讓規模以上數據的計算成為可能。
- 未來的發展方向:
- 推理:類腦計算,機器推理
- 創造 —>方向還不明朗
閱讀更多 米皮946 的文章