大數據,機器學習,和深度學習的初步認識

  • 大數據的核心在於新的大數據平臺。
  • 大數據平臺hadoop 使得原來需要超級計算中心才能做的事情,現在在企業,通過普通的集群也可以處理了。
  • 大數據的核心理論-谷歌的三大論文
  1. Google File System :分佈式文件系統
原來的數據存儲有兩大問題:
  • 單個磁盤不夠大——-> 解決方法是:GFS 的解決是多個磁盤(DataNode)來存儲 ——-> 新的問題:效率地下 ——-> 新問題的解決辦法水平復制+按照塊存儲(hadoop1.x 一個塊 64M,hadoop2.x 一個塊是128M)
  • ——-> 新的問題:磁盤太慢 ——->新的解決方案:SPARK解決磁盤和內存映射問題
  • 數據不安全。磁盤損壞,壞道等。——-> 解決多級冗餘備份,對於hadoop默認是三級備份,也就是一份數據默認在三個位置上存儲——-> 多個磁盤如何管理(NameNode)監控和處理磁盤故障
  1. BigTable 所有的數據存入一張表中間。
好處效率更高,壞處需要的存儲空間更大 ——-> HDFS 存儲
  1. MapReduce
解決大數據運算問題,Map 拆分計算,映射運算,reduce 規約彙總。
  • 機器學習與傳統編程的區別
  • 傳統編程是編程驅動數據,機器學習是算法部分和傳統一樣是用算法驅動數據,但是在訓練上就是數據驅動編程,同樣的算法,不同的數據得出來不同訓練模型。
  • 機器學習與深度學習
  • 深度學習是一種特殊的機器學習,它將現實世界表示為嵌套的層次神經網絡,從而獲得強大的性能與靈活性。
  • 深度學習算法也就是改進了的神經網絡。
  • 以前的機器學習算法偏向CNN,SVM等,不需要集群也能做出一點效果的,舊神經網絡的算法很多時候不能做出好的效果,原因有二:其一是算法需要的計算即資源太多。其二數據一旦上規模之後,運算不出來。算法得到了改進,第二大數據的進步讓規模以上數據的計算成為可能。
  • 未來的發展方向:
  1. 推理:類腦計算,機器推理
  2. 創造 —>方向還不明朗


分享到:


相關文章: