陳則老師,從事數據分析培訓教學以及實戰指導,已經將近10年時間
以我自己的經驗來說,很多網絡上的推薦,所謂的合集,都是碼農推薦的,,,
本文目錄:
Part 1:入門數據處理工具(2款)
Part 2:高級數據處理工具(2款)
Part 3:入門數據分析工具(2款)
Part 4:高級數據分析工具(2款)
Part 5:入門數據可視化工具(2款)
Part 6:高級數據可視化工具(2款)
Part 1:入門數據處理工具(2款)
1.最基礎的數據處理工具——Excel
相信大家對於Excel都不陌生,
不僅是數據分析師,很多公司的很多事情都是會用到Excel,
Excel具備多種強大功能,
比如創建表單,數據透視表,VBA、函數的應用、數據清理技巧等,
Excel的系統如此龐大,以至於沒有任何一項分析工具可以超越它,
確保了大家可以根據自己的需求分析數據。
作為一款基礎工具,想要從事數據分析崗位,
成為一名合格的數據分析師,
掌握Excel的數據處理以及分析技巧是非常有必要的。
2.本地化工具——WPS
Excel的國產化,就是WPS
WPS裡的表格,可以實現辦Excel的大部分功能
最厲害的具有強大插件平臺支持,免費提供海量在線存儲空間及文檔模板
但是,還需要繼續加油
Part 2:高級數據處理工具(2款)
Excel或者WPS對於輕量級的數據(比如幾萬、幾十萬的數據還可以)
但是數據量一大,比如幾百萬,幾千萬,Excel或者WPS估計就會奔潰
1.高級數據處理工具——SQL
這時候,需要一點SQL的基礎
結構化查詢語言(Structured Query Language)簡稱SQL,是一種特殊目的的編程語言,是一種數據庫查詢和程序設計語言,用於存取數據以及查詢、更新和管理關係數據庫系統。
它能在數據量大的情況下,快速的實現:查詢、彙總、更新等功能
目前市面上的SQL版本很多,Mysql、Microsoft SQL Serve、Oracle數據庫等等
對於入門者來說,先學習一個就可以
2.高級數據處理工具——Python
非常強大,萬金油!但是根據我的經驗pandas最多能處理100M左右的數據,如果超過100M可以使用with open和readlines轉換成DataFrame,親測可行
數據處理完,就要做分析了
Part 3:入門數據分析工具(2款)
1.最基礎的數據分析工具——Excel
Excel能做的數據分析比較基礎和入門,但是對於很多企業或者學員來說,也夠了
比如做排序、篩選,也可以做相關、迴歸、方差,還可以做一些敏感度、最優解等的分析
2.統計學領域權威的數據分析工具——SPSS
SPSS統計分析過程包括描述性統計、均值比較、一般線性模型、相關分析、迴歸分析、對數線性模型、聚類分析、數據簡化、生存分析、時間序列分析、多重響應等幾大類,
每類中又分好幾個統計過程,
比如迴歸分析中又分線性迴歸分析、曲線估計、Logistic迴歸、Probit迴歸、加權估計、兩階段最小二乘法、非線性迴歸等多個統計過程,
而且每個過程中又允許用戶選擇不同的方法及參數。SPSS也有專門的繪圖系統,可以根據數據繪製各種圖形。
當然,SPSS也能實現一些數據錄入、處理以及圖形化的功能,但是,統計分析是它的核心
目前廣泛應用於:醫藥、銀行、通信、調查研究、學術研究、證券、電商等領域,
世界500強企業,有80%左右的公司,都在用。
詳細的課程內容,可以報名陳則老師的《數據分析之SPSS軟件從入門到精通》課程,
點上面的專欄鏈接即可
Part 4:高級數據分析工具(2款)
那麼前面的工具,
主要面對的還是:數值化的數據,比如:年齡、收入,
或者數值化後的數據,比如:學歷(會變成:1-4,分佈代表:小學、初中、高中、大學等等)
但是如果,你要遇到對圖片作分析、對一大串網頁的文字做分析,怎麼辦?
或者遇到超級大的數據量,TB級別的,
你會發:Excel、SQL等等這些工具都失效了,怎麼辦?
1.大數據數據分析工具——Hadoop
只有在超過5TB數據量的規模下,Hadoop才是一個合理的技術選擇
根據經驗,曾經使用pyspark處理過Hive中30~40TB數據,速度還是很快
hadoop能做什麼?
hadoop擅長日誌分析,facebook就用Hive來進行日誌分析,2009年時facebook就有非編程人員的30%的人使用HiveQL進行數據分析;淘寶搜索中的自定義篩選也使用的Hive;利用Pig還可以做高級的數據處理,包括Twitter、LinkedIn 上用於發現您可能認識的人,可以實現類似Amazon.com的協同過濾的推薦效果。淘寶的商品推薦也是!在Yahoo!的40%的Hadoop作業是用pig運行的,包括垃圾郵件的識別和過濾,還有用戶特徵建模。
2.大數據數據分析工具——Spark
那麼跟Hadoop差不多一個等級的工具是:Spark
數據處理速度:
Spark,擁有Hadoop、 MapReduce所具有能更好地適用於數據挖掘與機器學習等需要迭代的的優點
數據分析完了,需要做可視化了
Part 5:入門數據可視化工具(2款)
1.最基礎的數據可視化工具——Excel
在Excel2010中,常見的圖表有10種,
分別為:柱形圖、折線圖、餅圖、條形圖、散點圖、面積圖、股價圖、雷達圖、組合圖、曲面圖
Excel2013以後,又增加了:
樹狀圖、旭日圖、直方圖、箱線圖等等
有學員會說,老師,你看網上,好多做數據分析的大咖,都是推薦各種牛逼克拉斯的工具
為什麼你推薦的是Excel?
因為,很多企業其實用不到那麼多高大上的工具,而且即使用了,需要很高的學習成本
但是Excel,它的普遍性,是任何一個軟件,目前都無法代替的
況且,Excel做出來的可視化,也基本可以滿足大部分企業的需求了
大家,可以去京東,搜陳則老師的暢銷書,就是講的Excel可視化的內容
2.入門級數據可視化工具——Tableau
那麼因為Excel雖然可以滿足大部分需求,但是有些需求滿足起來,會很吃力
比如:想做個一個全國地圖的展示( )
這種地圖,對於小白來說,用Excel做一個估計需要一天
但是用
Tableau,對於小白來說,做一個,稍微看一下教程,只需要半天大大提高了可視化的效率
而且,在最後的報表輸出(把圖表、文本、標題)整合到一起,Tableau也能體現出它的優勢
Part 6:高級數據可視化工具(2款)
1.高級的數據可視化工具——Power BI
Power BI是由微軟推出的一整套商業智能解決方案,
它能夠挖掘數據中的信息,快速準確地生成可以交互的可視化報表,
從而幫助企業做出明智的業務經營決策。
為什麼,高級篇,首推這個?
因為這是微軟出的,你看前面數據的處理、統計、分析,是不是Excel最廣泛?
所以,Power BI和Excel兼容度非常高
甚至在Excel 2016以後,Power BI已經把部分組件,直接嵌入到Excel裡去了
比如:Power Map、Power Query等等
但是學起來,比Excel難度係數要高
2.高級的數據可視化工具——D3.JS
D3.js是一個強大的數據可視化js語言,可以利用svg在網頁上展示各種精美的矢量圖
被認為是最好的JavaScript可視化框架之一。開發者剛開始學習D3.js時會感到很複雜,但是D3.js功能強大,非常靈活,值得開發者深入學習研究。需要注意的是,D3.js無法在較低版本的IE瀏覽器中正常顯示圖形。
當然和D3.JS同級別的還有很多,比如:ECharts等等
總結: 不要被這麼多的工具,搞頭暈了
適合自己的才是最好的,
希望大家能在數據分析和可視化領域,找到適合自己的工具
閱讀更多 陳則office及數據分析 的文章