02.17 需要數據分析以及可視化工具,送給大家(2020年更新版)

陳則老師,從事數據分析培訓教學以及實戰指導,已經將近10年時間

以我自己的經驗來說,很多網絡上的推薦,所謂的合集,都是碼農推薦的,,,

本文目錄:

Part 1:入門數據處理工具(2款)

Part 2:高級數據處理工具(2款)

Part 3:入門數據分析工具(2款)

Part 4:高級數據分析工具(2款)

Part 5:入門數據可視化工具(2款)

Part 6:高級數據可視化工具(2款)



Part 1:入門數據處理工具(2款)

1.最基礎的數據處理工具——Excel

相信大家對於Excel都不陌生,

不僅是數據分析師,很多公司的很多事情都是會用到Excel,

Excel具備多種強大功能,

比如創建表單,數據透視表,VBA、函數的應用、數據清理技巧等,

Excel的系統如此龐大,以至於沒有任何一項分析工具可以超越它,

確保了大家可以根據自己的需求分析數據。

作為一款基礎工具,想要從事數據分析崗位,

成為一名合格的數據分析師,

掌握Excel的數據處理以及分析技巧是非常有必要的。

2.本地化工具——WPS

Excel的國產化,就是WPS

WPS裡的表格,可以實現辦Excel的大部分功能

最厲害的具有強大插件平臺支持,免費提供海量在線存儲空間及文檔模板

但是,還需要繼續加油

Part 2:高級數據處理工具(2款)

Excel或者WPS對於輕量級的數據(比如幾萬、幾十萬的數據還可以)

但是數據量一大,比如幾百萬,幾千萬,Excel或者WPS估計就會奔潰

1.高級數據處理工具——SQL

這時候,需要一點SQL的基礎

結構化查詢語言(Structured Query Language)簡稱SQL,是一種特殊目的的編程語言,是一種數據庫查詢和程序設計語言,用於存取數據以及查詢、更新和管理關係數據庫系統。

它能在數據量大的情況下,快速的實現:查詢、彙總、更新等功能

目前市面上的SQL版本很多,Mysql、Microsoft SQL Serve、Oracle數據庫等等

對於入門者來說,先學習一個就可以

2.高級數據處理工具——Python

非常強大,萬金油!但是根據我的經驗pandas最多能處理100M左右的數據,如果超過100M可以使用with open和readlines轉換成DataFrame,親測可行


需要數據分析以及可視化工具,送給大家(2020年更新版)


數據處理完,就要做分析了

Part 3:入門數據分析工具(2款)

1.最基礎的數據分析工具——Excel

Excel能做的數據分析比較基礎和入門,但是對於很多企業或者學員來說,也夠了

比如做排序、篩選,也可以做相關、迴歸、方差,還可以做一些敏感度、最優解等的分析

2.統計學領域權威的數據分析工具——SPSS

SPSS統計分析過程包括描述性統計、均值比較、一般線性模型、相關分析、迴歸分析、對數線性模型、聚類分析、數據簡化、生存分析、時間序列分析、多重響應等幾大類,

每類中又分好幾個統計過程,

比如迴歸分析中又分線性迴歸分析、曲線估計、Logistic迴歸、Probit迴歸、加權估計、兩階段最小二乘法、非線性迴歸等多個統計過程,

而且每個過程中又允許用戶選擇不同的方法及參數。SPSS也有專門的繪圖系統,可以根據數據繪製各種圖形。

當然,SPSS也能實現一些數據錄入、處理以及圖形化的功能,但是,統計分析是它的核心

目前廣泛應用於:醫藥、銀行、通信、調查研究、學術研究、證券、電商等領域,

世界500強企業,有80%左右的公司,都在用。

詳細的課程內容,可以報名陳則老師的《數據分析之SPSS軟件從入門到精通》課程,

點上面的專欄鏈接即可

Part 4:高級數據分析工具(2款)

那麼前面的工具,

主要面對的還是:數值化的數據,比如:年齡、收入,

或者數值化後的數據,比如:學歷(會變成:1-4,分佈代表:小學、初中、高中、大學等等)

但是如果,你要遇到對圖片作分析、對一大串網頁的文字做分析,怎麼辦?

或者遇到超級大的數據量,TB級別的,

你會發:Excel、SQL等等這些工具都失效了,怎麼辦?

1.大數據數據分析工具——Hadoop

只有在超過5TB數據量的規模下,Hadoop才是一個合理的技術選擇

根據經驗,曾經使用pyspark處理過Hive中30~40TB數據,速度還是很快

hadoop能做什麼?

hadoop擅長日誌分析,facebook就用Hive來進行日誌分析,2009年時facebook就有非編程人員的30%的人使用HiveQL進行數據分析;淘寶搜索中的自定義篩選也使用的Hive;利用Pig還可以做高級的數據處理,包括Twitter、LinkedIn 上用於發現您可能認識的人,可以實現類似Amazon.com的協同過濾的推薦效果。淘寶的商品推薦也是!在Yahoo!的40%的Hadoop作業是用pig運行的,包括垃圾郵件的識別和過濾,還有用戶特徵建模。

2.大數據數據分析工具——Spark

那麼跟Hadoop差不多一個等級的工具是:Spark

數據處理速度:

Spark,擁有Hadoop、 MapReduce所具有能更好地適用於數據挖掘與機器學習等需要迭代的的優點



數據分析完了,需要做可視化了

Part 5:入門數據可視化工具(2款)

1.最基礎的數據可視化工具——Excel

在Excel2010中,常見的圖表有10種,

分別為:柱形圖、折線圖、餅圖、條形圖、散點圖、面積圖、股價圖、雷達圖、組合圖、曲面圖

Excel2013以後,又增加了:

樹狀圖、旭日圖、直方圖、箱線圖等等

需要數據分析以及可視化工具,送給大家(2020年更新版)

有學員會說,老師,你看網上,好多做數據分析的大咖,都是推薦各種牛逼克拉斯的工具

為什麼你推薦的是Excel?

因為,很多企業其實用不到那麼多高大上的工具,而且即使用了,需要很高的學習成本

但是Excel,它的普遍性,是任何一個軟件,目前都無法代替的

況且,Excel做出來的可視化,也基本可以滿足大部分企業的需求了

大家,可以去京東,搜陳則老師的暢銷書,就是講的Excel可視化的內容

2.入門級數據可視化工具——Tableau

那麼因為Excel雖然可以滿足大部分需求,但是有些需求滿足起來,會很吃力

比如:想做個一個全國地圖的展示( )

這種地圖,對於小白來說,用Excel做一個估計需要一天

但是用

Tableau,對於小白來說,做一個,稍微看一下教程,只需要半天

大大提高了可視化的效率

而且,在最後的報表輸出(把圖表、文本、標題)整合到一起,Tableau也能體現出它的優勢


Part 6:高級數據可視化工具(2款)

1.高級的數據可視化工具——Power BI

Power BI是由微軟推出的一整套商業智能解決方案,

它能夠挖掘數據中的信息,快速準確地生成可以交互的可視化報表,

從而幫助企業做出明智的業務經營決策。

為什麼,高級篇,首推這個?

因為這是微軟出的,你看前面數據的處理、統計、分析,是不是Excel最廣泛?

所以,Power BI和Excel兼容度非常高

甚至在Excel 2016以後,Power BI已經把部分組件,直接嵌入到Excel裡去了

比如:Power Map、Power Query等等

但是學起來,比Excel難度係數要高

2.高級的數據可視化工具——D3.JS

D3.js是一個強大的數據可視化js語言,可以利用svg在網頁上展示各種精美的矢量圖

被認為是最好的JavaScript可視化框架之一。開發者剛開始學習D3.js時會感到很複雜,但是D3.js功能強大,非常靈活,值得開發者深入學習研究。需要注意的是,D3.js無法在較低版本的IE瀏覽器中正常顯示圖形。

需要數據分析以及可視化工具,送給大家(2020年更新版)

當然和D3.JS同級別的還有很多,比如:ECharts等等



總結: 不要被這麼多的工具,搞頭暈了

適合自己的才是最好的,

希望大家能在數據分析和可視化領域,找到適合自己的工具


分享到:


相關文章: