霍普金斯大學教授強烈推薦的5本數據科學經典書籍

程序員書庫(ID:CodingBook) 猿妹編譯

鏈接:https://fivebooks.com/best-books/data-science-roger-peng/

數據科學在近幾年變得非常流行,Roger D. Peng是一名霍普金斯大學的生物統計學教授,美國統計協會的會員,同時他也是最大的數據科學在線課程的創始人之一。今天,我們就一起來看看他都推薦了哪些關於數據科學的書籍。

霍普金斯大學教授強烈推薦的5本數據科學經典書籍

在我們知道這些書單之前,先了解一下Roger D. Peng是如何從生物統計科學轉向數據科學?

Roger D. Peng:在我看來,我作為生物統計學家所做的大部分工作和我作為數據科學家所做的是一樣的。數據科學的範圍很廣,許多人都離不開它,這也是為什麼近幾年會出現“數據科學”這個概念的原因,真正讓我更深入這個社區的是一系列的課程,我和我的同事Brian Caffo和Jeff Leek通過Coursera開展的一系列數據科學和R語言教程。

目前已經有8000多名學生參加完Roger D. Peng的完整在線數據科學專業課程,數百萬人選修了其中一到兩門課程。

話不多說,接下來就來看看Roger D. Peng推薦的這幾本書

霍普金斯大學教授強烈推薦的5本數據科學經典書籍

1、《Statistical Evidence》

霍普金斯大學教授強烈推薦的5本數據科學經典書籍

推薦理由:作者Richard Royall也是霍普金斯大學的教授,但在我加入之前他就已經退休了,這本書徹底改變了我對數據分析和統計思維的看法,這本書很薄,讀起來很快,但我已經讀了20~30遍。每一次,我都可以從裡面學到新東西,它有點學術性和數學性,讀者確實需要一些統計學背景才能更好地閱讀它。

它講的是數據提供給你的東西和你把數據和外界事物結合起來會發生什麼之間的區別。他還解釋了統計學中的概率論、貝葉斯理論等,他主要的觀點是我們做的一些事情可以追溯到數據,你需要把兩件事情分開,一是建立數據,然後才是決定要用它去做什麼(比如決策、病人參與試驗等等)

我們經常將數據和外部元素相結合從而做出決策,但是許多工具將這些因素打包在一起,反而讓事情變得複雜,Royall的思維方式對於我來說很新穎,它對我如何進行數據分析產生了深遠的影響,很多關於數據分析的討論都傾向於把所有事情混在一起,因為它們是“數據相關”的,但是不要忘了,數據分析師的角色固然重要,但是他們和科學家或決策者的角色是不同的,我們要把他們區分開來。

2、《Visualize This》

霍普金斯大學教授強烈推薦的5本數據科學經典書籍

推薦理由:Nathan Yau是一名統計學家,和我一樣擁有加州大學洛杉磯分校(University of California, Los Angeles)的博士學位,Yau在他的博客‘Flowing Data’中寫了很多關於數據可視化的文章,這本書就是關於如何更好的將數據呈現給其他人,你可以使用哪些工具,以及你可以實現的可視化類型有哪些。

Yau在這個領域是一個很了不起的專家,他在他網站上展示的那些例子都是經過精心設計的,你可以從這本書裡學到的一件事就是思考你在做什麼,以及確保你的數據可視化達到你的理想結果。

3、《Storytelling with Data》

霍普金斯大學教授強烈推薦的5本數據科學經典書籍

推薦理由:Cole Nussbaumer Knaflic曾在谷歌任職,離開谷歌後寫下了這本書,她和Nathan Yau一樣,也有一個關於數據分析的博客——‘Storytelling with Data’,她非常注重可視化,本書關注的是那些將成為分析或報告的接收端的受眾,最重要的是考慮他們需要的是什麼,以及分析數據時,哪些選擇對受眾是最佳的。

她另一個重要的思想是你如何講述數據分析呈現的效果,在進行數據分析時,你可能會創建了數百張圖片從而擬合數千個查看數據的不同方式,但最後你一定要把這些結果整理成連貫的東西。從某種程度上來說,一個數據的分析和輸出只完成了四分之三,最後一個的部分是你要從中建立一個最終的“數據產品”。

4、《An Introduction to Statistical Learning》

霍普金斯大學教授強烈推薦的5本數據科學經典書籍

推薦理由:這本書是由機器學習領域的一群權威作者寫的,同時,他們也是偉大的作家,同一家出版社還出版了另一本書,叫做《the Elements of Statistical Learning》,這本書更先進一些,可以吸引更多的讀者,如果你真的想深入瞭解目前使用的模型和統計工具的核心內容,這是一個很好的參考資料,也是一個很好的學習方法。書裡面有很多代碼示例,其中包括一個用R包來實現模型、運行示例等。

這本書使用R編寫代碼,我用R語言已經20年,我在學校的時候就開始使用它了,那時我對Python還不太瞭解,無論怎麼說,Python和R都是兩門很好的語言。這是一本相當有深度的書籍,在數學方面比其他類似的資源要多一點,而且比最近的許多課程更注重數學,這些課程向你展示了可以使用的“現成的”機器學習算法,而沒有過多地介紹底層模型。

5、《Design Thinking Understanding How Designers Think and Work》

霍普金斯大學教授強烈推薦的5本數據科學經典書籍

推薦理由:我選擇的五本書在數據科學方面是相當抽象的,我本可以推薦一堆關於詳細統計、R編程等方面的書籍,但我故意選了一些高一點的書籍,作為一個做過大量數據分析的人,我發現當你分析數據的時候很容易缺乏正確的思維模式,大多數大學都有一個叫做“數據分析”的課程,通常它會提供各種有用的工具,但很少討論分析本身實際發生了什麼。

所以這本書是關於一般的設計,而不是具體的數據分析,因為每一項數據分析都是獨一無二的,因此很難在不同的經驗中進行歸納


分享到:


相關文章: