魚羊 編譯整理
量子位 報道 | 公眾號 QbitAI
學習數據科學,到底應該看哪些書?
網絡上的免費資源、書籍推薦讓人眼花繚亂,東一榔頭西一棒槌,不免讓人心生從入門到放棄之感。
現在,福利來了:Medium博主Brenda Hali整理出了一份數據科學最佳免費電子書大合集。
25強選手,從數學到Python,再到數據挖掘、機器學習,應有盡有,任君挑選。
數學類
欲學人工智能,先要打好數學基礎。數學類六強選手名單如下:
統計學習導論:基於R應用
書名:An Introduction to Statistical Learning
這本書由南加州大學馬歇爾商學院院長Gareth James等人出品,主要面向非數學專業的高年級本科生,碩士生和博士生。
該書內容主要由R語言實現,並詳細說明了統計學習方法在現實生活中的應用實例。
並且,人大統計學院王星副教授已將此書翻譯為中文版。
地址:
http://faculty.marshall.usc.edu/gareth-james/ISL/
統計思維:程序員數學之概率統計
書名:Think Stats
這本書的作者是美國計算機科學家Allen B. Downey。《統計思維》著重介紹了一些簡單的技術,讀者可以用真實的數據集對其進行探索。
書中使用美國國立衛生研究院的數據進行了案例研究。還有配套的GitHub倉庫,提供代碼示例。
地址:
https://bit.ly/2Morui2
GitHub:
https://github.com/AllenDowney/ThinkStats2
統計學習基礎
書名:The Elements of Statistical Learning: Data Mining, Inference, and Prediction
斯坦福大學數學科學教授Trevor Hastie等人出品。這本書強調的是概念而非數學本身,內文采用大量圖表來展示範例。
本書涵蓋的範圍很廣,從監督學習到無監督學習,均有涉及。
地址:
https://web.stanford.edu/~hastie/ElemStatLearn/
簡明貝葉斯統計
書名:Think Bayes: Bayesian Statistics Made Simple
關於貝葉斯統計的大多數書籍都是用數學符號來表達思想。這本書則用Python代碼代替了數學符號,並用離散近似替代連續。
此書同樣附贈配套代碼實現,還有人提供了IPython notebooks版本,可以在線修改、運行代碼。
地址:
https://greenteapress.com/wp/think-bayes/
IPython notebook:
https://mybinder.org/repo/rlabbe/ThinkBayes
貝葉斯方法:概率編程與貝葉斯推斷
書名:Probabilistic Programming & Bayesian Methods for Hackers
這本書旨在從計算/理解第一,數學第二的角度介紹貝葉斯推斷。作為一本入門書籍,本門適合非數學專業、對數學沒有那麼感興趣的貝葉斯方法實踐者。
地址:
http://camdavidsonpilon.github.io/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers/
計算機時代統計推斷
書名:Computer Age Statistical Inference
同樣來自斯坦福大學,由Bradley Efron和Trevor Hastie兩位老爺子共同打造。從經典推理理論開篇,以對統計和數據科學未來方向的推測作為結尾,這本書回顧了1950年以來數據分析革命的始末。
生存分析、邏輯迴歸、經典貝葉斯、隨機森林、神經網絡、馬爾可夫鏈蒙特卡羅方法……在這本書中,你都能找到。
地址:
http://web.stanford.edu/~hastie/CASI/
數據科學
介紹完數學,接下來正式進入數據科學部分。共有六本書推薦。
The Elements of Data Analytic Style
這本書側重於傳統統計學課程和教科書容易遺漏的細節,可作為數據科學或數據分析入門課程教材。
地址:
https://leanpub.com/datastyle
程序員數據挖掘指南
書名:The Ancient Art of the Numerati
這是一本入門向書籍,用於學習基本的數據挖掘知識。
大部分關於數據挖掘的書都著重於理論知識的講解,雖然理論知識非常重要,但還是有些讓人望而卻步。如果你是一名程序員,想對數據挖掘做一些初步的瞭解,那麼可以選擇這本書。
本書採用“邊學邊做”的方式編寫,作者強烈建議讀者動手實踐每一章結尾提供的練習題。
地址:
http://guidetodatamining.com/
中文版:
https://github.com/yourtion/DataminingGuideBook
社交媒體挖掘
書名:Social Media Mining: An Introduction
本書將社交媒體、社交網絡分析和數據挖掘集成在一起,為相關從業人員提供了一個方便的平臺,以瞭解社交媒體挖掘的基礎和潛力。
這本書適合作為高年級本科生、研究生課程,以及專業短期課程的教材,內含難度係數不等的練習,可以幫助讀者加強理解。
地址:
http://dmml.asu.edu/smm/book/
數據科學的藝術
書名:The Art of Data Science
本書介紹了分析數據的過程。作者是約翰霍普金斯大學生物統計學教授Roger D. Peng和UT奧斯汀教授Elizabeth Matsui,他們在數據分析方面具有豐富的經驗。
地址:
http://bedford-computing.co.uk/learning/wp-content/uploads/2016/09/artofdatascience.pdf
數據科學手冊
書名:The Data Science Handbook
這本書是25位傑出數據科學家深度訪談的彙編。其中,有來自領域專家的見解、故事和建議。
地址:
https://www.thedatasciencehandbook.com/
數據科學對話
書名:Conversations On Data Science
約翰霍普金斯大學生物統計學教授Roger D. Peng,以及Stitch Fix數據科學家Hilary Parker的對話實錄,主題是數據科學及其在現實世界中是如何發揮作用的。
地址:
https://leanpub.com/conversationsondatascience
Python
人生苦短,我用Python。學習人工智能,總是繞不開Python這一趴。
Python面向對象編程
書名:Object-Oriented Programming with Python
此書針對Python 3面向對象編程,是一本簡明、權威的指南。語言簡明,概念清晰。適合已經對Python有所理解的中級學習者。
地址:
https://leanpub.com/PythonOOP
Python編程快速上手:讓繁瑣工作自動化
書名:Automate the Boring Stuff with Python
本書是一本面向實踐的Python編程實用指南。不僅介紹了Python語言的基礎知識,作者還希望通過項目實踐,教會讀者如何應用這些知識和技能。每一章的末尾都有習題和實踐項目,附錄部分提供了參考答案。
適合編程基礎薄弱的初學者。
地址:
https://automatetheboringstuff.com/
中文版:
https://bit.ly/2PUo0Wx
Python數據科學手冊
書名:Python Data Science Handbook
Python科學計算必備資料。
這本書非常適合作為解決日常問題的參考書籍,包括:處理、轉換和清除數據;可視化不同類型的數據;使用數據建立統計或機器學習模型。
地址:
http://shop.oreilly.com/product/0636920034919.do
Learn Python, Break Python
這本書由淺入深,從對編程的簡要介紹開始,一步步引入更復雜的程序元素。面向初學者。
地址:
https://learnpythonbreakpython.com/
Python自然語言處理
書名:Natural Language Processing with Python
本書對自然語言處理進行了易於理解的介紹。從中可以學習到如何編寫適用於大量非結構化文本的Python程序。
地址:
https://www.nltk.org/book/
產品中的數據科學
書名:Data Science in Production
從初創企業到價值數萬億美元的大公司,數據科學正在最大化數據價值方面發揮著重要的作用。本書面向希望在多個雲環境中構建數據產品,並開發應用數據科學技能的分析從業人員。
地址:
https://leanpub.com/ProductionDataScience
數據驅動
書名:Data Driven
介紹了Google、Linkedln和Facebook如何利用自身數據,以及沃爾瑪,UPS和其他公司是如何在大數據時代到來之前,就充分利用了數據資源的案例。
地址:
https://www.oreilly.com/library/view/data-driven/9781491925454/
機器學習
接下來,進入機器學習書籍的推薦環節。
Scikit‑Learn與TensorFlow機器學習實用指南
書名:Hands-on Machine Learning with Scikit-Learn and TensorFlow
通過具體的示例,最少的理論和scikit-learn、TensorFlow這兩大工具,作者將構建人工智能系統的概念和工具直觀地展示了出來。同樣由淺入深循序漸進,從簡單的線性迴歸開始,一路深入到神經網絡。
地址:
https://github.com/ageron/handson-ml
深入理解機器學習:從原理到算法
書名:Understanding Machine Learning: From Theory to Algorithms
本書討論了學習的計算複雜度、凸性和穩定性、PAC-貝葉斯方法、壓縮界等概念,並介紹了一些重要的算法範式,包括隨機梯度下降、神經元網絡以及結構化輸出。
適合有一定基礎的高年級本科生和研究生學習,也適合作為IT行業從事數據分析和挖掘的專業人員以及研究人員參考閱讀。
地址:
https://www.cse.huji.ac.il/~shais/UnderstandingMachineLearning/toc.html
強化學習簡介
書名:Reinforcement Learning: An Introduction
本書對強化學習領域的關鍵思想和算法進行了簡明清晰的說明。
地址:
http://incompleteideas.net/book/the-book.html
深度學習
書名:Deep Learning
Ian Goodfellow,Yoshua Bengio和Aaron Courville共同撰寫。旨在幫助學生和從業人員全面瞭解機器學習,尤其是深度學習。
地址:
http://www.deeplearningbook.org/
Machine Learning Yearning
吳恩達出品。本書的重點不在於機器學習算法本身,而是如何讓機器學習算法工作。
地址:
https://www.deeplearning.ai/machine-learning-yearning/
https://github.com/amusi/machine-learning-yearning-cn
數據可視化
D3 Tips and Tricks
最後推薦一本關於數據可視化的書籍。
D3 Tips and Tricks介紹瞭如何利用d3.js這一工具,實現數據可視化。其中包含50多個可以下載的代碼示例。
地址:
https://leanpub.com/D3-Tips-and-Tricks
那麼,書單在手,快點學起來吧~
博客鏈接:
https://towardsdatascience.com/the-best-free-data-science-ebooks-b671691e5231
— 完 —
量子位 QbitAI · 頭條號簽約作者
վ'ᴗ' ի 追蹤AI技術和產品新動態
閱讀更多 量子位 的文章