文章發佈於公號【數智物語】 (ID:decision_engine),關注公號不錯過每一篇乾貨。
轉自 | AI算法之心(公眾號ID:AIHeartForYou)
作者 | 何從慶
近些天經常有小夥伴問到“機器學習如何入門,看哪些資料 ?”,於是乎想根據筆者學習兩年多的學習經驗,介紹下機器學習如何入門,該看哪些資料?下面我將從以下幾個方面整理機器學習入門的資源:
(1)語言:機器學習中常用的語言。
(2)書籍:書中自有黃金屋,機器學習中涉及到的很多數學理論,只看視頻或者博客是很難獲取到完整的知識框架。
(3)視頻:書中有些公式推導很難理解,可以看看大牛們深入淺出的課程。
(4)博客:經常看一些大牛們的分享,對於擴展知識面具有一定的幫助。
(5)比賽:實踐是檢驗學習成果重要標準,參加一些算法競賽,對於理解算法有著良好的幫助。
(6)論文:對於一些碩士來說,創新是檢驗學習能力重要體現。
01
語言
“
人生苦短,我用python”,python目前已經成為機器學習中最主流的語言,由於其豐富的算法庫。1、numpy: 最基礎的python庫之一。
地址:http://www.numpy.org/
2、pandas: 常用於數據處理的庫。
地址:https://pandas.pydata.org/pandas-docs/stable/
3、scipy: SciPy是一個開源的Python算法庫和數學工具包。
地址:https://docs.scipy.org/doc/scipy/reference/tutorial/index.html
4、scikit-learn:sklearn包含眾多的算法接口,從監督學習到半監督學習,再到無監督學習。還有評價指標、特徵選擇等。
地址:https://scikit-learn.org/
5、scikit-multilearn:multi-label的算法庫。
地址:http://scikit.ml/
還有一些深度學習的算法庫,如:
6、keras:最適合入門深度學習的小夥伴的算法庫。
地址:https://keras.io/zh/
還有一些較難的深度學習算法庫,如tensorflow,pytorch。
02
書籍
1、《統計學習方法》:李航老師的《統計學習方法》這本書堪稱經典,很多同學都靠著這本書找到理想的工作,強力推薦!對於許多想入門機器學習的小夥伴們,建議多看幾遍這本書,弄懂算法的每一個細節。
2、《機器學習》:周志華老師的《機器學習》這本書,很多人又稱之為西瓜書,也是很有幫助的。基本涵蓋機器學習的所有分支,如監督學習,無監督學習,半監督學習,強化學習,特徵選擇等。
3、《推薦系統實戰》:項亮博士的《推薦系統實戰》這本書,很適合對於想了解推薦系統的小夥伴們有一定的幫助。
4、《概率論與數理統計》:很多機器學習算法都是從統計學概率論上發展而來的,對於概率知識統計知識不足的小夥伴們,建議研讀這本書。
5、《Pattern Recognition and Machine Learning》:如果有小夥伴們英文比較好,小夥伴們也可以看看PRML這本經典的書。
6、《Reinforcement Learning: An Introduction》:如果有小夥伴想研究強化學習,這是一本不錯的強化學習入門書籍。
03
視頻
如果小夥伴們對於上述書籍看起來很吃力,很難弄懂算法的來龍去脈,建議將書籍(初學者推薦:《統計學習方法》)與視頻結合起來,相互促進。
1、吳恩達老師的公開課:網易雲上和coursera上都有他的講課,很基礎的版本,建議大家入門的時候多看看這個視頻。個人覺得coursera上面的課程比較簡單點。
網易雲上面的地址:http://open.163.com/special/opencourse/machinelearning.html
coursera上面的地址:
https://www.coursera.org/learn/machine-learning
2、李宏毅老師的課程:李宏毅老師的課程也是比較好,值得大家學習。
這裡有整理好的版本:https://blog.csdn.net/soulmeetliang/article/details/77461607
04
博客
國內:
1、火光搖曳:騰訊技術大牛們的博客。
地址:http://www.flickering.cn/
2、美團技術團隊的博客:裡面也有很多幹貨。
地址:https://tech.meituan.com/
3、蘇劍林的博客裡面也全是乾貨。
地址:https://spaces.ac.cn/
4、還有一些比較大型的博客網站, 如博客園,簡書,CSDN,知乎等等。
國外:
1、Netflix:Netflix技術博客,很多幹貨。
地址:https://medium.com/netflix-techblog
2、Towards Data Science:主要分享些概念、idea和代碼。
地址:https://towardsdatascience.com/
3、Github: all code is here。
05
比賽
學習機器學習的過程中,如何檢驗自己學習的成果呢?比賽就是一個比較好的方向,比賽其實可能會為了成績,摳那千分位,百分位的差距,但是其實在比賽中思考才是最重要的。如何將這些經典的算法應用到工業中,這些算法在工業中的優缺點?慢慢體會!
國內比較大型的算法平臺有:
天池大數據:
https://tianchi.aliyun.com/home/
datacastle:
http://www.pkbigdata.com/
datafountain:
https://www.datafountain.cn/
biendata:
https://biendata.com/
kesci:
https://www.kesci.com/
Jdata:
https://jdata.jd.com/
國外比較大型的算法平臺有:
kaggle:
https://www.kaggle.com/
比賽平臺有很多,這幾個是比較出名的平臺。大家可以去官網看一看,有很多正在進行中的比賽。另外,還有很多其他的平臺,這裡暫不一一介紹了。
06
論文
很多即將大四畢業,跨入研究生生活的師弟師妹們,也或者即將邁入研二的師弟師妹呢,是否還在為畢業發愁呢?小論文成為中國碩士畢業老難題!其實,寫一篇比較簡單的ccf c類的論文並不是很難,或許 ccf b ccf a類的論文確實很難!如何入門呢?看近些年機器學習、人工智能的頂級會議、期刊論文(會議論文速度更快)。這裡我僅整理下會議論文。
值得看的會議文章:
1、數據挖掘類:
SIGKDD:頂級數據挖掘論文。
2018年accepted paper:
https://www.kdd.org/kdd2018/accepted-papers
2017年accepted paper:
https://www.kdd.org/kdd2017/accepted-papers
2016年accepted paer:
https://www.kdd.org/kdd2016/program/accepted-papers
SIGIR:頂級推薦系統論文
2018年accepted paper:
http://sigir.org/sigir2018/accepted-papers/
2017年accepted paper:
http://sigir.org/chiir2017/accepted-papers.html
2016年accepted paper:
http://sigir.org/sigir2016/full-papers/
http://sigir.org/sigir2016/short-papers/
還有一些次頂級會議:CIKM/ECML-PKDD/ICDM/SDM/WSDM
2、機器學習類:
AAAI: 頂級人工智能綜合會議
2019年accepted paper:
https://aaai.org/Conferences/AAAI-19/wp-content/uploads/2018/11/AAAI-19_Accepted_Papers.pdf
2018年accepted paper:
https://aaai.org/Conferences/AAAI-18/wp-content/uploads/2017/12/AAAI-18-Accepted-Paper-List.Web_.pdf
2017年accepted paper:
https://www.aaai.org/Conferences/AAAI/2017/aaai17accepted-papers.pdf
IJCAI: 頂級人工智能綜合會議
2019年 accepted paper: 審稿中
2018年accepted paper:
http://www.ijcai-18.org/accepted-papers/index.html
2017年accepted paper:
https://ijcai-17.org/accepted-papers.html
ICML :頂級機器學習會議
2019年accepted paper: 審稿中
2018年accepted paper:
https://icml.cc/Conferences/2018/Schedule?type=Poster
2017年accepted paper:
https://icml.cc/Conferences/2017/Schedule?type=Poster
NIPS:頂級綜合人工智能會議
2019年accpeted paper: 徵稿中
2018年accepted paper:
https://nips.cc/Conferences/2018/Schedule?type=Poster
2017年accepted paper:
https://nips.cc/Conferences/2017/Schedule?type=Poster
還有一些其他的專業人工智能會議:如自然語言處理領域的 ACL/EMNLP/NAACL/COLING。偏統計的人工智能會議:AISTATS。
圖像的人工智能會議:CVPR/ICCV/ECCV。小夥伴們可以看一些上述與自己相關的會議論文,針對論文的方法的不足,思考改進的方法!
數智優質活動推介
由百度雲主辦,英特爾、漢得、麥思博協辦的《2019百度雲智峰會》將於下週四(2019年4月11日)在北京嘉裡大酒店舉辦,在北京的數智粉絲可以到場參與活動,本次活動的分享嘉賓包含百度副總裁、百度雲副總經理、百度雲高級產品經理、百度雲容器資深架構師、百度雲存儲資深架構師、百度雲主任架構師、愛奇藝CDN技術負責人等資深技術大拿,你會聽到關於百度和百度雲的各類產品和技術實踐!本次大會完全免費!免費!免費!(重要的事情說三遍~音視頻,在線教育,遊戲,資訊閱讀等泛互聯網人群都可報名),溫馨提示:活動限額200名,先到先得。
關注公號“數智物語”回覆“百度雲峰會”可進行活動報名和查看會議詳情。
閱讀更多 數智物語 的文章