機器學習入門方法和資料合集

機器學習入門方法和資料合集

機器學習入門方法和資料合集

機器學習入門方法和資料合集

文章發佈於公號【數智物語】 (ID:decision_engine),關注公號不錯過每一篇乾貨。

轉自 | AI算法之心(公眾號ID:AIHeartForYou)

作者 | 何從慶

近些天經常有小夥伴問到“機器學習如何入門,看哪些資料 ?”,於是乎想根據筆者學習兩年多的學習經驗,介紹下機器學習如何入門,該看哪些資料?下面我將從以下幾個方面整理機器學習入門的資源:

(1)語言:機器學習中常用的語言。

(2)書籍:書中自有黃金屋,機器學習中涉及到的很多數學理論,只看視頻或者博客是很難獲取到完整的知識框架。

(3)視頻:書中有些公式推導很難理解,可以看看大牛們深入淺出的課程。

(4)博客:經常看一些大牛們的分享,對於擴展知識面具有一定的幫助。

(5)比賽:實踐是檢驗學習成果重要標準,參加一些算法競賽,對於理解算法有著良好的幫助。

(6)論文:對於一些碩士來說,創新是檢驗學習能力重要體現。

01

語言

人生苦短,我用python”,python目前已經成為機器學習中最主流的語言,由於其豐富的算法庫。

1、numpy: 最基礎的python庫之一。

地址:http://www.numpy.org/

2、pandas: 常用於數據處理的庫。

地址:https://pandas.pydata.org/pandas-docs/stable/

3、scipy: SciPy是一個開源的Python算法庫和數學工具包。

地址:https://docs.scipy.org/doc/scipy/reference/tutorial/index.html

4、scikit-learn:sklearn包含眾多的算法接口,從監督學習到半監督學習,再到無監督學習。還有評價指標、特徵選擇等。

地址:https://scikit-learn.org/

5、scikit-multilearn:multi-label的算法庫。

地址:http://scikit.ml/

還有一些深度學習的算法庫,如:

6、keras:最適合入門深度學習的小夥伴的算法庫。

地址:https://keras.io/zh/

還有一些較難的深度學習算法庫,如tensorflow,pytorch。

02

書籍

1、《統計學習方法》:李航老師的《統計學習方法》這本書堪稱經典,很多同學都靠著這本書找到理想的工作,強力推薦!對於許多想入門機器學習的小夥伴們,建議多看幾遍這本書,弄懂算法的每一個細節。

2、《機器學習》:周志華老師的《機器學習》這本書,很多人又稱之為西瓜書,也是很有幫助的。基本涵蓋機器學習的所有分支,如監督學習,無監督學習,半監督學習,強化學習,特徵選擇等。

3、《推薦系統實戰》:項亮博士的《推薦系統實戰》這本書,很適合對於想了解推薦系統的小夥伴們有一定的幫助。

4、《概率論與數理統計》:很多機器學習算法都是從統計學概率論上發展而來的,對於概率知識統計知識不足的小夥伴們,建議研讀這本書。

5、《Pattern Recognition and Machine Learning》:如果有小夥伴們英文比較好,小夥伴們也可以看看PRML這本經典的書。

6、《Reinforcement Learning: An Introduction》:如果有小夥伴想研究強化學習,這是一本不錯的強化學習入門書籍。

03

視頻

如果小夥伴們對於上述書籍看起來很吃力,很難弄懂算法的來龍去脈,建議將書籍(初學者推薦:《統計學習方法》)與視頻結合起來,相互促進。

1、吳恩達老師的公開課:網易雲上和coursera上都有他的講課,很基礎的版本,建議大家入門的時候多看看這個視頻。個人覺得coursera上面的課程比較簡單點。

網易雲上面的地址:http://open.163.com/special/opencourse/machinelearning.html

coursera上面的地址:

https://www.coursera.org/learn/machine-learning

2、李宏毅老師的課程:李宏毅老師的課程也是比較好,值得大家學習。

這裡有整理好的版本:https://blog.csdn.net/soulmeetliang/article/details/77461607

04

博客

國內:

1、火光搖曳:騰訊技術大牛們的博客。

地址:http://www.flickering.cn/

2、美團技術團隊的博客:裡面也有很多幹貨。

地址:https://tech.meituan.com/

3、蘇劍林的博客裡面也全是乾貨。

地址:https://spaces.ac.cn/

4、還有一些比較大型的博客網站,

如博客園,簡書,CSDN,知乎等等。

國外:

1、Netflix:Netflix技術博客,很多幹貨。

地址:https://medium.com/netflix-techblog

2、Towards Data Science:主要分享些概念、idea和代碼。

地址:https://towardsdatascience.com/

3、Github: all code is here。

05

比賽

學習機器學習的過程中,如何檢驗自己學習的成果呢?比賽就是一個比較好的方向,比賽其實可能會為了成績,摳那千分位,百分位的差距,但是其實在比賽中思考才是最重要的。如何將這些經典的算法應用到工業中,這些算法在工業中的優缺點?慢慢體會!

國內比較大型的算法平臺有:

天池大數據:

https://tianchi.aliyun.com/home/

datacastle:

http://www.pkbigdata.com/

datafountain:

https://www.datafountain.cn/

biendata:

https://biendata.com/

kesci:

https://www.kesci.com/

Jdata:

https://jdata.jd.com/

國外比較大型的算法平臺有:

kaggle:

https://www.kaggle.com/

比賽平臺有很多,這幾個是比較出名的平臺。大家可以去官網看一看,有很多正在進行中的比賽。另外,還有很多其他的平臺,這裡暫不一一介紹了。

06

論文

很多即將大四畢業,跨入研究生生活的師弟師妹們,也或者即將邁入研二的師弟師妹呢,是否還在為畢業發愁呢?小論文成為中國碩士畢業老難題!其實,寫一篇比較簡單的ccf c類的論文並不是很難,或許 ccf b ccf a類的論文確實很難!如何入門呢?看近些年機器學習、人工智能的頂級會議、期刊論文(會議論文速度更快)。這裡我僅整理下會議論文。

值得看的會議文章:

1、數據挖掘類:

SIGKDD:頂級數據挖掘論文。

2018年accepted paper:

https://www.kdd.org/kdd2018/accepted-papers

2017年accepted paper:

https://www.kdd.org/kdd2017/accepted-papers

2016年accepted paer:

https://www.kdd.org/kdd2016/program/accepted-papers

SIGIR:頂級推薦系統論文

2018年accepted paper:

http://sigir.org/sigir2018/accepted-papers/

2017年accepted paper:

http://sigir.org/chiir2017/accepted-papers.html

2016年accepted paper:

http://sigir.org/sigir2016/full-papers/

http://sigir.org/sigir2016/short-papers/

還有一些次頂級會議:CIKM/ECML-PKDD/ICDM/SDM/WSDM

2、機器學習類:

AAAI: 頂級人工智能綜合會議

2019年accepted paper:

https://aaai.org/Conferences/AAAI-19/wp-content/uploads/2018/11/AAAI-19_Accepted_Papers.pdf

2018年accepted paper:

https://aaai.org/Conferences/AAAI-18/wp-content/uploads/2017/12/AAAI-18-Accepted-Paper-List.Web_.pdf

2017年accepted paper:

https://www.aaai.org/Conferences/AAAI/2017/aaai17accepted-papers.pdf

IJCAI: 頂級人工智能綜合會議

2019年 accepted paper: 審稿中

2018年accepted paper:

http://www.ijcai-18.org/accepted-papers/index.html

2017年accepted paper:

https://ijcai-17.org/accepted-papers.html

ICML :頂級機器學習會議

2019年accepted paper: 審稿中

2018年accepted paper:

https://icml.cc/Conferences/2018/Schedule?type=Poster

2017年accepted paper:

https://icml.cc/Conferences/2017/Schedule?type=Poster

NIPS:頂級綜合人工智能會議

2019年accpeted paper: 徵稿中

2018年accepted paper:

https://nips.cc/Conferences/2018/Schedule?type=Poster

2017年accepted paper:

https://nips.cc/Conferences/2017/Schedule?type=Poster

還有一些其他的專業人工智能會議:如自然語言處理領域的 ACL/EMNLP/NAACL/COLING。偏統計的人工智能會議:AISTATS。

圖像的人工智能會議:CVPR/ICCV/ECCV。小夥伴們可以看一些上述與自己相關的會議論文,針對論文的方法的不足,思考改進的方法!

機器學習入門方法和資料合集

數智優質活動推介

由百度雲主辦,英特爾、漢得、麥思博協辦的《2019百度雲智峰會》將於下週四(2019年4月11日)在北京嘉裡大酒店舉辦,在北京的數智粉絲可以到場參與活動,本次活動的分享嘉賓包含百度副總裁、百度雲副總經理、百度雲高級產品經理、百度雲容器資深架構師、百度雲存儲資深架構師、百度雲主任架構師、愛奇藝CDN技術負責人等資深技術大拿,你會聽到關於百度和百度雲的各類產品和技術實踐!本次大會完全免費!免費!免費!(重要的事情說三遍~音視頻,在線教育,遊戲,資訊閱讀等泛互聯網人群都可報名),溫馨提示:活動限額200名,先到先得。

關注公號“數智物語”回覆“百度雲峰會”可進行活動報名和查看會議詳情。

機器學習入門方法和資料合集


分享到:


相關文章: