推薦一個ApacheCN開源的一個機器學習路線圖:
路線圖
按照步驟: 1 => 2 => 3,你可以當大牛!
1.機器學習 - 基礎
- Machine Learning in Action (機器學習實戰) | ApacheCN(apache中文網)
- 電子版書籍:【機器學習實戰-中文版-帶目錄版.pdf】
- -- 感謝 飛龍小哥哥 生成的電子書《機器學習實戰-ApacheCN.pdf》
- 視頻已更新完成,如果你覺得有價值,請幫忙點 Star【後續組織學習活動:sklearn、kaggle、 Pytorch 和 tensorflow】
- -- 視頻網站:優酷 /bilibili / Acfun / 網易雲課堂,可直接在線播放。(最下方有相應鏈接)
- -- 群小哥哥:紅色石頭: 臺灣大學林軒田機器學習筆記
- 推薦一個機器學習筆記:
- https://feisky.xyz/machine-learning網站視頻
- 機器學習實戰
- 第 1 章: 機器學習基礎
- 機器學習實戰
- 第 2 章: KNN 近鄰算法
- 機器學習實戰
- 第 3 章: 決策樹
- 機器學習實戰
- 第 4 章: 樸素貝葉斯
- 機器學習實戰
- 第 5 章: Logistic迴歸
- 機器學習實戰
- 第 6 章: SVM 支持向量機
- 網上組合內容
- 第 7 章: 集成方法(隨機森林和 AdaBoost)
- 機器學習實戰
- 第 8 章: 迴歸
- 機器學習實戰
- 第 9 章: 樹迴歸
- 機器學習實戰
- 第 10 章: K-Means 聚類
- 機器學習實戰
- 第 11 章: 利用 Apriori 算法進行關聯分析
- 機器學習實戰
- 第 12 章: FP-growth 高效發現頻繁項集
- 機器學習實戰
- 第 13 章: 利用 PCA 來簡化數據
- 機器學習實戰
- 第 14 章: 利用 SVD 來簡化數據
- 機器學習實戰
- 第 15 章: 大數據與 MapReduce
- Ml項目實戰
- 第 16 章: 推薦系統(已遷移)
- 第一期的總結
- 2017-04-08: 第一期的總結
- 理論科班出身-建議去學習 Andrew Ng 的視頻(Ng 的視頻絕對是權威,這個毋庸置疑)
- 編碼能力強 - 建議看我們的《機器學習實戰-教學版》
- 編碼能力弱 - 建議看我們的《機器學習實戰-討論版》,不過在看理論的時候,看 教學版-理論部分;討論版的廢話太多,不過在講解代碼的時候是一行一行講解的;所以,根據自己的需求,自由的組合。
AcFunB站
2.深度學習 - 基礎
深度學習必學反向傳遞: https://www.cnblogs.com/charlotte77/p/5629865.html- CNN原理:
http://www.cnblogs.com/charlotte77/p/7759802.html
- RNN原理:
https://blog.csdn.net/qq_39422642/article/details/78676567
- LSTM深入淺出的好文:
https://blog.csdn.net/roslei/article/details/61912618
3.自然語言處理
學習過程中-內心複雜的變化!!!
自從學習NLP以後,才發現國內與國外的典型區別:
1. 對資源的態度是完全相反的:
1) 國內:就好像為了名氣,舉辦工作裝逼的會議,就是沒有乾貨,全部都是象徵性的PPT介紹,不是針對在做的各位
2)國外:就好像是為了推動nlp進步一樣,分享者各種乾貨資料和具體的實現。(特別是: python自然語言處理)
2. 論文的實現:
1) 各種高大上的論文實現,卻還是沒看到一個像樣的GitHub項目!(可能我的搜索能力差了點,一直沒找到)
2)國外就不舉例了,我看不懂!
3. 開源的框架
1)國外的開源框架:tensorflow/pytorch 文檔+教程+視頻(官方提供)
2) 國內的開源框架: 額額,還真舉例不出來!但是牛逼吹得不比國外差!(MXNet雖然有眾多華人參與開發,但不能算是國內開源框架。基於MXNet的動手學深度學習(https://zh.diveintodeeplearning.org)中文教程,已經由沐神(李沐)以及阿斯頓·張講授錄製,公開發布。文檔+第一季教程+視頻)
每一次深入都要去翻牆,每一次深入都要Google,每一次看著國內的說:哈工大、訊飛、中科大、百度、阿里 多牛逼,但是資料還是得國外去找!
有時候真的挺狠的!真的有點瞧不起自己國內的技術環境!
當然謝謝國內很多博客大佬,特別是一些入門的Demo和基本概念。【深入的水平有限,沒看懂】
- 入門教程必看資料【添加比賽鏈接】:
- https://github.com/apachecn/AiLearning/tree/dev/blog/nlp
- Python 自然語言處理 第二版:
- https://usyiyi.github.io/nlp-py-2e-zh
- 推薦一個liuhuanyong大佬整理的nlp全面知識體系:
- https://liuhuanyong.github.io
- 2.) 機器翻譯
- 3.1.) 篇章分析-內容概述
- 3.2.) 篇章分析-內容標籤
- 3.3.) 篇章分析-情感分析
- 3.4.) 篇章分析-自動摘要
- 4.) UNIT-語言理解與交互技術
應用領域
中文分詞:
- 構建DAG圖
- 動態規劃查找,綜合正反向(正向加權反向輸出)求得DAG最大概率路徑
- 使用了SBME語料訓練了一套 HMM + Viterbi 模型,解決未登錄詞問題
1.文本分類(Text Classification)
文本分類是指標記句子或文檔,例如電子郵件垃圾郵件分類和情感分析。
下面是一些很好的初學者文本分類數據集。
- 路透社Newswire主題分類(路透社-21578)。1987年路透社出現的一系列新聞文件,按類別編制索引。另見RCV1,RCV2和TRC2。
- IMDB電影評論情感分類(斯坦福)。來自網站imdb.com的一系列電影評論及其積極或消極的情緒。
- 新聞組電影評論情感分類(康奈爾)。來自網站imdb.com的一系列電影評論及其積極或消極的情緒。
有關更多信息,請參閱帖子:單標籤文本分類的數據集。
https://www.kaggle.com/c/word2vec-nlp-tutorial- 方案一(0.86):WordCount + 樸素 Bayes
- 方案二(0.94):LDA + 分類模型(knn/決策樹/邏輯迴歸/svm/xgboost/隨機森林)
- a) 決策樹效果不是很好,這種連續特徵不太適合的
- b) 通過參數調整 200 個topic,信息量保存效果較優(計算主題)
- 方案三(0.72):word2vec + CNN
- 說實話:沒有一個好的機器,是調不出來一個好的結果 (: 逃
通過AUC 來評估模型的效果
2.語言模型(Language Modeling)
語言建模涉及開發一種統計模型,用於預測句子中的下一個單詞或一個單詞中的下一個單詞。它是語音識別和機器翻譯等任務中的前置任務。
它是語音識別和機器翻譯等任務中的前置任務。
下面是一些很好的初學者語言建模數據集。
- 古騰堡項目,一系列免費書籍,可以用純文本檢索各種語言。
- 還有更多正式的語料庫得到了很好的研究; 例如:布朗大學現代美國英語標準語料庫。大量英語單詞樣本。谷歌10億字語料庫。
- 中文分詞新詞發現
- python3利用互信息和左右信息熵的中文分詞新詞發現
- https://github.com/zhanzecheng/Chinese_segment_augment
- 項目地址:
- https://www.kaggle.com/c/quora-question-pairs
- 解決方案: word2vec + Bi-GRU
- bi-gram + levenshtein
3.圖像字幕(Image Captioning)
mage字幕是為給定圖像生成文本描述的任務。
下面是一些很好的初學者圖像字幕數據集。
- 上下文中的公共對象(COCO)。包含超過12萬張帶描述的圖像的集合
- Flickr 8K。從flickr.com獲取的8千個描述圖像的集合。
- Flickr 30K。從flickr.com獲取的3萬個描述圖像的集合。欲瞭解更多,請看帖子:
探索圖像字幕數據集,2016年
4.機器翻譯(Machine Translation)
機器翻譯是將文本從一種語言翻譯成另一種語言的任務。
下面是一些很好的初學者機器翻譯數據集。
- 加拿大第36屆議會的協調國會議員。成對的英語和法語句子。
- 歐洲議會訴訟平行語料庫1996-2011。句子對一套歐洲語言。有大量標準數據集用於年度機器翻譯挑戰; 看到:
統計機器翻譯
機器翻譯- Encoder + Decoder(Attention)
- 參考案例:
- http://pytorch.apachecn.org/cn/tutorials/intermediate/seq2seq_translation_tutorial.html
5.問答系統(Question Answering)
問答是一項任務,其中提供了一個句子或文本樣本,從中提出問題並且必須回答問題。
下面是一些很好的初學者問題回答數據集。
- 斯坦福問題回答數據集(SQuAD)。回答有關維基百科文章的問題。
- Deepmind問題回答語料庫。從每日郵報回答有關新聞文章的問題。
- 亞馬遜問答數據。回答有關亞馬遜產品的問題。有關更多信息,請參閱帖子:
數據集:我如何獲得問答網站的語料庫,如Quora或Yahoo Answers或Stack Overflow來分析答案質量?
6.語音識別(Speech Recognition)
語音識別是將口語的音頻轉換為人類可讀文本的任務。
下面是一些很好的初學者語音識別數據集。
- TIMIT聲學 - 語音連續語音語料庫。不是免費的,但因其廣泛使用而上市。口語美國英語和相關的轉錄。
- VoxForge。用於構建用於語音識別的開源數據庫的項目。
- LibriSpeech ASR語料庫。從LibriVox收集的大量英語有聲讀物。
7.自動文摘(Document Summarization)
文檔摘要是創建較大文檔的簡短有意義描述的任務。
下面是一些很好的初學者文檔摘要數據集。
- 法律案例報告數據集。收集了4000份法律案件及其摘要。
- TIPSTER文本摘要評估會議語料庫。收集了近200份文件及其摘要。
- 英語新聞文本的AQUAINT語料庫。不是免費的,而是廣泛使用的。新聞文章的語料庫。欲瞭解更多信息:
文檔理解會議(DUC)任務。在哪裡可以找到用於文本摘要的良好數據集?
命名實體識別- Bi-LSTM CRF
- 參考案例:
- http://pytorch.apachecn.org/cn/tutorials/beginner/nlp/advanced_tutorial.html
- CRF推薦文檔:
- https://www.jianshu.com/p/55755fc649b1
- 抽取式
- word2vec + textrank
- word2vec推薦文檔:
- https://www.zhihu.com/question/44832436/answer/266068967
- textrank推薦文檔:
- https://blog.csdn.net/BaiHuaXiu123/article/details/77847232
Graph圖計算【慢慢更新】
- 數據集: data/nlp/graph
- 學習資料: spark graphX實戰.pdf 【文件太大不方便提供,自己百度】
進一步閱讀
如果您希望更深入,本節提供了其他數據集列表。
- 維基百科研究中使用的文本數據集
- 數據集:計算語言學家和自然語言處理研究人員使用的主要文本語料庫是什麼?
- 斯坦福統計自然語言處理語料庫
- 按字母順序排列的NLP數據集列表
- 該機構NLTK
- 在DL4J上打開深度學習數據
- NLP數據集
- 國內開放數據集:
- https://bosonnlp.com/dev/resource
閱讀更多 低頭搬磚的小強 的文章