過去5年最受歡迎機器學習論文+代碼速查

过去5年最受欢迎机器学习论文+代码速查

过去5年最受欢迎机器学习论文+代码速查

新智元編譯

【新智元導讀】Papers with Code網站將ArXiv上的最新機器學習論文與GitHub上的代碼聯繫起來。這個項目索引了大約5萬篇論文和1萬個GitHub庫,你可以按標題關鍵詞查詢,也可以按流行程度、GitHub星星數排列“熱門研究”,跟上ML社區流行的最新動態。

網站地址:https://paperswithcode.com

过去5年最受欢迎机器学习论文+代码速查

在閱讀一篇論文時,我們很自然地想看看論文中提出的算法和模型實現的代碼。然而,機器學習領域雖然有開源的優良傳統,但提出新算法的最新論文中,真正公開算法代碼的著實不多,找到對應論文的相關代碼庫也不容易。

去年在AAAI會議上,挪威一名計算機科學家報告了一項調查的結果:過去幾年發表的AI頂會論文提出的400種算法中,只有6%的研究者公開了算法的代碼。另外,只有三分之一的人分享了他們測試算法的數據,而只有一半分享了“偽代碼”。

过去5年最受欢迎机器学习论文+代码速查

CREDITS: (GRAPHIC) E. HAND/SCIENCE; (DATA) GUNDERSEN AND KJENSMO, ASSOCIATION FOR THE ADVANCEMENT OF ARTIFICIAL INTELLIGENCE 2018

現在,有一個找到論文代碼的“神器”出現了。Reddit用戶rstoj做了一個網站,將ArXiv上的最新機器學習論文與GitHub上的代碼(TensorFlow/PyTorch/MXNet /等)對應起來。你可以按標題關鍵詞查詢,也可以按流行程度、GitHub星星數排列“

熱門研究”。這個網站能讓你跟上ML社區流行的最新動態。

过去5年最受欢迎机器学习论文+代码速查过去5年最受欢迎机器学习论文+代码速查

網站地址:https://paperswithcode.com/

這個項目索引了大約5萬篇論文(最近5年發佈在arxiv上的論文)和1萬個GitHub庫。網站剛剛上線,功能還有些單一,作者表示未來還將增加標籤索引、鏈接媒體文章和教程等功能。以下介紹按GitHub星星數排列的Top 10研究,來先睹為快吧!

1. Caffe:一個快速、開源的深度學習框架

star:24,596

代碼:https://github.com/BVLC/caffe

Caffe 是一個深度學習框架,在設計時將表達式、速度和模塊化考慮在內。這個熱門的計算機視覺框架由 Berkeley AI Research(BAIR)和社區貢獻者開發。賈揚清在UC Berkeley博士期間創建了這個項目。Caffe 可為學術研究項目、新創公司原型和大規模行業應用程序提供強大的視覺、語音和多媒體支持。

Caffe是一個採用BSD許可證發佈的C ++庫,使用Python和MATLAB綁定,可在商用架構上有效訓練和部署通用卷積神經網絡和其他深層模型。Caffe通過CUDA GPU計算滿足行業和互聯網規模的媒體需求,在單個K40或Titan GPU上,媒體處理超過4000萬張圖像。

2. Neural Style:神經風格轉換算法

A Neural Algorithm of Artistic Style

star:15,840

代碼:https://github.com/jcjohnson/neural-style

在藝術,特別是繪畫中,人類已經掌握了通過圖像風格來創造獨特的視覺體驗的技巧。在這篇論文中,研究人員提出一種算法,用卷積神經網絡將一幅圖像的內容與另一幅圖像的風格進行組合。下面是一個將梵高《星夜》的藝術風格轉移到斯坦福大學校園夜景的照片中的效果:

过去5年最受欢迎机器学习论文+代码速查

3. Detectron

star:14,795

代碼:https://github.com/facebookresearch/detectron

Detectron是Facebook AI Research(FAIR)的物體檢測研究平臺,這個代碼庫包含許多最新對象檢測算法的實現,包括了Mask R-CNN和RetinaNet等流行算法。

过去5年最受欢迎机器学习论文+代码速查

4. 使用子字信息豐富詞彙向量

Enriching Word Vectors with Subword Information

star:14,565

代碼:https://github.com/facebookresearch/fastText

在大型未標記語料庫上訓練的連續詞表示對許多自然語言處理任務都很有用。一個向量表示與每個字符n-gram相關聯; 單詞被表示為這些向量表示的總和。

5. FastText.zip:壓縮文本分類模型

FastText.zip: Compressing text classification models

這是為文本分類生成緊湊的體系結構的問題,從而使整個模型可以在有限的內存中使用。在思考了由哈希方法啟發的不同解決方案之後,我們提出了一種基於產品量化來存儲詞嵌入的方法。

6. 高效的文本分類技巧包

Bag of Tricks for Efficient Text Classification

這篇文章探討了一種簡單有效的文本分類基準。實驗表明,我們的快速文本分類器fastText在準確率上可以與深度學習分類器相媲美,並且在訓練和評估上速度快了幾個數量級。

(注:以上3篇論文都鏈接到fastText的GitHub庫)

7. 多目標強化學習:挑戰機器人環境和研究要求

Multi-Goal Reinforcement Learning: Challenging Robotics Environments and Request for Research

star:12,481

代碼:https://github.com/openai/gym

這篇技術報告有兩個目的:首先,它基於現有的機器人硬件,引入了一套具有挑戰性的連續控制任務(與OpenAI Gym集成),包括用機器人手臂進行推動、滑動,拾物和放置等。第二部分,研究人員提出一套改進RL算法的具體研究思路,其中大部分與多目標RL和事後經驗回放(Hindsight Experience Replay)有關。

8. OpenAI Gym

OpenAI Gym是強化學習研究的工具包。它包括越來越多的基準問題集,引入一個通用的接口,以及一個可以讓人們在上面分享他們的結果並比較算法的性能的網站。

9. XGBoost:一種可擴展的基於樹的Boosting系統

XGBoost: A Scalable Tree Boosting System

star:12,449

代碼:https://github.com/dmlc/xgboost

在這篇論文中,我們描述了一個名為XGBoost的可擴展端到端的tree boosting系統,該系統已經被數據科學家廣泛使用,實現了許多機器學習挑戰的最新成果。我們提出了一種新的用於稀疏數據的sparsity-aware 算法。

10. 使用深度卷積網絡的圖像超分辨率

Image Super-Resolution Using Deep Convolutional Networks

star:11,432

代碼:https://github.com/nagadomi/waifu2x

該映射表示為一個深度卷積神經網絡(CNN),它將低分辨率圖像作為輸入,並輸出高分辨率圖像。我們進一步證明傳統的基於稀疏編碼的SR方法也可以被看作是一個深度卷積網絡。

【加入社群】


分享到:


相關文章: