從新冠數據集到AutoML庫集,值得學習的數據科學項目

全文共1899字,預計學習時長8分鐘


從新冠數據集到AutoML庫集,值得學習的數據科學項目

圖源:xlike


像這樣的官方要求之下未知期限的集體休假,確實是極為罕見的。這樣的“封鎖”或許讓你崩潰,孤獨感和經濟壓力可能正在襲來。但也不完全是壞事,尤其當你計劃提高數據科學組合能力,並想要在危機後,得到一份可靠且與行業相關的簡歷的時候!


這可能是難得的時機,一個真正深入研究並從事於數據科學項目的機會。你有了大把的時間,並且社區中不乏也開源數據科技項目和想法。從計算機視覺和自然語言處理項目到python和工程數據的想法,每個人都有一個項目。


唯一的問題是——應該從哪兒開始?這個問題從來沒有像現在這麼有意義,這也是本文想要回答的問題。準備好了嗎?Let’s go!


從新冠數據集到AutoML庫集,值得學習的數據科學項目

1.冠狀病毒時間序列數據


從哪兒開始?不如就從為什麼你居然在一個工作日躺在床上說起吧。


新冠病毒正主宰著世界,所有的網站標題永遠是新冠。幸虧全球有很多研究室和組織一直收集有關新冠肺炎的數據,並且對我們開放。所以為什麼不使用數據科學知識來解決一些問題呢?


從新冠數據集到AutoML庫集,值得學習的數據科學項目

圖源:unsplash


這個GitHub庫(https://github.com/datasets/covid-19)包含時間序列數據,該數據跟蹤了全球受新冠肺炎影響的人數,包括:


· 新冠肺炎確診病例

· 痊癒人數

· 死於新冠肺炎的人數


這個項目的作者每天用 CSV格式更新數據集,你今天就可以下載下來然後開始分析。


你還可以看看另一個GitHub庫,其中包含針對美國新冠病毒病例的數據集。(https://github.com/nytimes/covid-19-data)


從新冠數據集到AutoML庫集,值得學習的數據科學項目

2.谷歌的多區無線電導航系統


這是谷歌研發團隊開發的另一個開源項目,谷歌研發團隊是這樣定義ELECTRA的:


“ELECTRA是一種用於自監督語言表徵的學習方法。它可以用於使用較少的計算量來預訓練transformer網絡。訓練ELECTRA模型區分‘真’令牌和由另一個神經網絡系統生成的‘偽’令牌。”


ELECTRA令筆者印象深刻的是,即使在單個GPU上也可以實現精準操作。ELECTRA在大型數據集上達到了完全不同的水平,並在SQuAD 2.0基準測試中達到了最佳的性能。


你可以通過Google的研究論文進一步瞭解ELECTRA。谷歌團隊目前已經發布了三個預訓練模型。(https://openreview.net/pdf?id=r1xMH1BtvB)


從新冠數據集到AutoML庫集,值得學習的數據科學項目

在開始之前,需要把以下要求的功能安裝在機器上。


· Python 3

· TensorFlow1.15

· NumPy

· scikit-learn and SciPy


從新冠數據集到AutoML庫集,值得學習的數據科學項目

3.NLP論文摘要


自然語言處理領域在過去三年裡已經取得了突飛猛進般的進展。從2017年的Transformer架構開始,我們見證了許多突破和有開創性的NLP庫,包括谷歌BERT模型,OpenAI的GPT-2等等。(https://github.com/dair-ai/nlp_paper_summaries)


從新冠數據集到AutoML庫集,值得學習的數據科學項目

圖源:tencent


這個GitHub庫是為更廣大的數據科學專業人員總結的NLP 關鍵論文集,以下是這個庫中包含的一些主題列表:


· 對話與互動系統

· NLP模型的可解釋性和分析

· 語言以視覺,機器人等為基礎

· 問答

· 資源和評估

· 語義學

· 文本情感分析,文本分析以及論證挖掘

· 語言建模

· NLP的機器學習

· 機器翻譯

· 多任務學習

· NLP應用

· 言語與多模態

· 道德規範與自然語言處理

· 文本生成

· 信息提取

· 文本摘要

· 語句法:添加標籤、分塊、解析


不只是這些,這裡只列出來一部分。選擇一篇NLP論文並開始解析,那裡提供很多一站式知識服務。


從新冠數據集到AutoML庫集,值得學習的數據科學項目

4.GoogleBrain AutoML


AutoML是為了滿足自動化典型機器學習某些任務的自動化,幾年前為了節省時間而開始的一項附帶項目,如今變成了一個成熟的研究領域。


市場中有很多AutoML工具,可以使整個ML管道自動化。對於沒有專門的數據科學團隊或負擔不起從零開始的僱傭費用的團隊而言,AutoML更受歡迎。幾乎每個科技巨頭都在市場上擁有AutoML解決方案,從谷歌的雲自動機器學習到百度的EZDL(人工智能模型訓練平臺)。


從新冠數據集到AutoML庫集,值得學習的數據科學項目

圖源:towardsdatascience


GoogleBrain團隊開發的數據科學項目包含了和AutoML相關的模型與庫的列表。GitHub庫從作者6天前開放源碼就已經積累了1600顆星。(https://github.com/google/automl)


從新冠數據集到AutoML庫集,值得學習的數據科學項目

5.GAN壓縮


2014年,Ian Goodfellow將對抗生成網絡推向了數據科學領域。此後,這些GAN逐漸演變為有用的(通常是娛樂性的)應用程序,例如生成藝術品和製作電影。


但是訓練GAN模型的一個重要問題是所需的強大計算能力。這就是GAN壓縮的用武之地。GAN壓縮是“壓縮條件GAN的通用方法”。它減少了流行的基於GAN模型的計算,例如pix2pix,CycleGAN等。


從新冠數據集到AutoML庫集,值得學習的數據科學項目

從新冠數據集到AutoML庫集,值得學習的數據科學項目

6.StyleGAN2——最新的GAN


這是一個最新的GAN架構。StyleGAN在計算機視覺社區中非常受歡迎,StyleGAN2使問題更趨現實。


“ StyleGAN2是生成逼真的圖像的最先進架構。此外,它還經過了明確訓練,可以在隱空間中解開方向,從而可以通過改變潛在因素來進行有效的圖像處理。”


從新冠數據集到AutoML庫集,值得學習的數據科學項目

居家隔離的日子可能暫時還無法結束,但比起上街遊行抗議,沉下心來將時間投資於學習和未來,或許是一個更好的選擇。


從新冠數據集到AutoML庫集,值得學習的數據科學項目

我們一起分享AI學習與發展的乾貨


分享到:


相關文章: