到底要不要參加Kaggle競賽

【編者按】數據科學家Reshama Shaikh分享了參加Kaggle的理由,並簡要介紹瞭如何入門Kaggle。

關於Kaggle

Kaggle是最著名的預測建模分析競賽平臺。Kaggle公司於2010年在澳大利亞的墨爾本成立,在收到硅谷的投資之後遷往舊金山。2017年被Google收購。如果想了解更多關於Kaggle的歷史和未來,可以看AMA with Anthony Goldbloom(Kaggle CEO的訪談)。

在過去十年來,英文語境中的“數據科學”(data science)一詞的含義逐漸發生了變化。同樣,“數據科學”和“kaggle”也逐漸變得密不可分,與此同時,數據科學社區中的很多人在探究和爭辯這一平臺的用途:

Kaggle……有用嗎?

我對Kaggle最初的想法

和很多人一樣,我對Kaggle競賽抱有一些成見。我聽說Kaggle有好幾年了,也從數據科學領域的其他人那裡獲得了一些對Kaggle的認識:

  • 我聽說過擁有數十年經驗的退休博士成為Kaggle競賽贏家的傳奇(我過去常常好奇這些天才是在沙灘上參賽的,享受著碧水藍天和流暢的wifi,還是呆在昏暗、滿是灰塵的、亂糟糟的辦公室裡參賽的……)
  • 我獲勝的概率為零。
  • 我真的能學到有價值的東西嗎?
  • 投入時間提升精確度0.01有何意義?
  • 這真的是使用我的時間的最好方式嗎?還是說我應該花時間學習另一項更有價值的數據科學技能?
  • 贏家需要使用複雜的集成方法。
  • 數據很乾淨,人為地乾淨,一點也不現實。
  • 參加一項Kaggle競賽並不能讓我成為一個合格的數據科學家,所以何必呢?
  • 我不知道從何開始……

我的第一項Kaggle競賽

在抗拒了幾年之後,我最近第一次參加了Kaggle競賽,Is it a Ship or Iceberg。我寫了一篇文章,分享了初次參加Kaggle競賽的體驗。

到底要不要參加Kaggle競賽

Kaggle競賽和紐約馬拉松

我發現Kaggle競賽和紐約馬拉松很像。大部分參賽者是為了享受過程,而不是贏得第一。

結論:參加吧

要不要參加Kaggle?我的答案:“是”。不管是數據科學的初學者,還是資深的數據科學家,參加Kaggle競賽都是有價值的。下面是一些理由。

評測

獲取你自己的數據集或從網站抓取數據能讓你學到很多,但這麼做的缺點是沒有評測標準,無法比較你的發現。有可能你犯了大錯,但無人知曉,因為沒有經過驗證。Kaggle競賽則提供了一個“檢查你的作品”的平臺。

不同水平的人都能從中學到東西

初學者有很多可以學的:

  • 熟悉Kaggle平臺
  • 如何使用命令行或API從Kaggle獲取數據
  • 結構化的生態系統讓高級統計學技能不足的人集中全力解決問題
  • 理解評估指標
  • 開發、運維技能:Git、雲計算
  • 練習
  • Kaggle提供了一些免費的交互式教程

有經驗的從業人員,仍有許多東西可以學習:

  • 結構化的生態系統讓具備高級統計學技能的人集中全力解決問題
  • 更深入地探索超參數
  • 聚焦當前最先進的新方法
  • 賽後分析贏家的做法
  • 管理大規模數據集(超過一百萬項記錄)
  • 配置GPU機器進行深度學習
  • 使用深度學習並與傳統算法比較結果

數據

整個數據科學社區都在談論論數據集。你能在Kaggle上熟悉其他學習平臺以及會議發言人提到的流行的數據集。

儘管Kaggle提供了數據集,你仍然需要理解數據和評估指標。和流行的觀點不同,仍有需要進一步檢查的“髒數據”。深入分析錯誤標記項將帶來算法方面的調整。

作品集的組成部分

沒錯,參加Kaggle競賽並不能證明你勝任數據科學家的工作。參加一門課程、出席一次會議、分析一個數據集、閱讀一本數據科學的書也不能。參加競賽增加了你的經驗,增強了你的作品集。它是你其他項目的補充,而不是數據科學技能集的唯一證明。

獲得樂趣

人們經常不確定是否要追尋一個數據科學的職位。參加競賽是一種測量你的能力和興奮點的非正式方法。如果你確實很享受參加Kaggle的過程,那說明你的方向沒錯。如果你選擇把時間花在其他事情上面,那也很好;這是一種找到答案的方法。

Kaggle入門

入門指南

EliteDataScience上的The Beginner’s Guide to Kaggle提供了關於Kaggle的詳盡信息,以及上手Kaggle的一些技巧。

核(kernel)是Kaggle用戶分享的代碼(Jupyter Notebook形式,R或Python)。參加競賽時,你可以複製、使用這些代碼。

討論區

每項競賽都有一個討論區,可以交流問題,給核、主題投票。

Slack

Kaggle有一個Slack小組:KaggleNoobs,擁有近四千成員,另外還有一個AMA(Ask Me Anything,問我任何事)頻道,經常訪談Kaggle參賽者和贏家。

選擇

  • 你可以參加已經結束的競賽。記住,參加Kaggle是為了學習,而不是最終結果。
  • 有各種各樣的主題(隨機森林、多元分類、神經網絡、NLP)和各種各樣的數據集(圖像、結構化數據、文本、大數據)

組隊

  • 不管你是初學者還是有經驗的數據科學家,都可以組隊。
  • 剛開始可以作為獨立的小組參賽,以最大化每日的結果提交數量,在競賽快結束時再合併小組。

結論

我覺得很有必要參加至少一次競賽。對沒試過的東西的看法,和已經嘗試過的東西的看法,是不一樣的。和一切事物一樣,Kaggle在不斷演化,特別是Google收購以後。過段時間可以回去看看,有沒有什麼新東西。

不必侷限於Kaggle

儘管Kaggle是最出名的平臺,參加競賽的機會還有很多:

  • 許多大學的數據分析部門舉辦年度競賽
  • 會議經常會辦一些競賽(有時稱為“任務”)
  • 私營公司會贊助自己的競賽


分享到:


相關文章: