學起來!趣味、技能和價值兼備的14個數據科學項目的清單

全文共2542字,預計學習時長11分鐘


學起來!趣味、技能和價值兼備的14個數據科學項目的清單

圖源:unsplash


有些人可能快要或者已經開學了,但有些人的“居家令”遙遙無期。當世界恢復如常,你打算從隔離期裡帶出什麼?躺了三個月養出的小肚腩嗎?不妨花些時間學習新技能、讀書和提高自己。


對於那些對數據分析或數據科學感興趣的人,本文提供了一份在業餘時間可以做的十四個數據科學項目的清單,兼具趣味、技能和價值,快來試試吧。


學起來!趣味、技能和價值兼備的14個數據科學項目的清單

可視化項目


數據可視化或許是最快完成的項目,下面三個數據集可用於創建一些有趣的可視化效果,以添加到投資組合中。


冠狀病毒可視化

難度:容易

數據集:
https://www.kaggle.com/sudalairajkumar/novel-corona-virus-2019-dataset


學起來!趣味、技能和價值兼備的14個數據科學項目的清單

Plotly是一個了不起的庫,它使數據可視化動態化,有吸引力且簡單。試試使用Plotly構建動態可視化,展示冠狀病毒如何在全球範圍內傳播。


地表溫度可視化

難度:中等

數據集:
https://www.kaggle.com/berkeleyearth/climate-change-earth-surface-temperature-data/kernels


氣候變化無可否認。你可以創建一些數據可視化效果,以顯示地表溫度如何隨時間變化。可以通過創建折線圖或其他動態的Choropleth貼圖來實現。


澳大利亞山火可視化

難度:容易

數據集:
https://www.kaggle.com/carlosparadis/fires-from-space-australia-and-new-zeland


學起來!趣味、技能和價值兼備的14個數據科學項目的清單

圖源:unsplash


2019-2020年的森林火災季,也稱為“黑色夏天”,始於2019年6月開始的幾起嚴重的山火。據維基百科統計,大火燒燬了1860萬公頃土地和5900多座建築。


你可以利用數據可視化技能,使用Plotly或Matplotlib顯示山火的強度和地理影響。


學起來!趣味、技能和價值兼備的14個數據科學項目的清單

探索性數據分析項目


探索性數據分析(EDA),也稱為數據探索,是數據分析過程中的一個步驟,其中使用了多種技術來更好地理解所使用的數據集。


酒精與學業成就

難度:簡單

數據集:
https://www.kaggle.com/uciml/student-alcohol-consumption


學起來!趣味、技能和價值兼備的14個數據科學項目的清單

圖源:unsplash


飲酒會影響學生的成績嗎?這項數據是從一項對中學數學和葡萄牙語課程的學生進行的調查中獲得的。它包含幾個變量,例如飲酒量、家庭人數、參與課外活動情況。


利用這一點,探索學校成績與各種因素之間的關係。還可以看看是否可以根據其他變量來預測學生的最終成績。


影響員工流失和績效的最重要因素

難度:容易

數據集:
https://www.kaggle.com/pavansubhasht/ibm-hr-analytics-attrition-dataset


IBM創建了一個綜合數據集,可以用來了解各種因素如何影響員工的流失和滿意度。其中一些變量包括教育程度、工作投入、績效評估和工作與生活的平衡。


探索此數據集,查看是否有任何確實影響員工滿意度的重要變量。此外,看看是否可以將變量根據重要性進行排序。


世界大學排名

難度:容易

數據集:
https://www.kaggle.com/mylesoneill/world-university-rankings


你的國家有世界上最好的大學嗎?成為“最好”的大學意味著什麼?該數據集包含三個全球大學排名。利用這些數據,回答以下問題:


· 頂尖大學在哪些國家?

· 決定一個大學的世界排名的主要因素是什麼?


精靈寶可夢數據探索

難度:容易

數據集:
https://www.kaggle.com/rounakbanik/pokemon


學起來!趣味、技能和價值兼備的14個數據科學項目的清單

圖源:unsplash


這個數據集包含有關所有七代802種精靈寶可夢的信息,去試試回答下面的問題:


· 哪一代精靈寶可夢最強?哪一代最弱?

· 哪一種精靈寶可夢最強?哪一種最弱?

· 是否可以建立分類器來識別傳奇的精靈寶可夢?

· 身體特徵與力量狀態(進攻、防守、速度等)之間是否有關聯?


探索影響預期壽命的因素

難度:容易

數據集:
https://www.kaggle.com/kumarajarshi/life-expectancy-who


世衛組織建立了特定時間內所有國家健康狀況的數據集,其中包括預期壽命、成人死亡率等方面的統計數據。使用此數據集,探索各種變量之間的關係。對預期壽命的最大影響是什麼?


學起來!趣味、技能和價值兼備的14個數據科學項目的清單

圖源:unsplash


創建該數據集是為了回答以下問題:


· 最初選擇的各種預測因素是否真的影響預期壽命?實際影響預期壽命的預測變量是什麼?

· 預期壽命值低(<65)的國家是否應該增加其醫療保健支出以改善其平均壽命?

· 教育對人類壽命有何影響?

· 預期壽命與飲酒有正面還是負面的關係?

· 人口稠密的國家的預期壽命是否趨於降低?

· 嬰兒和成人死亡率如何影響預期壽命?

· 預期壽命與飲食習慣、生活方式、運動、吸菸、飲酒等有正相關還是負相關?

· 免疫接種覆蓋率對預期壽命有何影響?


紐約Airbnb數據探索

難度:中等

數據集:
https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data


自2008年以來,Airbnb讓旅行擁有了更多可能性,提供了更多個性化的體驗世界的方式。該數據集包含有關2019年紐約的住宿信息以及其地理信息、價格、評論數量等。


可以嘗試回答以下一些問題:

· 哪些房東最忙,為什麼?

· 哪些區域的交通流量比其他區域大,為什麼會這樣?

· 價格、評論數量和給定住宿的預訂天數之間是否存在關係?


學起來!趣味、技能和價值兼備的14個數據科學項目的清單

預測建模


貸款預測

難度:容易

數據集:
https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/


學起來!趣味、技能和價值兼備的14個數據科學項目的清單

圖源:Unsplash


取自AnalyticsVidhya,該數據集為615行和13列有關已批准和尚未批准的過去貸款的信息。看看是否可以創建一個模型來預測貸款是否會獲得批准。


二手車價格估算器

難度:中等

數據集:
https://www.kaggle.com/austinreese/craigslist-carstrucks-data


學起來!趣味、技能和價值兼備的14個數據科學項目的清單

圖源:unsplash


Craigslist是全球最大的二手車交易網站。該數據集由Craigslist的抓取數據組成,每隔幾個月更新一次。使用此數據集,看看是否可以創建一個數據集來預測汽車售價是高還是低。


能源消耗的時間序列預測

難度:中高級

數據集:
https://www.kaggle.com/robikscube/hourly-energy-consumption


該數據集由PJM網站上的功耗數據組成。PJM是美國的區域傳輸組織。使用此數據集,查看是否可以構建時間序列模型來預測能源消耗。除此之外,看看是否可以找到一天中各個小時的能耗趨勢、假日用電量以及長期能耗趨勢。


檢測信用卡欺詐

難度:中高級

數據集:
https://www.kaggle.com/janiobachmann/credit-fraud-dealing-with-imbalanced-datasets


學起來!趣味、技能和價值兼備的14個數據科學項目的清單

圖源:unsplash


該數據集顯示了兩天內發生的交易,其中284807筆交易中有492筆欺詐。數據集高度不平衡,陽性類別(欺詐)佔所有交易的0.172%。瞭解如何使用不平衡的數據集並建立信用卡欺詐檢測模型。


皮膚癌圖像檢測

難度:高級

數據集:
https://www.kaggle.com/kmader/skin-cancer-mnist-ham10000


學起來!趣味、技能和價值兼備的14個數據科學項目的清單

圖源:Unsplash


本數據集包含超過10000張圖像,看看是否可以構建神經網絡來檢測皮膚癌。這絕對是最困難的項目,需要有關神經網絡和圖像識別的廣泛知識。


從易到難,就好像闖關一樣,完成這14個項目,你絕對會“功力猛增”。莫負春光,趕快試試吧。


學起來!趣味、技能和價值兼備的14個數據科學項目的清單

留言點贊關注

我們一起分享AI學習與發展的乾貨

如轉載,請後臺留言,遵守轉載規範


分享到:


相關文章: