在分析了優秀數據科學家後,我們發現了這10個祕密……

在分析了優秀數據科學家後,我們發現了這10個秘密……

每天,人類和機器會產生2.5qn(即quintillion,10^18)字節的數據。這個數量非常龐大,而其中90%的互聯網數據,都是在2016年至今這不長的時間中積累下的。過去十年裡,數據量由200qn增長到了41萬qn。這些數據來自全球各地,可能是一條朋友發送的臉書消息,也可能是在另一個星系中有一顆流星被發現。

所有這些碎片化信息都是由雜亂無章的數據組成的,想要分析這些數據,無論對人還是對任何自動化機器來說都是巨大挑戰。只要能夠理解這些數據,一個優秀的數據專家就可以從中挖掘到巨大的價值,並進一步促進數據科學以及大數據、分析、機器學習、人工智能和其他領域應用的演進。

Gartner魔力象限報告顯示,數據科學和機器學習是可以重塑未來的兩種新興技術。眾所周知,數據科學融合了各種工具、算法和機器學習原理,可以從原始和非結構化的數據中挖掘出隱藏的規律和有意義的洞察。經驗豐富的數據科學家能夠成為該領域專家,就是依靠下面這些秘密武器。

統計學

在分析了優秀數據科學家後,我們發現了這10個秘密……

藉助結構雜亂的數據去處理現實中的複雜問題,是非常具有挑戰性的。首先應該重點關注將隨機噪聲從數據源中分離出來,並使線程可行。統計學通過對數據進行數學計算,來幫助人們從數據中獲得有意義的洞察。

領域知識

即使是在醫療保健或者火箭科學中,所處科技領域的不同也是這些數據科學家之間的唯一區別。數據科學家的主要優勢在於,他們可以通過幾周時間的實踐適應不同語言或技術。一旦數據科學家獲得了這些知識,他們將能夠基於該領域的環境和經驗,為所有問題找到精準的解決方案。

可視化

在分析了優秀數據科學家後,我們發現了這10個秘密……

人們難以用二進制溝通。為了使所有的業務解決方案具有更高的透明度,必須將數據從二進制轉化為到可以被視覺接受的形式。在提出解決方案之前,開發人員需要更好地瞭解問題。這裡的可視化,指的是將數據轉換為簡單易懂的形式。

數據挖掘

數據挖掘,關鍵在於如何從分佈式數據集中提取信息。整個過程包括數據查詢、尋找關聯並從現有的數據集中查找關鍵信息,這需要高強度的計算力和創造力。該流程可以用來對數據進行轉換、清洗、集成和模式分析。

數據庫和數據處理

在分析了優秀數據科學家後,我們發現了這10個秘密……

這包括清洗、存儲和處理數據,以便從中挖掘出可執行的洞察。需要將從多個來源收集的信息,按照用戶需要的方式轉換並加載到系統中。

溝通

對於數據科學家來說,能夠回答“是什麼”以及“為什麼”是第一步,把你的發現和解決方案傳達給“聽眾”是最後一步。整個過程中,60%的數據來自於記錄。而剩下的40%,你需要進行收集,與一些部門或者總監等管理者坐在一起溝通。一個成功的數據科學家,同樣也是一個好的傾聽者。

展示

在分析了優秀數據科學家後,我們發現了這10個秘密……

要以有吸引力和有用的方式向觀看者展示數據。數據科學家被當作是數據洞察的傳遞者。你可以編寫數百萬的代碼來構建解決方案,但吸引眼球的演示才能為工作畫上句號。如果你不具備向關鍵決策者展示輸出結論的能力,那麼所有的工作都失去了意義。

實踐

常言道,熟能生巧。獲得真實體驗的最好也是最簡單的方法是管理或構建小型項目。你可以從互聯網上獲取樣本數據,也可以從任何已知的商店或零售商處收集數據。找到一些開源項目,併為項目做出貢獻;清理一些有意思的數據庫,並通過探索或預測從中獲得洞察。

編程

在分析了優秀數據科學家後,我們發現了這10個秘密……

越能夠與機器交流,它就會為你提供理想的結果。通過你的技術能力,瞭解機器是如何運行的。數據科學家通常更喜歡使用常用的編程語言,例如Python、R、Java、Julia、Scala和SQL。大部分數據科學家似乎首選Python,因為與其他語言相比,Python的速度更快。

創造力

讓好奇心激發你產生新的想法,引導大腦去發現那些令人大開眼界的見解。如果想成為一個偉大的數據科學家,你必須在每一步中發現創新的解決方案。常言道:發現萬有引力的不是牛頓,而是他的好奇心。

探索和理解這些基本的奧秘,積極地去解決難題吧!

作者:Joys Joy

來源:
https://datafloq.com/read/10-invisible-secrets-data-scientists/7939

翻譯:TalkingData 雅婷

圖片來源:Unsplash


分享到:


相關文章: