數據工程師必須掌握的7個大數據實戰項目

簡介: 值得收藏,數據工程師必須掌握的7個大數據實戰項目

1
作為一名電影愛好者,我閱片無數,有些片子還經常翻來覆去看個好幾遍。小時候因為這事兒,沒少被我媽抓耳朵,“看過的片子為啥還要倒二遍?”我也說不上來,就是單純的愛看。

男人愛看的電影,以武俠,動作,科技為多,也認識了一幫明星,比如尼古拉斯凱奇,史泰龍,李小龍,成龍,李連杰,甄子丹等等。這些人很猛,有男人氣。只要是他們的片兒,肯定不落下。在我眼裡,他們就是好片代名詞。

不知幾何時,電影上開始出現一些不認識的男明星了,比如張翰,韓庚,鹿晗等等。看著這些人主演的片子,真是……哎,能不睡著就算是對得起票錢了。

後來我從半佛那裡才知道,啥叫鮮肉,啥叫老阿姨審美。假如看到有更嫩的男演員,不用問了,老阿姨審美又變了。註定又是一部爛片。

那麼,審美可以變,審詞呢?

比如這幾年,媒體一直在炒作的大數據,用前衛的詞兒來說,Big Data. 聽得人耳朵老繭都漲了一層。那麼 大家是真把它當做有效的工具呢,還是固執的認為又是換湯不換藥的營銷噱頭呢?

為弄清楚這個問題,我查了很多資料,中文的,外文的,百度文庫的, Google 論文。期間的所見所聞可以寫 3 部小說還不止。

令我印象最深的還屬這件事:
《紐約時報》將 1851 - 1922 之間的 1100 多萬篇文章,在24小時內花費3000美金,轉成 PDF 供大眾搜索查看。

資料背景指出,這些文章已經做好了 TIFF 圖檔格式,要解決的本質問題就是將 TIFF 轉換成 PDF.這件事情,工作量非常大。單純寫代碼轉換,可行,但對完工時間不好把握。

此時有個工程師,僅憑一人之力完成了這項工作,整個過程,他只做了 4 件事情:

1) 首先他是資深編程愛好者。平常閱讀技術Blog,知道 AWS, S3,EC2 等雲計算概念,還熟悉 Google 的 MapReduce 論文,並且知道 Hadoop 的功能。

2)於是他自己在他的個人電腦上,搭建了Hadoop,玩起大數據,利用 MapReduce 來試著完成 TIFF 到 PDF 的轉換;

3)接著在 Amazon 上申請 4 臺 EC2 的主機,搭建了 Hadoop 集群,跑了一批 TIFF 到 PDF 轉換程序。發現居然可行。

4)大規模實施批量轉換,用了 24 個小時,3000 美金,最終將 1100 萬文章的影音圖像,轉成了 PDF,並對外提供服務。

再舉一些經過報道的大數據應用案例:
Yahoo!使用4000節點的集群運行 Hadoop, 支持廣告系統和 Web 搜索;
Facebook 使用 1000 節點運行 Hadoop, 存儲日誌數據,支持其上的數據分析和機器學習;
百度使用 Hadoop 處理每週 200TB 的數據,進行搜索日誌分析和網頁數據挖掘工作;
中移動基於 Hadoop 開發了 BigCloud 系統,提供對內外的數據支持;
淘寶的 Hadoop 則處理電子商務交易數據。

初學者要入門大數據,最好的方式,從瞭解具體的應用開始。掌握大數據能做哪些事情,完成哪些小數據做不到的功能,學著才有意思。只有學著有意思,才會繼續往下學。越學越想學,越學越開心,自然也就學好了。

接下來,我整理一些大數據已經發揮它真正作用的應用場景,如果你要做大數據項目,肯定離不開這7個範疇。

因此,你說大數據離我們遠嗎,我說肯定很近。不管你信不信,反正我信了。


分享到:


相關文章: