自學 14 天后，我毀掉了自己的數據工程師面試_其它 _ 頭條網

本文最初發表在 Medium 博客，經原作者 Emanuele Maruzzi 授權，InfoQ 中文站翻譯並分享。

我是如何搞砸面試的？

我既然寫下本文，就應對讀者赤誠相見。我真的不是優秀的數據工程師，也不是優秀的軟件開發人員。儘管如此，但技術能力我可能還是有的，而且也有幹勁。雖然技術上不是最優秀的，但我比較善於與人打交道。你可能會問：“那我為什麼還要讀這篇文章呢？” 答案很簡單：因為失敗乃成功之母。至於我這篇文章的觀點，嬉笑怒罵皆由你。

我將我的經歷寫下來，就是希望能夠撫慰一下那些面臨求職面試或做副業項目時感到受挫的人們。

背景故事

我在一家公司工作有一年半的時間了，做了很多數據萃取和構建報告的項目。我覺得這些工作很簡單，我很肯定這些工作我都能夠勝任。然而，我依然想要嘗試一些新事物，於是有位朋友給了我一個機會，讓我以數據工程師的身份去他的初創公司參加面試。幾天後，我和這家公司的人力資源部負責人、技術負責人進行了第一次面試，一切都很順利，我們約好了去他們總部進行下一輪面試。雖然我現在的工作並沒有這個新職位所需的技能，但面試官並不在意這一點，他就是想看看面對新的挑戰，我會有怎樣的表現。

在真正的面試之前，他給了我 14 天的時間讓我學習 Apache Spark 和 Apache Airflow，而這 14 天恰恰就是問題所在。

“噩夢”的開始

Apache Airflow 是一個工作流管理平臺。它用於定義 DAG（Directed acyclic graph，有向無環圖）並對其進行調度。DAG 是 Airflow 表達操作和命令的方式，你可以通過下圖來了解它的要點。

Airflow 最廣泛的用例是構建 ETL（extract, transform and load，萃取、轉置、加載）管道並對其進行監控。

Apache Spark 是一個分佈式計算框架。簡單地說：只需告訴 Spark 你需要做什麼，它就會用 MapReduce 範式將工作分配到計算機集群上。聽起來很有趣是吧？那就去看看它們的官方文檔吧：Airflow 和 Spark。

Airflow 鏈接： https://airflow.apache.org/docs/stable/ Spark 鏈接： https://spark.apache.org/docs/latest/

接到任務的當天，我一下班就開始閱讀這些文檔和教程。我花了兩三個晚上看看那些到底是什麼，然後決定實操。我只是簡單地開始編寫代碼，雖然中間出現了一點小曲折，但我也沒有太在意。

如我上文所言，開始動手做並不難，但這次我發現我錯了。我下載了一些 Docker 鏡像來模擬 Apache Spark 集群，並通過 pip 安裝了 Airflow 軟件包。但我卻無法讓它工作。不管我怎麼折騰，就是沒搞定。就這樣，四天過去了，面試準備時間只剩十天了。我能做什麼呢？是時候召喚 Google 大神了：我以 “Apache Spark Cloud” 為關鍵詞進行了搜索，其中一個結果是 Google Dataproc。

如今，Google 是推動雲解決方案的三大公司之一，但在我看來最重要的是，Google 提供了免費的套餐，可以免費使用他們的平臺，聽起來不錯。啟動 Apache Spark 集群很容易，只需在 Dataproc 上選擇一些選項，然後等上五到十分鐘，所有的基礎設施就都設置好了。

Cloud Composer 是 Google 提供的另一項服務，它設置了運行 Airflow 的 Web 服務器，這樣你就可以在幾分鐘內設計出 DAG。

項目

當我開始嘗試用 Google 的教程來熟悉環境時，我有了一個想法：我可以構建一個小項目，一個概念驗證，然後在面試的時候將其展示出來。以我的經驗，我認為這個做法應該會給面試官留下好印象。

我想創建一個管道，將一些數據加載到 BigQuery（Google 的數據存儲工具之一）。我之所以選擇 Reddit 作為我的來源，是因為我已經知道 Reddit 的 API 怎麼用。我想到的工作流非常簡單，步驟如下：

從 Google Cloud 上的單個虛擬機調用 Reddit API，並將前 100 條帖子的數據存儲在 Frontpage 上。將此數據加載到 Google Cloud Storage（類似於數據容器的文件系統）。使用 Dataproc 來萃取數據、轉置數據，執行一些數據質量相關的操作，然後將其加載到 BigQuery。（這一步驟是可選的）從 BigQuery 構建另一個 Dataproc 來分析數據。使用 Google Composer 對此工作流進行調度。

每個項目都要有一個明確的目標，這點我做到了。儘管不是最初設定的目標，但我的目標一直很明確。

長話短說，我搞砸了。

前兩個步驟是最簡單的：每隔十分鐘，我在 Google Cloud Storage 上的目錄就會有一個新的 JSON 文件。

當我終於完成第三個步驟時，我的興奮溢於言表，於是，我跳過了第四個步驟。

但是，第五個步驟比我想象得還要難，這時，離面試時間只剩下三天。我和十天前的情況一樣，再次不知所措。

在剩下的日子裡，我試著進行一些修補把事情搞好，最後一天，不知怎麼著，我把 Dataproc 部分的管道給弄壞了。我知道你們很多人都會這麼說：“為什麼不用 Git 或者做備份之類的呢？” 我完全同意你們的這一說法。我刪除了 Google Cloud 項目中的所有內容，除了前面兩個步驟以外，因為只有這兩個步驟我還有點信心。

到了面試的那一天，我來到了公司總部。因為我已經參加過一些面試，我可以自信地說，我一直都很擅長面試。我以一個思維敏捷、機智和勇敢的形象出現在了面試官的面前。我對這個職位抱有很大的希望，儘管面試官對我很友好，但我還是感到很緊張。

面試官提的問題都挺標準的，無非就是一些 Python 和 SQL 的原理，以及他們要求我學習的技術。我不記得所有的問題了，但有一個問題讓我記憶猶新。“Yield 在 Python 中是什麼意思，在哪裡使用？” 當時我就傻眼了，內心暗自痛罵自己。我在 Apache Spark 和 Apache Airflow 上浪費了太多的時間，思考我那個剛剛搞砸的小項目，但我還沒有修改我的主要技能，以至於我在前一年就已經荒廢了。我沒有項目來保護我或掩飾我對 Airflow 或 Spark 的知識匱乏，所以，很多問題我都回答錯了。

過了些日子，我收到了面試官的一封郵件，措辭非常親切，他們告訴我，我太過缺乏經驗，不適合這份工作。他們還說這是一個艱難的決定，因為他們很喜歡我這個人。

我真的很恨自己，不是因為失去了這個機會，而是因為被自己想達到的目標矇蔽了雙眼。雖然我花了這麼多時間來學習這些基礎知識，但內心深處有一種聲音在催促著我，希望能快點把事情做完。多年來我所建立起來的那種不受挑戰的自負精神，也隨之瓦解了。現實狠狠地打了我的臉，我意識到我有多少事情都給忘記了。

我沒有計劃，只有一套我稱之為計劃的任務，而我沒有設定完成每項任務的時間表，也沒有 B 計劃。我本可以制定一個計劃的，但我當時覺得沒有必要這樣做。

結論

我花了幾天的時間來反思我的錯誤，於是便有了本文。

你可以認為我技術太爛。但是，我確實認同這句話：失敗乃成功之母。

經歷了面試這些事後，我又去 Python 官網看了很多年前就讀過的 Python 入門，開始學習一些 Coursera 的網課。現在，我正有條不紊地去學習這些課程。

我一直對自己說，就算我不是一個優秀的程序員，也沒有什麼力量能夠阻止我努力成為一名優秀程序員的決心。

具有諷刺意味的是，就在幾周前，我還向邀請我應聘這份工作的朋友展示了我的小項目還剩下些什麼。他說：“你應該給他們看看這個，他們肯定會選你的！” 我只不過在這些文件上做了一些更新，用 Google 自然語言 API 對所有文本進行分類，並在 Google Data Studio 上做了一個簡單的圖，他就欣喜若狂。

最後，我要給求職者一句忠告，不要對自己太過苛刻，最糟糕的評判者就是自己。試著把注意力放在真正重要的事情上。不要太過擔心，錯誤無論如何都會發生的。

我是如何搞砸面試的？

背景故事

“噩夢”的開始

項目

結論

相關文章:

精美壁紙(14)

世界之神奇——14

14.孩子的性格和習慣

這才是真正的貴婦 14

現代農村自建房佈局12*14

辛昌家園疫情值班服務活動(14)

寫作覆盤2019.08.14-2020.3.14

3.14 腹肌！

3.14 野外帥哥！

3.14 這個男的怎樣？

3.14 這背影喜歡吧！

3.14 這帥哥，喜歡吧！

壁紙集 ）3.14

方艙戰士口述日記Day.14

03.07 方艙戰士口述日記Day.14

「新月巫城」10秒GET十二星座工作運 03.08-03.14

每日法語詞彙(14)

《絲絲順滑》-14

14 最美逆行者

2.14，最尷尬的送達

PLC編程100例之10-14

雙色球19132期實戰票分享：本期一注12+5壓場，藍球7.12.13.14.16

《華夏視線·建國70週年獻禮特刊》14

NO.14

幽默一鍋幽爾 NO.14

2019款哈弗H7誠意上市，14.2萬元起！

粵港澳大灣區每日地產資訊2.14

14 今日豬價

01.11 商品期貨下週操盤策略1.14

14.中國23省歷史名人之山東省

年終獎減稅圖，14.4萬減稅2萬，多發1塊錢個稅增加1.3萬

「壽光物流園今日菜價12.14」

「下周吉凶日」10.8-10.14

灌雲手機報9.14

DM人應該記住9.14

14×8米帶車庫三層別墅設計圖

聊天記錄 14

14×12米25萬4廳5臥二層農村自建別墅施工效果圖

事業單位公共基礎知識練習6.14

14、談談服飾

05.21 14 個網友分享自家雞做的壞事，社會我雞哥

05.14 今日豬價 05 14

「14」親自來？您老要不要去醫院看看？

剛巧是3.14

14%的上班族不知道什麼是網絡釣魚

沈巍先生雜談（358）說好的快手不倒，陪伴到老呢？個個都是戲精

出海奮鬥是有膽識後浪的更優選項

甲有5套房，不上班，收房租；乙有1套房，上班賺工資；丙租房子.

每逢佳節被相親，單身青年看這裡！

為珠峰“量身高”，為啥要人上去？

我省獲國家局通報表揚

湖南名字最尷尬的城市，90%的人都會想歪，當地人：思想有問題！

超六成前浪點贊《後浪》，全球白手起家90後富豪人均財富190億

再不來一場精緻野餐，我就要被開除中產籍了

工程師我只服中國，曾經放生到三峽的1萬條魚，如今怎麼樣了？

後疫情時代的五個營銷啟示

丘北縣雙龍營鎮人民政府普者黑村委會、矣則村委會太陽能路燈採購安裝項目競爭性談判公告

為什麼重量相同的金子，銀行賣得比金店還便宜？看完漲知識了

打雷的時候，到底要不要拔掉插頭，關閉電路呢？看完漲知識了

乘坐火車時，把車票弄丟了怎麼處理？看完可算知道了

肖戰視頻專訪：眼裡帶著故事，請不要聽說他，這一次，請他說

秦山核電應急行動水平優化項目招標公告

巴基斯坦SK水電站消防及火災報警系統設備採購招標招標公告

中煤能源新疆鴻新煤業葦子溝煤礦瓦斯抽採機械設備採購招標公告

縣域社區團購，在平臺發展上有哪些優勢？

和王為念離婚，與“假奶奶”常香玉對簿公堂，55歲小香玉生活如詩

眼力測試：由4字組成的白菜，1秒看出4個字的智商都很高

看圖猜字：這個不簡單，你能猜對幾個？全猜對眼力非凡

眼力測試：火焰中藏了4個字，看出3個算達標，全看出眼力200

小米硬剛德國雙立人，400年非洲灌木做家用砧板，不發黴砍不壞

眼力測試：美女圖中藏了5個漢字，全部看出來的眼力超群

最萌Hodler，剛出生就收到比特幣大學教育基金的寶寶

《瞭望大灣區》：全國中高風險區域今日“清零”

《晨會解讀》：中山證券投資顧問楊立華：連續上漲過後注意把握好操作節奏

壁紙集）3.14

衡水：守護一湖碧水打造生態之城

2020珠峰高程複測出發儀式今日舉行小米10全程助力丈量世界新高度