在小指尖上舞動「大數據」

在小指尖上舞动“大数据”

張棟棟在演示算法。

即使事先知道要拍照,她的穿著還是出人意料的簡單:白T恤、黑裙子,當然還少不了帶隔層的雙肩包來保護筆記本電腦——好像隨時都能拿出來寫上幾行代碼。

新產品上線前的那幾次測試,總是會發現一些意想不到的漏洞,需要連夜排除,大家往往會經歷幾個不眠之夜

張棟棟覺得自己骨子裡是個“技術流”,喜歡跟機器打交道,遇到問題也愛“用技術說話”

在北京,“西二旗”是人流量最大的地鐵站之一。離此不遠的中關村軟件園內,互聯網公司和高科技企業林立。在網上,“西二旗人”很容易被貼上標籤,“碼農”是最常見的說法。程序、算法、迭代、優化……有人說,程序員的生活單調到只有睡眠和工作,就像代碼裡的0和1。

1992年出生的張棟棟卻不認同這些看法。她是曙光信息產業股份有限公司大數據及創新事業部的研究人員,也是一位工作在“西二旗”的人工智能算法工程師,主要從事超大規模視頻智能分析引擎開發和算法優化工作。“90後”“女性”“程序員”,這些不同的特質會在她的身上碰撞出怎樣的火花?記者日前來到位於中關村軟件園的曙光信息產業股份有限公司,體驗“90後”人工智能算法工程師張棟棟的一天。

邊介紹邊演示,桌上這臺配置不錯的筆記本電腦也有些跟不上她的節奏,系統時不時會有些卡頓

即使事先知道要拍照,張棟棟今天的穿著還是出人意料的簡單:白T恤、黑裙子,當然還少不了帶隔層的雙肩包來保護筆記本電腦——好像隨時都能拿出來寫上幾行代碼。

來到偌大的辦公平臺時,已是上午10點,張棟棟工位周圍的同事還不多。“一些人在出差,一些人在開會,一些人可能剛下班。”張棟棟說。為了不影響在工位上工作的同事,我們決定將體驗地點換到一間小會議室。樓裡的小會議室出奇的多,每間可以容納五六個人,白板上留著反覆擦寫後的記號筆痕跡,彷彿能重現一場場熱烈的討論。

張棟棟的工作跟我們經常能見到的“電子眼”相關。這些分佈於各個角落的“電子眼”一直默默地守護著人們的安全,可是它們是如何在茫茫人海中快速、準確地鎖定目標的?又怎樣將數量龐大、響應遲緩、內容大多沒有應用價值的監控視頻變為更易查找、能被深度挖掘的高密度數據?在它們的背後,離不開一整套視頻智能分析系統的支持。

為了幫助我這個門外漢快速理解,張棟棟將自己上週的工作進行了一場“情景還原”。“狹義上來說,人工智能也是一種算法,要靠數據來不斷優化,大量的數據往往包含很多冗餘甚至無用的信息,這時就需要數據清洗與整合。”張棟棟指著屏幕說。剛見面還有些靦腆的她,講起技術來似乎一下子放開了,“拿這組人臉圖片來說,每張都有標籤,標籤分很多列,分別標註著所屬人的編號、性別、年齡等特徵信息,當然其中每個人也可能有多張圖片。”

“接下來要進行的是數據的可視化操作,一是為查看圖片質量,二是為獲得一個統計學上的數據描述,這時候就會發現一些‘噪音’(指對數據的干擾和影響)。”張棟棟舉例說,“比如一張圖片裡可能有多個人臉或者沒有人臉,屬於同一個人的不同圖像卻發現根本不是一個人,或者同樣的圖片發現存了兩遍等等——系統錄入時的誤操作會導致這些情況的發生。要保證機器能夠學習到高質量的數據,就要把這些數據存在的問題羅列出來,再根據不同的問題找到數據清洗的方法。數據清洗是一個很重要的過程,雖然耗費時間,但關係到後續模型的準確率。”

邊介紹邊演示,桌上這臺配置不錯的筆記本電腦也有些跟不上她的節奏,系統時不時會有些卡頓,一直嘗試理清思路的我也是一樣。為了看起來方便,張棟棟連上了牆上的電子屏幕。這時我發現,她的雙肩包像個“百寶箱”,裡面除了裝著電腦,還備著各式接口的數據傳輸線,幾乎能連接這間小會議室裡的所有設備。

鍵盤起起落落,一行行的代碼便落在了屏幕上,遠程服務器上記錄著她每一次的靈光乍現

清洗完數據,接下來還要對數據進行前期預處理,包括從圖片中截取人臉、把分散的數據集中到同一個大文件中,這些工作都是在為後續的模型訓練做準備。張棟棟說:“人工智能對算力有很高的要求,原始數據體量大,處理過程就會耗用很多的CPU(中央處理器)資源,處理時間也比較長。後面訓練時,如果數據量太大,我們還會用到分佈式並行訓練的方法來提高速度。”此外,數據增強也是預處理的一部分,就是對剛才的工作反其道而行之——人為增加數據的“噪音”。

“數據清洗要去除噪音,這個時候為什麼又要增加噪音呢?”我有些不解。“這是為了讓模型適應多種實際場景,在人臉識別裡,就是應對逆光、人像不全等極端情況,專業名詞叫‘提高模型泛化能力’。”張棟棟解釋說。

把這些工作做完之後,還要在原來的算法結構的基礎上進行改進,俗稱“改代碼”。“人臉識別也有多種算法,需要選擇合適的來修改。我們前期已經對各種算法進行了評估,有一個大概的算法結構,只要拿過來稍微改一下就可以使用了。”

說到這裡,我們才算進入模型訓練階段,張棟棟也正式開始了她今天的工作。“訓練的過程其實就是一個降低損失函數(預測值與真實值之間差距)的過程。”鍵盤起起落落,一行行的代碼便落在了屏幕上,遠程服務器上記錄著她每一次的靈光乍現,也不會放過任何一個程序故障。

“在機器學習中,一般會將樣本分成獨立的三部分——訓練集、驗證集和測試集,其中測試集用來檢驗模型的性能如何。兩方面決定了一個模型或算法的好壞,一個是結構,另一個是模型參數。訓練的最終目的就是要找到合適的參數,使測試集的準確率更高。”張棟棟說,當最後測試集顯示準確率已經比較高,並且已經收斂到一個平穩的狀態後,訓練就告結束,後續就可以對新數據進行預測和推理。

“程序員真的能記住這麼多的代碼嗎?”看她雙手如飛,我有些好奇。“其實這就跟我們背詩句、單詞差不多,熟能生巧嘛。”張棟棟笑了,“有時候也做不到一字不差,但大致的邏輯和思路是能記得的。”初秋的午後,陽光照射在園區空蕩的街道上,打開的窗邊偶爾會傳來幾聲鳥鳴,旋即被起伏的鍵盤敲擊聲所取代。旁邊幾間會議室的燈漸次點亮,人們進進出出。程序員工作的過程似乎不像傳說中的那般“壓力山大”。

“其實你只看到了一面”,她似乎看出了我的疑惑,“一個產品從開始階段的數據收集到最後模型訓練結束,會出現各種各樣的問題。比如新產品上線前的那幾次測試,總是會發現一些意想不到的漏洞,需要連夜排除。大家都很緊張,往往會經歷幾個不眠之夜。”

如今,張棟棟參與研製的超大規模視頻智能分析引擎已在國內幾個大中城市落地應用。它基於深度學習技術和人工智能算法搭建,集合了視頻匯聚分發、動態人臉識別、視頻結構化分析、大數據多維分析等多項特點,輕鬆練就了視頻監控的“火眼金睛”,守護著千家萬戶的安全。

理想的工作和生活需要平衡,就像找到一個最優的“算法”一樣

在這個男性佔絕大多數的行業裡,像她這樣的女孩並不多。張棟棟覺得自己骨子裡是個“技術流”,喜歡跟機器打交道,遇到問題也愛“用技術說話”。

2015年從北京交通大學信息管理與信息系統專業畢業後,她選擇去英國留學,就讀於倫敦大學學院網絡科學與大數據分析專業,當時人工智能技術剛剛在全球興起。張棟棟坦言,留學那段時間讓她真正認識到,這項技術代表著未來。2016年3月,人工智能公司DeepMind聯合創始人戴密斯·哈薩比斯領銜開發的“阿爾法狗”(AlphaGo)與圍棋世界冠軍、職業九段棋手李世石進行圍棋人機大戰,最終以4比1的總比分獲勝。哈薩比斯也畢業於這所學校。“不敢說以這樣的‘牛人’為榜樣,但他的成就對我確實產生了一些影響。”雖已離開學校,她至今還保持著讀論文的習慣,“人工智能技術發展太快,必須跟進最前沿的技術,讀論文算是最省時省力的辦法了。”

不知不覺中,天色漸晚,快到理論上的“下班時間”了,我們也逐漸從工作聊到了生活。張棟棟認為,跟軟件園裡很多人相比,自己算不上一個加班“狂人”。“理想的工作和生活需要平衡,就像找到一個最優的‘算法’一樣,不斷降低自己的‘損失函數’。”

每天接觸最前沿的技術,生活中張棟棟的愛好卻是歷史、博物館和古建築。她還曾參加過一個這方面的公益組織,“我們會帶著大家去參觀博物館,也會傳播一些歷史文化知識。”她覺得這些活動能讓自己把節奏降下來,調節一下身心。

張棟棟樂於向身邊的同事們請教,也期盼著自己能通過努力來改進他們的工作。“這是一個‘迭代’的過程,產品是這樣,技術是這樣,人也是這樣。”她認為,“90後”比較獨立,對很多問題都有自己的判斷,不會人云亦云,這在創新方面是優勢。“國內在人工智能的應用方面發展很快,但是在一些關鍵的、底層的理論和技術方面同國外相比還有差距,這是我們這代人應該努力的方向。”

眾 說

沙超群(曙光信息產業股份有限公司高級副總裁):

還記得四五年前我的同事在臺上作報告時,曾大聲呼籲“一定要給‘90後’機會”,轉眼間,我們很多團隊中“90後”已經挑起了大梁。這幾年我們公司的技術骨幹中,“90後”的比例在快速提升,包括我們承擔的一些國家重大項目,其中也有相當多“90後”的身影。

信息產業瞬息萬變,新技術不斷迭代,具體到產品層面往往時間緊、任務重、困難多、挑戰大,這些反而讓我在“90後”的身上看到了很多閃光點。我記得很清楚,去年“十一”長假,我們一個項目組40多人幾乎是全員加班。長假中間那天是中秋節,我提前告訴他們“中秋那天不許來”,結果當天我跑到公司一看,還是來了20多人,其中大部分都是“90後”。

張棟棟參與開發的這個視頻智能分析引擎,是世界上最大的在線視頻分析系統之一。她來公司還不到兩年,經常一出差就是幾個月,“扎”在項目駐地不斷地優化產品。這讓我這個“70後”感到“90後”也是能打硬仗的。

隨著經驗、閱歷的不斷增長,更多的優秀“90後”正湧現出來。在我們公司承擔的E級超算原型機項目、“地球數值模擬裝置”原型裝置等重大項目中,“90後”正承擔起更多更艱鉅的任務。

宋懷明(曙光信息產業股份有限公司大數據及創新事業部總工程師):

我們研發團隊的平均年齡在30歲左右,“90後”已經是這個團隊的主力,佔比30%以上,在一線從事技術攻關的比例更高。

張棟棟這些“90後”經常要處理大量的數據,在此基礎上不斷地去訓練算法、優化模型,有的時候只為提升那麼一點精度和性能,就要做大量數據的計算。但也就是這一點精度,在實際應用時會帶來非常明顯的效果,讓我感覺“90後”在精益求精方面是不輸於“80後”的。“90後”科技人員的成長背景決定了他們能夠接觸到大量的信息,思維轉換能力很強,會從不同的角度去看問題,也會嘗試一些不同的方法來解決問題,這可能是“90後”科技人員的特質,也是創新的優勢。我想,今後“90後”在處理具體問題的時候,如果能再多一點堅持,多一些耐心,一定會取得更好的成果。(記者 谷業凱)


分享到:


相關文章: