03.03 “中間三天”問題 最對機器學習“胃口”

“中間三天”問題 最對機器學習“胃口”

天氣預報員、電腦、話筒、大屏幕,這是全國各地每天進行天氣會商的標準場景。不過,未來這個場景可能被人工智能改寫——部分天氣會商活動可能被“微縮”至計算機的電路中,只依靠算法和計算,快速實現對數值模式結果的有效訂正。

“雖然現在還不好說是否一定能做好這個事情,但人工智能的爆發式發展,讓我們看到了這種可能性,我們正在努力。”張平文說。

“三天”難題的契機

20多年前與中國科學院大氣物理研究所的一次項目合作,讓從事計算數學的張平文,用學者而非普通市民的目光,對天氣預報保持了長久而持續的興趣。

契機出現在五年前。彼時,人工智能尚未像現在這樣“飛入尋常百姓家”。然而,站在計算數學研究尖端的張平文已有一種預感,這個技術的發展會對應用數學產生極大的影響。作為可能性之一,他對天氣預報最關注難題之一——“三天”預報得以解決的時機可能來了。

“三天”是什麼概念?它又因何與機器學習有如此密切的聯繫?

被張平文團隊定為研究目標的“三天”預報,主要涵蓋0-72小時的天氣預報。熟悉數值天氣預報的人都清楚,在日常業務中,受限於數值模式輸出的偏差,預報員需要在模式結果的基礎上進行“後處理”。具體來說,預報員必須左手抓模式結果,右手拿觀測數據,通過商量、研討,用後者仔細地對前者進行人工訂正,才能最終得出一個較優的預報結論。對於預報員來說,這個過程意味著工作量的“加碼”。

然而,當我們把這張牌翻到另一面時卻會發現,這是一個令數學家十分驚喜的存在——“如果要找出哪個領域是典型可以應用人工智能來做的,包括‘三天’在內的天氣預報就是。”張平文說,它最對機器學習的“胃口”不過,既要應用計算數學(模式中描述大氣運動的機理),又要應用統計學(觀測數據),同時兩者不僅是簡單的結合,而是一種很深度的結合。

張平文看到了一種可能性:“三天”預報中的人工訂正過程可以由機器學習完成,在某些情況下,它或許會完成得更好。

當MOS遇上機器學習

張平文不是第一個提出這個概念的人。

用計算機來解決“三天”預報訂正問題,早在20年前已有國外學者提出。此後,科學家們規劃了不同的道路,都希望能夠抵達那個終點。儘管一些方法取得了明顯成果,但截至目前,基本都遭遇了“天花板”。其中,最著名、應用最多的是模式輸出統計(MOS)方法。

MOS中的“S”代表統計,它通過使用模型預報變量和先前的觀測數據作為預報因子,使用多個線性迴歸來改進特定地點的預報。在2002年冬季奧林匹克運動會期間,MOS大放光彩,它被證明與奧林匹克預報小組的人工預報同樣或更加熟練。

然而,MOS仍然沒法完全解決“三天”問題。它只考慮一個空間點的校正,沒有考慮網格的時空結構。一方面,這與過去計算能力與數據獲取手段的侷限有關,另一方面,非常重要的一點是它與算法本身的侷限性有關。

今天,當 MOS遇上機器學習,後者自身條件和所處外部環境均已大為不同——當今社會計算能力極大提高,數據獲取成本低、時效快,更重要的是,機器學習自身出現了爆發式發展。“單純從算法角度來比較,雖然目前機器學習仍然存在很多待解決的問題,但已經在統計的基礎上向前跨了一大步。”張平文說,機器學習是一個非常偏工程的做法,不光吸收了很多統計學知識,也吸收了很多優化、計算數學等知識,把數值模式(物理機制)和機器學習(數據驅動)深入地結合起來,打破了MOS預報的侷限性,所以它處理問題可以說比統計方法既廣且精。

“雖然概念看似還是那個概念,但因為條件已今非昔比,所以走的路就大不一樣。”張平文認為,“儘管目前不好說是否一定能做好這個事情,但可以確定的是,用機器學習來解決‘三天’問題的可能性,比以前增加了很多。”

量身定製天氣預報專屬算法

路子定下來了,但問題的解決並非易事。

在張平文看來,對於專業人士來說,機器學習算法設計本身不難,難就難在為天氣預報量身定製一套專屬算法。

在大數據領域,最重要的一個概念就是“特徵”。什麼叫特徵?比如數值天氣預報,可用來同化的數據量非常大,但計算能力是有限的,不可能什麼數據都讓它們進去;另一方面,有些數據即便進去,也不一定對改善預報結論有作用。

為解決這個問題,首先,在數據的海洋裡,科學家需要篩選出哪些數據是特別重要的,隨後,通過確定出那部分“真正有用的東西”,科學家可以把原始數據信息進行壓縮,進而順利完成計算,這個過程就叫做特徵工程。

同理,應用機器學習來解決“三天”問題,特徵工程同樣是一個繞不開的問題。

“實際上,基本上所有大數據領域裡特徵工程都很重要,但針對不同問題時做法很不一樣。具體到天氣預報,需要對這一領域的知識非常瞭解,把數據結構理好、把數據特徵寫好,才能真正做到有效果。我覺得這是最難的。”張平文說。

因此,張平文團隊為“三天”長期目標的最終解決設計了一個短期目標來驗證效果——解決2022年北京冬奧會賽場天氣預報難題。

一個絕佳的“試金石”

為什麼選擇冬奧會賽場天氣預報作為“試金石”?

2022年冬奧會賽場眾多,分散於北京延慶、河北張家口的多處山頭。“山上的天氣預報非常難報,為什麼呢?因為數值模式算出來的東西,用計算數學的術語來說是一種低頻的信息。這源於數值模式網格的尺度特別大,即便從最開始的上百公里起一直在努力讓網格縮小,到現在也只做到幾公里左右。”張平文說,在山區,只有幾百米甚至幾十米距離的山前和山後,可能出現極為不同的天氣狀況。一方面,依靠低頻信息無法把這種天氣狀況預報出來;另一方面,預報員又必須把它報得很精準,因為冬奧會許多賽事都對天氣有很高的要求。一般的做法是在這些賽場周圍增加觀測點,但怎麼用又是個問題。因此,出現了一個冬奧會對精準預報高要求下模式預報的困境。

從科學上說,破解此困境與解決“三天”問題的方向是一致的。

在服務冬奧會的共同目標下,北京大學、中國科學院大氣物理研究所、北京市氣象局三家單位聯合成立氣象大數據實驗室。三家單位各有所長,分別負責模型和算法設計,數據特徵工程,數據提供和應用測試,並由張平文作為實驗室主任負責牽頭推進。目前,第一階段的成果已於近期發表在《大氣科學進展》上。結果證實,機器學習做出來的東西比過去用MOS做出來的東西有了大大提高。

“從數據來說,對比既用數值模式又用MOS的‘1+1’組合,機器學習仍然取得了10%的提高,這很不容易。”張平文說。

成功邁出了第一步,未來尚有進一步提高的空間。張平文介紹,第一階段研究中只使用了一個氣象觀測站的數據量,包含的只有時間維度的高頻信息,沒有空間維度的高頻信息。目前,張平文團隊正在做多個站點的相關研究,這也將填補之前缺失的空間維度高頻信息。

“再往遠處看,我們希望能做出一套智能會商系統,最終實現智能化天氣預報會商,讓預報員從‘三天’預報中的商量、研討中解放出來。”張平文說,“還是那句話,這很難,但我們看到了這種可能性。”


分享到:


相關文章: