03.03 “中间三天”问题 最对机器学习“胃口”

“中间三天”问题 最对机器学习“胃口”

天气预报员、电脑、话筒、大屏幕,这是全国各地每天进行天气会商的标准场景。不过,未来这个场景可能被人工智能改写——部分天气会商活动可能被“微缩”至计算机的电路中,只依靠算法和计算,快速实现对数值模式结果的有效订正。

“虽然现在还不好说是否一定能做好这个事情,但人工智能的爆发式发展,让我们看到了这种可能性,我们正在努力。”张平文说。

“三天”难题的契机

20多年前与中国科学院大气物理研究所的一次项目合作,让从事计算数学的张平文,用学者而非普通市民的目光,对天气预报保持了长久而持续的兴趣。

契机出现在五年前。彼时,人工智能尚未像现在这样“飞入寻常百姓家”。然而,站在计算数学研究尖端的张平文已有一种预感,这个技术的发展会对应用数学产生极大的影响。作为可能性之一,他对天气预报最关注难题之一——“三天”预报得以解决的时机可能来了。

“三天”是什么概念?它又因何与机器学习有如此密切的联系?

被张平文团队定为研究目标的“三天”预报,主要涵盖0-72小时的天气预报。熟悉数值天气预报的人都清楚,在日常业务中,受限于数值模式输出的偏差,预报员需要在模式结果的基础上进行“后处理”。具体来说,预报员必须左手抓模式结果,右手拿观测数据,通过商量、研讨,用后者仔细地对前者进行人工订正,才能最终得出一个较优的预报结论。对于预报员来说,这个过程意味着工作量的“加码”。

然而,当我们把这张牌翻到另一面时却会发现,这是一个令数学家十分惊喜的存在——“如果要找出哪个领域是典型可以应用人工智能来做的,包括‘三天’在内的天气预报就是。”张平文说,它最对机器学习的“胃口”不过,既要应用计算数学(模式中描述大气运动的机理),又要应用统计学(观测数据),同时两者不仅是简单的结合,而是一种很深度的结合。

张平文看到了一种可能性:“三天”预报中的人工订正过程可以由机器学习完成,在某些情况下,它或许会完成得更好。

当MOS遇上机器学习

张平文不是第一个提出这个概念的人。

用计算机来解决“三天”预报订正问题,早在20年前已有国外学者提出。此后,科学家们规划了不同的道路,都希望能够抵达那个终点。尽管一些方法取得了明显成果,但截至目前,基本都遭遇了“天花板”。其中,最著名、应用最多的是模式输出统计(MOS)方法。

MOS中的“S”代表统计,它通过使用模型预报变量和先前的观测数据作为预报因子,使用多个线性回归来改进特定地点的预报。在2002年冬季奥林匹克运动会期间,MOS大放光彩,它被证明与奥林匹克预报小组的人工预报同样或更加熟练。

然而,MOS仍然没法完全解决“三天”问题。它只考虑一个空间点的校正,没有考虑网格的时空结构。一方面,这与过去计算能力与数据获取手段的局限有关,另一方面,非常重要的一点是它与算法本身的局限性有关。

今天,当 MOS遇上机器学习,后者自身条件和所处外部环境均已大为不同——当今社会计算能力极大提高,数据获取成本低、时效快,更重要的是,机器学习自身出现了爆发式发展。“单纯从算法角度来比较,虽然目前机器学习仍然存在很多待解决的问题,但已经在统计的基础上向前跨了一大步。”张平文说,机器学习是一个非常偏工程的做法,不光吸收了很多统计学知识,也吸收了很多优化、计算数学等知识,把数值模式(物理机制)和机器学习(数据驱动)深入地结合起来,打破了MOS预报的局限性,所以它处理问题可以说比统计方法既广且精。

“虽然概念看似还是那个概念,但因为条件已今非昔比,所以走的路就大不一样。”张平文认为,“尽管目前不好说是否一定能做好这个事情,但可以确定的是,用机器学习来解决‘三天’问题的可能性,比以前增加了很多。”

量身定制天气预报专属算法

路子定下来了,但问题的解决并非易事。

在张平文看来,对于专业人士来说,机器学习算法设计本身不难,难就难在为天气预报量身定制一套专属算法。

在大数据领域,最重要的一个概念就是“特征”。什么叫特征?比如数值天气预报,可用来同化的数据量非常大,但计算能力是有限的,不可能什么数据都让它们进去;另一方面,有些数据即便进去,也不一定对改善预报结论有作用。

为解决这个问题,首先,在数据的海洋里,科学家需要筛选出哪些数据是特别重要的,随后,通过确定出那部分“真正有用的东西”,科学家可以把原始数据信息进行压缩,进而顺利完成计算,这个过程就叫做特征工程。

同理,应用机器学习来解决“三天”问题,特征工程同样是一个绕不开的问题。

“实际上,基本上所有大数据领域里特征工程都很重要,但针对不同问题时做法很不一样。具体到天气预报,需要对这一领域的知识非常了解,把数据结构理好、把数据特征写好,才能真正做到有效果。我觉得这是最难的。”张平文说。

因此,张平文团队为“三天”长期目标的最终解决设计了一个短期目标来验证效果——解决2022年北京冬奥会赛场天气预报难题。

一个绝佳的“试金石”

为什么选择冬奥会赛场天气预报作为“试金石”?

2022年冬奥会赛场众多,分散于北京延庆、河北张家口的多处山头。“山上的天气预报非常难报,为什么呢?因为数值模式算出来的东西,用计算数学的术语来说是一种低频的信息。这源于数值模式网格的尺度特别大,即便从最开始的上百公里起一直在努力让网格缩小,到现在也只做到几公里左右。”张平文说,在山区,只有几百米甚至几十米距离的山前和山后,可能出现极为不同的天气状况。一方面,依靠低频信息无法把这种天气状况预报出来;另一方面,预报员又必须把它报得很精准,因为冬奥会许多赛事都对天气有很高的要求。一般的做法是在这些赛场周围增加观测点,但怎么用又是个问题。因此,出现了一个冬奥会对精准预报高要求下模式预报的困境。

从科学上说,破解此困境与解决“三天”问题的方向是一致的。

在服务冬奥会的共同目标下,北京大学、中国科学院大气物理研究所、北京市气象局三家单位联合成立气象大数据实验室。三家单位各有所长,分别负责模型和算法设计,数据特征工程,数据提供和应用测试,并由张平文作为实验室主任负责牵头推进。目前,第一阶段的成果已于近期发表在《大气科学进展》上。结果证实,机器学习做出来的东西比过去用MOS做出来的东西有了大大提高。

“从数据来说,对比既用数值模式又用MOS的‘1+1’组合,机器学习仍然取得了10%的提高,这很不容易。”张平文说。

成功迈出了第一步,未来尚有进一步提高的空间。张平文介绍,第一阶段研究中只使用了一个气象观测站的数据量,包含的只有时间维度的高频信息,没有空间维度的高频信息。目前,张平文团队正在做多个站点的相关研究,这也将填补之前缺失的空间维度高频信息。

“再往远处看,我们希望能做出一套智能会商系统,最终实现智能化天气预报会商,让预报员从‘三天’预报中的商量、研讨中解放出来。”张平文说,“还是那句话,这很难,但我们看到了这种可能性。”


分享到:


相關文章: