人工神经网络法和线性回归法对 降水相态的预报效果对比

摘  要

  主要对相同条件下线性回归法(LR)和人工神经网络法(ANN)对降雨、雨夹雪和降雪三种降水相态的预报效果进行了对比检验。选取地面2m 降水发生前六小时和发生时的温度、露点温度作为预报因子,对降雨、雨夹雪和降雪进行预报。运用国家气象中心2001—2011年1—5月我国地面756站实况观测资料,其中2001—2010年资料对方法进行训练,2011年资料用来对比检验预报效果。结果显示,(1)两种方法对三种相态降水都有一定的预报能力,对降雪预报最好,其次是降雨,对雨夹雪的预报效果较差;(2)ANN 法的预报效果明显优于LR 法,当温度和露点温度预报准确时,ANN 法对北方的雨雪分界线能进行较为准确的预报。
关键词:人工神经网络;线性回归;降水相态


引 言
  降水相态发生突然变化时,常常会给交通和人们的生产生活带来不便,严重时会致灾。对雨雪转换的预报是天气预报中的难点。一方面,降水相态受温度层结影响[12],另一方面,降水粒子在发生相态转变的过程中,又会影响和改变温度层结[34]。
  目前,国内对雨雪相态的预报主要处于个例研究的阶段,通过对个例的总结,提出不同地区和台站雨雪转换的经验阈值[57]。而客观化的预报方法处于刚刚开始的阶段。中央气象台赵瑞霞 (个人交流)通过对多年实况的分析,总结概括了全国670个站点发生雨雪转换时的日平均温度、最高温度和最低温度的阈值,并将其应用到中央气象台雨雪转换的客观化预报中。但是这一方法只能给出某站24小时内的雨雪相态,一方面无法预报某一时刻的降水相态,另一方面对24小时内发生雨雪转换的事件预报效果不好。
  要对某一时刻的降水相态进行客观化的预报,线性回归法(LR)是应用最多的方法之一。Allen[8]、
Allen和Erickson[9]将降水相态分为三类,冻雨(包括冰粒)、液态降水(包括降雨和雨夹雪)和固态降水(包括降雪和雪粒),用模式输出的地面、500、700、850、925和1000hPa温度、露点温度、温度平流、u风速、v 风速,以及1000~700hPa、1000~850hPa、1000~925hPa、925~850hPa、850~700hPa 和700~500hPa的高度差作为预报因子,分别建立三种相态降水与各预报因子之间的线性回归方程,从而用于降水相态的预报。
  然而,大气往往是非线性的,某一相态的降水与温度等要素之间并不是简单的线性关系,同时各气象要素之间又存在相互影响的关系。人工神经网络(ANN)法通过模拟人类神经系统间反射的相互传导过程,可以用来模拟这一非线性的复杂系统[10]。胡江林等[11]将汛期前期(2—4 月)的北半球月平均500hPa高度场、海平面气压场和太平洋海温场的扩展自然正交展开(EEOF)的前几个主要模态的时间系数作为输入,湖北汛期降水场的自然正交展开(EOF)的前2个主要模态的时间系数为输出,运用三层神经网络,建立了湖北汛期降水量的短期气候预测模型,并取得了一定的成功。
  本文将ANN 法应用到降水相态的预报中,并重点对比了对于相同的预报因子,ANN 法和LR 法的预报效果。


1 资料和方法


1.1 资 料
  为了对比ANN 法和LR 法对降水相态的预报效果,本文只用实况资料,而不涉及数值模式预报资料。选取国家气象中心2001-2010年1-5月我国756站地面逐3 小时观测资料,分别用ANN 法和LR 法建立了雨、雨夹雪和雪的预报模型,用2011年1—5月资料进行预报效果检验,对两种方法的预报效果进行对比。由于雨雪转换发生在很窄的温度区间内[12],所以本文只考虑一定的温度范围内的降水事件,温度范围选为:地面2m:-16~16℃,925hPa:-16~16℃,850hPa:-18~14℃;700hPa:-24~8℃;500hPa:-28~4℃;400hPa:-32~0℃。


1.2 预报量和预报因子的选取
  为了将问题简化,并突出解决雨雪转换的预报难题,本文研究三类天气现象,雨、雨夹雪和雪。分别建立三个0~1分布的样本序列,当天气现象为雨(雨夹雪/雪)时,取值为1,是其他天气现象或者缺
测值时为0。降水相态与众多气象要素有关,例如:500,700,850,925和1000hPa的温度、湿度、温度平流、风速、风向,两层等压面之间的高度差,地面2m 的温度、湿度、风向和风速等[89]。为了把问题简化,只选取较少的最重要的要素作为预报因子。雨、雨夹雪和雪共存的温度区间在地面2m、925、850、700 和500hPa分别为-1~2、-5~2、-8~-1、-20~-
5、-20~-5℃,从地面2m 越往高层雨雪共存的温度区间越大,降水相态与温度的对应关系显著减弱[12]。另一方面,我国的探空观测站只有125 个,不但数量少,而且每天只有08 时和20 时两个时次
的观测,不利于大样本的统计计算。因此,在本文的对比试验中,只选取地面2m 的气象要素。考虑到降水相态与湿度和地面2m 前期气象要素会有一定的关系,本文选取地面2m 降水发生和发生前六小时的温度和露点温度(犜2犿、犜犱2犿、犜2犿狆、犜犱2犿狆)作为预报因子。


1.3 犔犚法和犃犖犖法
  LR 法是应用最为广泛的统计方法之一[13]。它假设预报量和预报因子之间存在线性关系。即:狔=犪+犫犜2犿+犮犜犱2犿+犱犜2犿狆+犲犜犱2犿狆,之后用训练期资料估计未知参数犪、犫、犮、犱、犲,从而建立预报方程。最后将预报方程应用到预报中,分别求得三个参数狉犪、狉狊、狊狀,以表征降雨、雨夹雪和降雪发生的可能性的大小。
  降水相态与气象要素之间并不是简单的线性关系,LR 法的假设条件不一定成立。而ANN 法不存在这一问题,它不依赖于气象要素的概率分布形态,也不需要假设降水相态与气象要素之间存在线性关系[14]。通过模拟人类神经元之间的反射过程,ANN法可以用来构建预报因子和预报量之间的非线性的关系。一个神经网络分为输入层、隐藏层和输出层,每层由若干个神经元构成,每个神经元对应一个激活函数。隐藏层的多少,以及每个隐藏层所包含的神经元的个数,可以决定神经网络预报效果的优劣。
  在本文中,输入层有四个神经元,分别对应四个预报因子,输出层有三个神经元,分别对应三种相态的降水事件。Hornik等[15]的研究指出,只要激活函数光滑并有界,ANN 法的预报效果与激活函数的关系不大,本文所有的激活函数都选logistic函数[11],即犳(狓)=11+exp(-狓)。神经网络的训练适应,即通过迭代的方法,以方差最小为标准,计算神经元之间传递参数,从而建立神经网络。迭代计算使得神经网络的计算量随着隐藏层的增加而急剧地增加,为了减小计算量,本文只用了一个隐藏层,且在这个隐藏层中只有2个神经元(图1)。迭代适应的方法有许多种,由于不是本文的重点,因此本文主要用R软件[16]中的neuralnet函数包来建立神经网络。图1 本文所用降水相态与预报因子之间的神经网络示意图


1.4 ROC曲线()和阈值的选取


  ROC 曲线被广泛地用来表征确定性和概率预报的预报效果[17]。对本文而言,通过LR 法和ANN法可分别求得三个与三种相态降水发生可能性大小相关的参数狉犪、狉狊、狊狀。以降雨为例,选择一个阈值,当狉犪大于等于这一阈值时,即认为预报了一次降雨事件,狉犪小于这一阈值,即认为预报了一次非降雨事件。此时可求得发生事件的命中率,即预报正确的降雨事件和总降雨事件的比例,同时求得未发生事件的命中率———正确拒绝率,即预报正确的无降雨事件和总无降雨事件的比例。改变阈值,可得到一组命中率和与其对应的一组正确拒绝率。之后分别以这两组数据为纵坐标和横坐标,可得如图2 所示的ROC 曲线。最理想的状态,对发生和未发生事件的命中率都为1,此时ROC 曲线通过左上角的(1,1)点。ROC 曲线下面积为1。如果没有任何预报效果,随着阈值的增大,命中率和正确拒绝率将落在(1,0)和(0,1)的对角线上(图2)。ROC 曲线下面积为0.5。一般的预报都不能得到100%的命中率,ROC曲线下的面积在0.5和1之间,它的大小可以表征预报效果的优劣[18]。
图2 ANN 法(实线)和LR 法(虚线)对2011年1—5月全国756站降雨(绿)、雨夹雪(红)和降雪(蓝)预报效果的ROC 检验结果横坐标为对未发生的事件“0”的命中率,纵坐标为对发生事件“1”的命中率
  在实际应用中,需要从三个参数狉犪、狉狊、狊狀中选择一个,以确定最终预报的降水相态。本文用以下几种方法来确定预报的降水相态。

  (1)最简单的方法是选择最大的。哪个参数最大,即预报哪种相态的降水。
  (2)以对发生和未发生事件命中率之和最大为标准,对三种相态降水分别求得各自的阈值狉犪狊、狉狊狊、狊狀狊,预报值与阈值之差最大作为标准。
  (3)雨夹雪的预报值狉狊普遍较小,考虑到预报值本身的概率分布形态,以预报值与阈值之差除以预报值的均方差为标准。
2 结果检验
2.1 2011年4月1日山西省雨雪个例检验

  从2011年4月1日08时至2日08时,随着雨带的东移南下,24小时内雨雪分界线大体呈西北东南走向,从山西省北部向南移动至河南省南部,山西省自北向南经历了一次雨转雪的天气过程(图略)。4月1日20时,山西省东北部以降雪为主,其余地区以降雨为主。LR 法在山西省大部预报狊狀在0.5~0.6之间,狉犪大部分在0.3 左右,狉狊都小于等于0.06,预报降雪的参数明显大于降雨,雨夹雪的参数接近0。如果以最大值作为最终的预报结果,那么LR 法预报结果都为降雪,对南部的降雨无预报能力,预报的雨雪分界线明显偏南(图3a)。ANN 法预报效果明显优于LR 法(图3b)。对东北部的降雪事件,预报狊狀都大于或接近0.9,而预报狉犪和狉狊都小于0.1。对其余地区的降雨,预报狉犪都大于或接近0.9,预报狉狊和狊狀都在0.1左右或等于0。非常准确地预报出了20时山西省雨雪分界线的位置(图3b)。
  4月1日08时,山西省全境为降雨,LR 法预报狊狀在0.4左右,狉犪在0.5 左右,狉狊接近0,预报降雨的参数略大于降雪(图略)。4月2日08时,除西南角外,山西省全部为降雪,LR 法预报狊狀在0.6 左右,狉犪在0.4左右,狉狊接近0,预报降雪的参数大于降雨(图略)。综合LR 法在1日20时预报结果,可见LR 法对山西省此次雨雪天气的降水相态有一定的预报能力,全境都为降雨(雪)时,预报降雨(雪)的参数要大于降雪(雨)。当雨雪共存时,预报能力减弱,对雨雪分界线的预报偏差较大。

  4月1 日08 时,ANN 法在山西省全境预报降雪和雨夹雪的参数都接近0,预报降雨的参数在0.9左右(图略)。4 月2 日08 时,ANN 法对降雪事件预报狊狀大于0.9,狉犪和狉狊都接近或等于0(图略)。可见ANN 法预报雨雪相态的参数之间存在显著的差异,能更好地预报出降水相态。通过对以上个例的对比分析,可见ANN 法优于LR 法。LR 法对不同降水相态的分辨能力较弱,当多相态降水同时存在时,LR 法往往预报为一种相态降水。ANN 法由于考虑了降水相态与各气象要素之间的非线性关系,能更好地反映它们之间的内在联系。图3 2011年4月1日20时山西省天气实况,和LR 法(a)以及ANN 法(b)对降雨(右上角数字)、雨夹雪(右下角数字)和降雪(左上角数字)的预报,棕色线为雨雪分界线


2.2 犚犗犆检验
  通过个例的分析,可以得到LR 法和ANN 法之间的定性的对比。要系统而全面地了解并比较两种方法之间的优劣,ROC 曲线是一个很好的选择,并被广泛地应用到预报效果检验中[13]。图2所示,为LR 法和ANN 法对2011年1—5月全国756 站降雨、雨夹雪和降雪的预报效果的ROC曲线,可见两种方法对三种相态的降水都有一定的预报能力。但ANN 法对降雪和降雨的ROC曲线的拐点接近(1,1)点,对三种相态降水的效果都好于LR 法。两种方法对降雪的预报效果最好,其次是降雨,预报效果最差的是雨夹雪(表1),反映出雨夹雪事件的可预报性最差。表1 LR 法和ANN 法对全国降雨、雨夹雪和降雪预报效果检验的ROC 曲线下面积降雨雨夹雪降雪全国756站2011年1—5月LR 法0.883 0.861 0.935ANN 法0.941 0.877 0.965  运用两种方法最终都可以得到三个参数:狉犪,狉狊,狊狀,分别表征降雨、雨夹雪和降雪发生的可能性的大小。对于同一个站某一特定时刻,只会有一种相态的降水,需要在三个参数中选择一个,以决定最终的预报结果。因此涉及到三个参数的相互比较和阈值的选择。
  最简单的方法是三个参数哪个最大,即认为会出现哪种相态的降水。这一方法能得到接近1的对降雨的命中率,但是对降雨的误报率偏高,同时对雨夹雪几乎没有任何预报能力(表2)。从个例分析中可以看到,雨夹雪的预报参数狉狊普遍较小,因此导致了此方法对雨夹雪的命中率接近0。
  考虑到这一点,可以对各参数选择一个阈值,用预报值与阈值之差的相对大小来决定最后的预报结果。当增大阈值时,虽然命中率会增大,但是正确拒绝率会更快地减小,即误报率更快地增大。因此阈值的选择可以以命中率和正确拒绝率之和最大为标准,即ROC 曲线上横坐标和纵坐标之和最大。降雨的阈值最大,降雪次之,雨夹雪最小(表3),可见狉狊达到0.025时预报为雨夹雪的命中率和正确拒绝率之和能达到最大,及最优预报结果。
表2 全国756站2011年1—5月三种阈值法对降雨、雨夹雪和降雪的命中率(犺)和正确拒绝率(犮)降雨雨夹雪降雪犺犮犺犮犺犮预报值最大LR 法0.990 0.600 0.017 0.999 0.741 0.948ANN 法0.987 0.824 0.140 0.993 0.940 0.919与阈值之差最大LR 法0.949 0.693 0.296 0.962 0.748 0.933ANN 法0.969 0.858 0.323 0.967 0.933 0.924与阈值相对差最大LR 法0.908 0.735 0.602 0.912 0.704 0.940ANN 法0.958 0.858 0.598 0.922 0.788 0.943表3 全国756站2011年1—5月LR 法和ANN法降雨、雨夹雪和降雪以命中率和正确拒绝率之和最大为标准所得阈值降雨雨夹雪降雪全国756站LR 法0.545 0.025 0.355ANN 法0.765 0.025 0.215
  如果以预报值与阈值之差的最大值作为预报标准,降雨的命中率会有所减小,同时降雨的正确拒绝率会增大,更重要的是雨夹雪的命中率由接近0 增大到0.3左右,此方法对降雪的影响不大。更进一步考虑到三个参数预报值与阈值之差本身的分布形态不同,可以除以预报值的标准差,使结果更具比较性。此方法会进一步减小降雨和降雪的命中率,相应增大二者的正确拒绝率,最明显的效果是对雨夹雪的预报,使雨夹雪的命中率增大到0.6 左右(表2)。整体而言,无论采用哪种方法,ANN 法预报效果都好于LR 法。如果以命中率和正确拒绝率之和最大为标准,同时可以不考虑雨夹雪事件时,第二种方法最好。如果想提高对雨夹雪事件预报准确率,可以采用第三种方法,同时需要牺牲对降雨和降雪的预报准确率。
3 总结与讨论
  通过检验发现,两种方法对降雨、雨夹雪和降雪都有一定的预报能力。对降雪的预报效果最好,降雨次之,雨夹雪的预报效果最差,说明雨夹雪是预报中的难点。

  对比发现,对降雨、雨夹雪和降雪,ANN 法的预报效果都明显优于LR 法。当温度和露点温度预报准确时,ANN 法对北方的雨雪分界线可以进行准确的预报。对雨雪共存的事件,LR 法往往预报结果为单一的降水相态,对其他相态降水无反应。

  为了在预报中确定一种相态的降水,需要比较三个预报参数的相对大小。最简单的方法是哪个最大,即预报为哪种相态的降水。对全国而言,此方法对降雨的正确拒绝率较低,对雨夹雪的命中率接近0。考虑到三个参数本身大小不同,以命中率和正确拒绝率之和最大为标准可以确定一个阈值,再比较预报值与阈值之间的大小。此方法在一定程度上能提高降雨的正确拒绝率,并且对雨夹雪的命中率有明显的提高。进一步考虑到三个参数分布的形态不同,将预报值与阈值之差再除以预报值的均方差,能进一步提高雨夹雪的命中率。但同时对降雨和降雪的命中率有所降低。所以在实际应用中应该综合考虑对雨夹雪的预报要求,而灵活地选择第二或第三种方法。
  以实况观测为预报因子,预报当时的实况降水相态,依然存在很大的不确定性,说明降水相态不仅和地面2m 的温度和露点温度有关,而且和地面2m的其他气象要素,以及高层的温度、湿度、风速和地形地理环境等要素有关。因此,要对降水相态进行更准确的预报,需要选取更多的预报因子,包括地面2m 和高空各层。

专业气象软件开发与技术服务提供商

QQ在线咨询
咨询热线
0574-87344840
商务合作
18167226573