自回归移动平均模型(ARIMA)包含一个确定(explicit)的统计模型用于处理时间序列的不规则部分,它允许不规则部分可以自相关。
数据准备
可以看出在滞后 1 阶的自相关值超出了置信边界,但是其他所有在滞后1-20 阶的自相关值都没有超出置信边界。
显示在滞后 1,2 和 3 阶时的偏自相关系数超出了置信边界,为负值,且在等级上随着滞后阶数的增加而缓慢减少。
模型预测
ARIMA 模型自动预测
它对时间序列上面连续的值之间相关性没有要求,指数平滑法可以用于时间序列数据的短期预测。
简单指数平滑法
适用于没有季节性变化且处于恒定水平以及没有明显趋势的时间序列的预测。
获取数据(数据来源为伦敦每年降雨量),通过 ts 函数转换为时间序列.。
预测未来 5 年的降水量
蓝线是预测 1913-1920 间的降雨量,深灰色阴影区域为 80% 的预测区间,浅灰色阴影区域为 95% 的预测区间。 forecast 提供了预测误差的统计指标(residuals),来评估预测是否有改进的可能性:如果预测误差是相关的,则很可能是简单指数平滑预测可以被另外一种预测技术优化。
可以发现自相关系数在第 3 期的时候达到了置信界限。为了验证在滞后 1-20 阶时非 0 自相关属性是否显著,可以借助 Box.test() 的 Ljung-Box检验。
统计量为 17.4,并且 P 值是 0.626 这样的值不足以拒绝预测误差在 1-20 阶是非零自相关。
霍尔特指数平滑法
霍尔特指数平滑法可以用于非恒定水平,没有季节性可相加模型的时间序列预测。 霍尔特指数平滑法是估计当前时间的水平和斜率。其平滑水平是由两个参数控制,alpha:估计当前点水平,beta:估计当前点趋势部分斜率。两个参数都介于 0-1 之间,当参数越接近 0,大部分近期的观测值的权值将较小。 数据来源是 1866 年到 1911 年每年女士裙子直径,将数据通过 ts 函数转换为时间序列,并画出时序图。
相关预测值中 alpha 值为 0.8383,beta预测值为 1.0,这些都是非常高的值,充分显示了无论是水平上还是趋势的斜率上,当前值对时间序列上的最近的观测值的依赖关系比较重,这样的结果也符合我们的预期,因为时间序列的水平和斜率在整个时间段内发生了巨大的变化。 总体来看,预测的效果也还不错(红色为预测值)。
预测未来 5 年的数据值,并画出预测结果。
为了检验预测效果,我们同样检验延迟 1-20 阶中的预测误差是否非零自相关,继续采用 Ljung-Box 检验。
相关图呈现样本内预测误差在滞后 5 阶时超过置信边界,其他都没有超过,我们认为存在一定的偶尔因素。
p =0.4749,意味着置信度只有 53% 这样的值不足以拒绝预测误差在 1-20 阶是非零自相关,则我们接受预测误差在 1-20 阶是非零自相关的。
Holt-Winters 指数平滑法
有增长或者降低趋势并且存在季节性波动的时间序列的预测方法。 Holt-Winters 算法中提供了 alpha、beta 和 gamma 来分别对应当前点的水平、趋势部分和季节部分,参数的去执法范围都是 0-1 之间,并且参数接近 0 时,近期的观测值的影响权重就越小。 数据来源是澳大利亚昆士兰州海滨纪念商品的月度销售日子做为分析对象,将数据通过 ts 函数转换为时间序列,并画出时序图。
可以通过取对数来减少极值带来的影响,消除方差不齐。
通过 forecast 包来预测未来 12 个月的销售数据,并画出预测结果
模型非常成功得预测了季节峰值,峰值大约发生在每年的 12 月份。 还可以通过画相关图和进行 Ljung-Box 检验来检查样本内预测误差在延迟 1-20 阶时否是非零自相关的,并以此确定预测模型是否可以再被优化。
相关图显示出在滞后 1-20 阶中样本自相关值都没有超出显著(置信)边界。
Ljung-Box 检验的 p 值为 0.6183,所以我们推断在滞后 1-20 阶中没有明显证据说明预测误差是非零自相关的。