СТАТИСТИЧЕСКИЙ АНАЛИЗ ВРЕМЕННЫХ РЯДОВ

Общие сведения

Анализ временного ряда – это метод анализа данных, основанный на построении регрессии, целью которого является установление причинных связей с помощью упорядочения данных.
В отличие от анализа случайных выборок, анализ временных рядов основывается на предположении, что последовательные значения в файле данных наблюдаются через равные промежутки времени, тогда как в других методах не важна и часто не интересна привязка наблюдений ко времени.

Временные ряды описывают чрезвычайно широкий круг явлений, например, как временной ряд можно рассматривать курс акций, солнечную активность, общий уровень заболеваемости и так далее. Экономические показатели на различном уровне также можно рассматривать как временные ряды, пытаясь найти в них не видимые на первый взгляд закономерности, скрытые периодичности, прогнозировать моменты появления пиков и т.д.

Существуют две основные цели анализа временных рядов: определение природы ряда и прогнозирование, то есть предсказание будущих значений временного ряда по настоящим и прошлым значениям.

Обе эти цели требуют, чтобы модель ряда была определена и формально описана. Как только модель определена, можно с её помощью интерпретировать рассматриваемые данные (например, использовать для понимания сезонного изменения цен на товары). Затем можно прогнозировать ряд на основе найденной модели, т.е. предсказать его будущие значения.

Основные характеристики и компоненты временного ряда

Особенностью анализа временных рядов является зависимость данных, причем характер этой зависимости может определяться положением наблюдений в последовательность.
Основные цели анализа:
* прогнозирование, на основе знания прошлого;
* сжатое описание характерных особенностей ряда;
* управление процессом, порождающим ряд.

В теории временных рядов разработаны различные методы исследования и анализа: корреляционный и спектральный анализы, методы сглаживания и фильтрации, модели авторегрессии и скользящего среднего.

В анализе временного ряда, как и в большинстве статистических методов, предполагается, что исходные данные содержат детерминированную и случайную составляющие. В общем случае детерминированная составляющая может быть представлена в виде комбинации следующих компонент:
* тренда, определяющего главную тенденцию временного ряда;
* более или менее регулярных колебаний относительного тренда – циклов;
* периодических колебаний; такие составляющие называются сезонной составляющей.

Тренд представляет собой общую систематическую линейную или нелинейную компоненту, которая может изменяться во времени.
Сезонная составляющая - это периодически повторяющаяся компонента

Оба эти вида регулярных компонент часто присутствуют в ряде одновременно.

Временной ряд может быть представлен различными математическими моделями.
Пусть x(t) – тренд, W(t), s(t), e(t) – соответственно циклическая, сезонная и случайная остаточная составляющие.
Аддитивная модель записывается в виде:
y(t)= x(t)+W(t)+ s(t)+e(t). (1)
Мультипликативная модель имеет вид:
y(t)= x(t)W(t) s(t)e(t). (2)
и при переходе к логарифмам сводится к аддитивной модели.

Если предположить, что сезонная составляющая St пропорциональна сумме тренда и циклической составляющей (x(t)+Wt, st=(x(t)+W(t))С(t), то временной ряд будет представлен в виде смешанной модели:
y(t)=(x(t)+W(t))(1+С(t))+e(t).
Представление временного ряда в виде той или иной композиции его компонент естественно приводит к идее последовательного выделения этих компонент и прогнозирования на основе полученной модели.
С математической точки зрения временной ряд является реализацией случайного процесса с дискретным целочисленным параметром t.

Методы анализа временных рядов, реализуемые в программе Statistica

В системе Statistica реализованы все основные и часто используемые методы анализа временных рядов.
1. Модель авторегрессии.
2. Анализ прерванных временных рядов. Необходимость в такого рода анализе возникает, например, когда с некоторого момента резко изменяются условия реализации наблюдаемого ряда. Например, изменились правила торгов на бирже, изменилось биение сердца больного после приема лекарства.
Внешнее воздействие на ряд, вызываемое разными причинами может быть короткотечным и длительным. В момент воздействия временной ряд резко меняется, но далее вновь описывается авторегрессионной моделью.
3. Экспоненциальное сглаживание и прогнозирование позволяет сгладить наблюдаемый ряд, выделить из него шум и спрогнозировать следующее значение.
4. Сезонная декомпозиция позволяет анализировать аддитивные модели временных рядов.
5. Регрессионная модель для двух временных рядов позволяет построить регрессию одного ряда на другой. Это важно, например, в том случае, когда необходимо предсказать значения зависимого ряда на основе измерений со сдвигом независимого ряда, как это часто бывает в экономике, где одни измерения опережают другие.
6. Спектральный (Фурье) анализ позволяет провести полный спектральный анализ временных рядов, построить периодограмму.

Пример анализа временного ряда в программе Statistica

В качестве примера рассмотрим "классический" ряд – файл series_g.sta, представляющий собой месячные международные авиаперевозки (в тысячах) в течение 12 лет с 1949 по 1960. Этот файл поставляется вместе с дистрибутивом системы Statistica. Чтобы открыть данный файл, необходимо нажать кнопку File/Open, в каталоге Datasets выбрать файл с именем series_g.sta и нажать кнопку Открыть.

Для вызова стартовой панели (рис. 1) необходимо выбрать модуль Statistics/ Advanced Linear/ Nonlinear Models/ Time Series Analysis/Forecasting (анализ временных рядов и прогнозирование).

Стартовая панель имеет следующую структуру.
В верхнем информационном поле записываются имена анализируемых и преобразованных переменных (рядов). Рядом с информационным полем расположены несколько кнопок ? стандартных для всех моделей системы. Они обеспечивают работу с данными, закрытие панели, а также открывает специальный диалог преобразования временных рядов: кнопка ОК (transformations, autocorrelations, plots) – преобразования, автокорреляции, графики.

Возле имени переменной SERIES_G, в верхней части окна, имеется символ L. Это означает, что переменная SERIES_G закрыта на ключ и не может быть удалена без прерывания анализа. Это исходная переменная. Могут быть удалены только преобразованные (добавленные) переменные.
В процессе работы ряды многократно преобразовываются. Однако не все преобразования необходимы. Чтобы не хранить лишнюю информацию, их следует удалить из диалога. Для этого служит кнопка Delete highlighted variable (удалить высвеченные переменные). Напротив, некоторые переменные нужно сохранить для дальнейшего анализа, например, для того чтобы применить альтернативный способ обработки. Кнопка Save variables (сохранить переменные) сохраняет высвеченные переменные в файле данных Statistica. Сохранённую таким образом переменную можно проанализировать впоследствии в любом модуле системы Statistica.

В верхней части стартовой панели расположена опция Number of backups per variables (series) (число резервов для переменных (рядов)), которая определяет число преобразований ряда в текущем диалоге. Если число преобразований превысит указанное в опции число, то система сделает запрос: сохранять очередное преобразование?

Нижняя часть панели – функциональная. Здесь расположены: кнопки, открывающие специальные диалоговые окна анализа; опции обработки пропущенных значений, помещенные во второй закладке Missing data (пропущенные данные).

Рис 1. Стартовая панель модуля Анализ временных рядов и прогнозирование

Опции, расположенные во второй закладке Missing data – пропущенные данные стартовой панели "Анализ временных рядов и прогнозирование", задают способы обработки пропущенных значений ряда (рис. 2). Потребность в данных опциях возникает, когда в ряде данных есть пропущенные значения: например в какой-либо день необходимые нам наблюдения не проводились, это наблюдение является пустым или пропущенным.

Рис 2. Стартовая панель модуля Анализ временных рядов и прогнозирование, вкладка Missing data

Система предлагает следующие возможности для заполнения пропущенных значений:
* Overall mean – общее среднее;
* Interpolation from adjacent points – интерполяция по соседним точкам;
* Mean of N adjacent points – среднее по соседним точкам;
* Median of N adjacent points – медиана соседних значений;
* Predicted values from liner trend regression – предсказание значения исходя из линейной регрессии.
Основное преимущество медианного сглаживания, в сравнении со сглаживанием скользящим средним, состоит в том, что результаты становятся более устойчивыми к выбросам. Основной недостаток медианного сглаживания в том, что при отсутствии явных выбросов он приводит к более "зубчатым" кривым.

Функциональные кнопки, открывающие соответствующие диалоги, расположены в первой закладке стартовой панели. В каждом диалоге реализован конкретный метод обработки и имеется всесторонние возможности по анализу результатов, настройке вычислительных процедур и т.д.

Анализ данных начинается с выбора процедуры ARIMA. В результате на экране появится диалоговое окно преобразования переменных (рис. 3).

Рис. 3. Диалоговое окно преобразования переменных

Нажать верхнюю кнопку Plot. На экране появится график временного ряда, приведённый на рис. 4.

Рис. 4. График ежемесячных перевозок авиапассажиров

На графике показаны ежемесячные перевозки пассажиров за 1949–1960 годы. В ряде имеются отчётливые годовые периоды, присутствуют резко выраженные пики, амплитуда колебаний возрастает. Имеется отчётливый тренд – среднее значение перевозок постепенно увеличивается. Как и следовало ожидать, также присутствуют и сезонность. Из года в год пик перевозок приходится на одни и те же месяцы – июль либо август, характер перевозок также очень похож со сдвигом на год.
Для таких данных подходит мультипликативная модель (2). При постоянной амплитуде сезонных колебаний возможно, что более подходящей моделью была бы аддитивная модель (1).

Необходимо спрогнозировать дальнейшее поведение ряда на несколько месяцев вперёд, учитывая качественные наблюдения о его характере, которые сделаны из графика.

Вначале нужно подобрать для ряда модель авторегрессии. Используются также специальные опции и преобразования. Определяется количество неизвестных параметров ARIMA. Запускается процедура оценивания. Далее оценивается адекватность модели как графическими методами, рассматривая остатки на различных графиках, так и статистически, строя оценки корреляционных, частных автокорреляционных функций. Если модель окажется адекватной, можно построить на основании её прогноз.

Преобразование временного ряда

Прежде чем подогнать к ряду авторегрессионную модель, его следует сделать стационарным. Для этого необходимо (рис. 3):
* изменить шкалу на оси Х (сделать ее равной 12, т.к. наблюдаемый ряд имеет период 12);
* установить метки точек на графике, выбрав опцию Case names.

После инициализации кнопки Plot будет построен график в новой удобной шкале.
Далее необходимо опять вернуться в стартовую панель модуля (рис. 1) и нажать ОК. В результате на экране появится диалоговое окно преобразования временного ряда, приведённое на рис. 5.

Рис. 5. Диалоговое окно преобразования временного ряда

В этом окне можно выбрать различные способы преобразования временного ряда и нажать ОК. Программа произведёт выбранное вами преобразование. На каждом шаге можно выполнять только одно преобразование значений высвеченной переменной. Конечная цель всех преобразований – привести ряд к удобному для анализа виду.

Например, после применения преобразования Natural log, ряд будет иметь вид, привёденный на рис. 6.

Рис. 6. Ряд после логарифмического преобразования

После преобразования ряда его колебания существенно уменьшились.

Выбрать преобразование Differеncing (x = x-x(lag)), положив lag=1. Смысл этого преобразования в том, что из текущего значения ряда вычитается предыдущее (со сдвигом 1) и результат представляется в качестве значения нового ряда. Данное преобразование позволяет избавиться от линейного тренда в ряде.

Для того чтобы определить необходимый порядок разности, нужно исследовать график ряда и коррелограмму. Сильные изменения уровня (сильные скачки вверх или вниз) обычно требуют взятия несезонной разности первого порядка (лаг=1). Сильные изменения наклона требуют взятия разности второго порядка. Сезонная составляющая требует взятия соответствующей сезонной разности.

Так как ряд имеет сезонную составляющую, необходимо взять сезонную разность, т.е. вновь выбрать преобразование Differеncing (x= x-x(lag)), положив lag=12. Данное преобразование исключает сезонную составляющую с периодом 12 (рис. 7). После инициализации кнопки Plot на экране появится график, приведённый на рис. 8.

Рис. 7. Диалоговое окно преобразования временного ряда

 

Рис. 8. График после применения трёх преобразований

Таким образом, ряд стал очень похож на стационарный.
Чтобы определить тренд методом скользящих средних, необходимо в окне преобразования (рис. 5) воспользоваться вкладкой Smoothing, выделить опцию N-pts mov. averg. (сглаживание по скользящим средним) и нажать на кнопку ОК. Данная функция позволяет произвести сглаживание по двум, трём и более точкам (N= 2, 3, ...).

Для того чтобы просмотреть одновременно исходные данные и результаты процедуры простого скользящего среднего, нужно нажать кнопку Review multiple variables в окне преобразования переменных (рис. 3). Функция Plot позволит просмотреть скользящие средние на графике одновременно с исходными данными.

Авторегрессионная модель временного ряда

В реальных данных часто нет отчётливо выраженных регулярных составляющих. Отдельные наблюдения содержат значительную ошибку, тогда как необходимо не только выделить регулярные компоненты, но также построить прогноз. Методология "Авторегрессионное проинтегрированное скользящее среднее" (АРПСС, ARIMA) позволяет это сделать. Данный метод чрезвычайно популярен во многих приложениях, и практика подтвердила его мощность и гибкость. Однако из-за мощности и гибкости, АРПСС – сложный метод. Его не так просто использовать, и требуется большая практика, чтобы овладеть им. Метод часто даёт удовлетворительные результаты, но они зависят от квалификации пользователя. Изложим основные идеи метода.

Подберём к ряду авторегрессионную модель, оценим её параметры и на основе наблюдаемых значений спрогнозируем перевозки пассажиров на несколько месяцев вперёд. Для этого в стартовой панели ARIMA, необходимо произвести идентификацию модели, т.е. определить, какое количество и каких параметров должно присутствовать в модели. В модели ARIMA имеется четыре типа параметров (p, P, Q, q), которые надо определить.

В окне параметров ARIMA задать установки так, как показано на рис. 9, и нажать ОК.

Рис. 9. Диалоговое окно ARIMA

В результате на экране появится окно результатов ARIMA, приведённое на рисунке 12.10. В данном окне можно всесторонне просмотреть результаты и оценить качество подгонки. В верхней части окна дана информация о модели и оценках её параметров.

Рис. 10. Окно результатов ARIMA

Кнопка Parameter estimates позволяет просмотреть численные оценки, таблица которых приведена на рис. 11.

Рис 11. Таблица оценок параметров ARIMA

Например, из первой строки видно, что интервал (0,200445; 0,553880) с вероятностью 0,95 накрывает истинное значение параметра q(1). Число 0,377162 есть оценка неизвестного параметра.

Также в данном окне можно всесторонне проанализировать разность между наблюдаемыми и предсказанными значениями (остатки), построить нормальный вероятностный график и гистограмму остатков.

Чтобы узнать, есть ли зависимость между остатками, нужно воспользоваться группой кнопок Autocorrelations, которые позволяют просмотреть автокорреляционную функцию остатков (рис. 12) и частные автокорреляции (рис. 13).

Рис. 12. Автокорреляционная функция остатков

 

Рис.13. Частная автокорреляционная функция остатков

Из графиков видно, что остатки практически не коррелированны (нет зависимости между ними).

Итак, модель достаточно адекватно описывает временной ряд. Без оценки адекватности нельзя доверять прогнозу, построенному с помощью модели. Если модель не адекватна данным, прогноз с помощью нее не имеет смысла.

Прогнозирование значений

После выполнения предыдущих этапов можно приступить к построению прогноза. В окне результатов ARIMA имеется набор опций для прогнозирования – Forecasting, где необходимо задать опции так, как показано на рис. 10.

При инициализации кнопки Forecast cases на экране появится электронная таблица прогнозируемых наблюдений на заданное количество наблюдений (в нашем случае 24 месяца) вперёд.
При инициализации кнопки Plot series & forecasts будет построен график авиаперевозок с прогнозом, приведённый на рис. 14.

Рис.14. График авиаперевозок с построенным прогнозом

Используя этот прогноз, можно строить стратегию действий на будущее, например, добиваться лучшей загрузки самолётного парка, рассчитывать оптимальную цену билетов при предварительных продажах и т.д.

Коррелограмма

Сезонные составляющие временного ряда могут быть найдены с помощью коррелограммы. Чтобы вычислить и построить коррелограмму, надо выбрать опцию Autocorrelations (автокорреляции) и нажать кнопку Autocorrelations (рис. 3, 5, 9, 15). Число вычисляемых сериальных корреляций задается в окне Number of lags. На рис. 16 приведена коррелограмма для исходного ряда. Коррелограмма показывает, что ряд имеет сезонную составляющую с периодом 12.


.

Рис. 15. Диалоговое окно сезонной декомпозицииРис. 16. Коррелограмма исходного ряда

Сезонная декомпозиция (метод Census 1)

Сезонная декомпозиция (Seasonal decomposition) позволяет выделить в ряде сезонную компоненту, тренд-циклическую компоненту и нерегулярную (случайную) составляющую. Модель может быть мультипликативной или аддитивной.
Нажмите кнопку Seasonal decomposition (Census 1) на стартовой панели (рис. 1) и откройте диалог "Сезонная декомпозиция" (рис. 15).
В центральной части панели находятся опции, позволяющие задать модель ряда. Эти опции объединены в группу Seasonal model (сезонная модель):
* Additive – аддитивная;
* Multiplicative – мультипликативная.
В опции Seasonal lag (сезонный сдвиг) задается число сезонных индексов. Следующая группа опций "on OK append components to active work area" позволяет определить такие составляющие:
* Moving averages – скользящие средние;
* Ratios/Differences – отношения/разности (если модель мультипликативная, берётся отношение, если аддитивная – разность исходного ряда и тренда);
* Seasonal factors – сезонные индексы;
* Seasonal adj. series – ряд без сезонной составляющей;
* Smoothed trend cycle – сглаженная тренд ? циклическая компонента:
* Irregular components – нерегулярная (случайная) составляющая.

Запустите процедуру сезонной декомпозиции, нажав кнопку Summary: Seasonal decomposition (выполнить сезонную декомпозицию). Результаты расчётов выводится в виде таблицы. Наименования столбцов следующие:
1. Series_G – исходный ряд;
2. Moving Averages – простые скользящие средние;
3. Rations – отношения элементов исходного ряда к скользящему среднему в процентах;
4. Seasonal Factors – скорректированные сезонные индексы;
5. Adjusted Series – вычисляется ряд, скорректированный на сезонные индексы, т. е. ряд без сезонной составляющей (вычисляется делением элементов исходного ряда на сезонные индексы и умножением результата на 100);
6. Smoothed Trend-c. – сглаженная тренд-циклическая составляющая, т. е. приводятся результаты сглаживания ряда, скоректированного на сезонные индексы;
7. Irreg. Compon. – остаточная (случайная) компонента ряда. Вычисляется делением значений скорректированного ряда (пятый столбец) на значение сглаженного ряда (шестой столбец).
Для того чтобы на одну сетку вывести графики нескольких компонент, надо во вкладке Review series отметить их кнопкой Review Multiple Variables и нажать кнопку Plot.

Экспоненциальное сглаживание и прогнозирование

Экспоненциальное сглаживание – это очень популярный метод прогнозирования многих временных рядов. Суть метода экспоненциального сглаживания заключается в том, что исходный ряд x(t) сглаживается с некоторыми экспоненциальными весами, образуется новый временной ряд S(t) (с меньшим уровнем шума), поведение которого можно прогнозировать.

Простое экспоненциальное сглаживание задается формулой:
S(t) = Alpha*x(t) + (1-Alpha)*S(t-1),
где Alpha – некоторый фиксированный параметр, 0<Alpha<1.
Начальное значение S(0) задается либо в поле User-def. initial value, либо оценивается. Значение параметра Alpha задается в поле Alpha (рис. 17). Для вызова этого окна необходимо нажать кнопку ?Exponential smoothing & forecasting? на стартовой панели (рис. 1).

Рис. 17. Панель Seasonal and Non-Seasonal Exponential Smoothing (сезонное и несезонное экспоненциальное сглаживание)

В общей модели можно учесть сезонный фактор и тренд – линейный, экспоненциальный, демпфированный (общий вид этих трендов показан на панели).
Основные элементы находятся во вкладке Advanced, здесь находится группа опций Model – модель, позволяющая, исходя из особенностей ряда, определить модель экспоненциального сглаживания. Для определения модели необходимо задать сезонную компоненту, тренд и параметры сглаживания. Это можно сделать в следующих опциях:
* Seasonal component – сезонная компонента;
* None – нет сезонной компоненты;
* Additive – аддитивная;
* Multiplicative – мультипликативная;
* No trend – нет тренда;
* Liner trend – линейный тренд;
* Exponential – экспоненциальный;
* Damped trend – демпфированный (затухающий) тренд.

Рассматриваемый ряд содержит линейный тренд и сезонную составляющую, поэтому для прогноза нужно использовать модель экспоненциального сглаживания по Винтеру (Winters).

В полях Alpha, Delta, Gamma, Phi (рис. 17) задаются параметры экспоненциального сглаживания. Параметр Alpha необходим для всех моделей экспоненциального сглаживания. Остальные параметры нужны для специальных моделей. Параметр Delta ? сезонный сглаживающий параметр, необходим лишь в сезонных моделях. На аддитивных моделях прогноз строится по формуле:
Forecast(t) = S(t) + I(t-lag),
где I ? сглаженный сезонный фактор:
I(t) = I(t-lag) + Delta*(1 - Alpha)*e(t),
где e(t) – разность между наблюдаемым рядом и прогнозом в момент времени t, lag – сезонный период.

В мультипликативных моделях используется формула:
Forecast(t) = S(t) * I(t-lag),
где I ? сглаженный сезонный фактор:
I(t) = I(t-lag) + Delta*(1-Alpha)*e(t)/S(t).

Параметры Gamma и Phi являются параметрами сглаживания тренда. Параметр Gamma используется в моделях с линейным и экспоненциальным трендом и в моделях с демпфированным трендом в рядах без сезонной составляющей. Параметр Phi используется в моделях с демпфированным трендом.

Параметры Alpha, Delta, Gamma и Phi в пакете Statistica можно найти автоматически, воспользовавшись вкладкой Automatic search (рис. 17) и выбрав начальное приближение для этих параметров. После нажатия кнопки Automatic estimation выводится таблица параметров. Второй способ – поиск на сетке. Он организуется во вкладке Grid search. После выбора начального приближения параметров и шага сетки нужно нажать кнопку Perform Grid search. Система перебирает все значения параметров на заданной сетке и определяет лучшие значения, для которых сумма квадратов (или средних квадратов) остатков (наблюдаемые значения минус прогнозы на шаг вперед) является минимальной. Эти значения находятся в верхней строке таблицы, представленной на рис. 18.

Рис. 18. Таблица результатов поиска лучших параметров на сетке

Прогноз в пакете Statistica выполняется автоматически для 10 точек (наблюдений, дней и т.д.). Для того чтобы увеличить продолжительность прогноза, необходимо поставить нужное число наблюдений в окне Forecast (рис. 17). После ввода найденных значений параметров Alpha=0,8, Delta=0,1, Gamma=0,1 в диалоговое окно и нажатия кнопки Summary: Exponential smoothing, получаем таблицу значений ряда, график (рис. 19) и таблицу с итоговыми ошибками прогноза (рис. 20). Средняя квадратическая ошибка прогноза составила 122,82. Результаты прогноза на графике можно считать хорошими.

На графике представлены:
* Series_G – исходный временной ряд;
* Smoothed Series – сглаженный ряд;
* Resids – остатки (разность между вычисленным значением по модели и фактическим значением временного ряда).

Рис. 19. Результаты экспоненциального сглаживания


Рис. 20. Ошибки прогноза

Ошибки прогноза (рис. 20) имеют следующие значения.

Mean error (средняя ошибка) вычисляется простым усреднением ошибок на каждом шаге. Очевидным недостатком этой меры является то, что положительные и отрицательные ошибки аннулируют друг друга, поэтому она не является хорошим индикатором качества прогноза.

Mean absolute error (средняя абсолютная ошибка) вычисляется как среднее абсолютных ошибок. Если она равна нулю, то имеем совершенную подгонку (прогноз). Sums of squares (сумма квадратов ошибок) вычисляется как сумма (или среднее) квадратов ошибок Mean square (среднеквадратическая ошибка). Это наиболее часто используемые индексы качества подгонки. Mean percentage error (средняя относительная ошибка) вычисляется как среднее относительных ошибок.

Mean abs. perc.error (средняя абсолютная относительная ошибка) часто более выразительна, чем среднеквадратическая ошибка. Например, знание того, что точность прогноза 2,97 %, полезно само по себе, в то время как значение 122,82 для средней квадратической ошибки не может быть так просто проинтерпретировано.

Самый простой способ оценки прогноза, полученного на основе определённого значения параметров – построить график наблюдаемых значений, прогнозов и остатков на один шаг вперёд. Из графика ясно видно, на каких участках прогноз лучше или хуже. Такая визуальная проверка точности прогноза часто даёт наилучшие результаты.

В методе экспоненциального сглаживания не строятся доверительные интервалы, и, следовательно, невозможно рассчитать риск при использовании прогноза. Для оценки адекватности модели необходимо проанализировать остатки. График остатков представлен вместе с исходным рядом и прогнозом (рис. 19).

Если модель является адекватной, то остатки должны быть независимыми одинаково распределёнными нормальными величинами, в них не должно быть систематической составляющей.

Для определения зависимости между остатками посмотрим автокорреляционную функцию остатков, инициировав кнопку Autocorrelations (рис. 21).

Рис. 12.21. Автокорреляционная функция остатков

Остатки практически некоррелированны, незначительный выход за границу доверительного интервала наблюдаются лишь дважды. Посмотрим гистограмму остатков, насколько их распределение согласуется с нормальным, инициировав кнопку Histogram во вкладке Review series (рис. 17). Гистограмма построена на рис. 22.

Рис. 22. Гистограмма остатков

Из графика видно, что распределение остатков похоже на нормальное. Следовательно, можем заключить, что модель достаточно адекватно описывает исходный ряд.

Сезонная декомпозиция (метод Census 2)

В отличие от многих методов моделирования временных рядов, в частности, АРПСС, метод Census II представляет собой результат многочисленных специально разработанных приёмов и усовершенствований. Некоторые из наиболее важных усовершенствований перечислены ниже.

Поправка на число рабочих дней. В месяцах разное число дней и разное число рабочих дней. Метод Census 2 дает пользователю возможность проверить, присутствует ли во временном ряду этот эффект числа рабочих дней, и если да, то внести соответствующие поправки.

Выбросы. Большинство реальных временных рядов содержит выбросы, то есть резко выделяющиеся наблюдения, вызванные какими-то исключительными событиями. Такие выбросы могут исказить оценки сезонной компоненты и тренда. Предусмотрены корректировки на случай появления выбросов, основанные на использовании принципов статистического контроля: значения, выходящие за определенный диапазон (который определяется в терминах, кратных –, т.е. стандартных отклонений), могут быть преобразованы или вовсе пропущены, и только после этого будут вычисляться окончательные оценки параметров сезонности.

Последовательные уточнения. Корректировки, связанные с наличием выбросов и различным числом рабочих дней можно производить многократно, чтобы последовательно получать для компонент оценки всё лучшего качества. В методе делается несколько последовательных уточнений оценок для получения окончательных компонент тренд-цикличности и сезонности, нерегулярной составляющей, и самого временного ряда с сезонными поправками.

Критерии и итоговые статистики. Помимо оценки основных компонент ряда, можно вычислить различные сводные статистики. Например, можно сформировать таблицы дисперсионного анализа для проверки значимости фактора сезонной изменчивости и ряда и фактора рабочих дней.

Процедура корректировки разбивается на семь этапов, которые в системе Statistica обозначаются буквами A–G. Для выполнения моделирования методом Census 2 нужно воспользоваться соответствующим модулем, который вызывается нажатием кнопки X11/Y2k (Census 2) monthly или quarterly (рис. 1).

Таблицы и графики расчётов по этим этапам выводятся последовательно в рабочей книге.

Анализ распределённых лагов

Анализ распределённых лагов – это специальный метод оценки запаздывающей зависимости между рядами. Такого рода зависимости особенно часто возникают в экономике. Например, доход от инвестиций в новое оборудование проявляется не сразу, а только через определённое время. Более высокий доход изменяет выбор жилья людьми, но эта зависимость тоже проявляется с запаздыванием. Во всех этих случаях, имеется независимая или объясняющая переменная, которая воздействует на зависимые переменные с некоторым запаздыванием (лагом).

Зависимая переменная представляет собой некоторые линейные функции, сдвинутые на 1, 2, и т. д. временные периоды относительно объясняющей переменной. Коэффициенты этой функции могут рассматриваться как параметры наклона, а задача поиска коэффициентов – это типичный случай линейной регрессии. Если коэффициент переменной с определенным запаздыванием (лагом) значим, то можно заключить, что переменная предсказывается (или объясняется) с запаздыванием.

В системе Statistica анализ распределённых лагов вызывается нажатием кнопки Distributed lags analysis (рис. 1). Реализован метод полиномиальной аппроксимации (Unconstrained polynomial lags) и метод Алмона (Almon polynomial lags). Метод Алмона позволяет избежать проблемы плохой обусловленности матрицы при вычислении коэффициентов регрессии.

Спектральный анализ периодического ряда

Цель спектрального анализа – разложить комплексные временные ряды с циклическими компонентами на несколько основных синусоидальных функций с определённой длиной волны. Это позволяет выявить медленные (низкочастотные) и быстрые (высокочастотные) процессы, составляющие ряд. В результате успешного анализа можно обнаружить несколько повторяющихся циклов различной длины в рядах, которые, на первый взгляд, выглядят как случайный шум.

В отличие от АРПСС или метода экспоненциального сглаживания, цель спектрального анализа ? распознать сезонные колебания различной длины, в то время как в предшествующих типах анализа длина сезонных компонент обычно известна (или предполагается) заранее и затем включается в модели. Спектральный анализ определяет корреляцию функций синусов и косинусов различной частоты с наблюдаемыми данными. Если найденная корреляция (коэффициент при опредёленном синусе или косинусе) велика, то можно заключить, что существует строгая периодичность на соответствующей частоте в данных.

В системе Statistica спектральный анализ вызывается нажатием кнопки Spectral (Fourier) analysis (рис. 1). В появившемся диалоговом окне необходимо нажать кнопку OK (Single series Fourier analysis). Результат анализа отображается в информационном окне (рис. 23). Нажатие кнопки Periodogram приводит к построению периодограммы (рис. 24), а Spectral density – спектральной плотности.

Рис. 23. Окно результатов спектрального анализа

Значения периодограммы вычисляются как:
Pi = N*(синус-коэффициентi2 + косинус-коэффициентi2 )/2
где Pk – значения периодограммы на i-частоте, N – общая длина ряда. Значения периодограммы можно интерпретировать как дисперсию (вариацию) данных на соответствующей частоте. Обычно значения периодограммы изображаются в зависимости от частот или периодов (рис. 24).

Рис. 24. Периодограмма

Данная периодограмма демонстрирует по крайней мере три отчётливых периода. Первый (1) – годовой период, второй – полугодовой (зимний и летний отпуска), третий – четырёхлетний цикл.

На практике при анализе данных обычно не очень важно точно определить частоты основных функций синусов или косинусов, для вывода которых в окне на рис. 23 есть специальные кнопки. Так как значения периодограммы – это объект существенного случайного колебания, скорее можно столкнуться с проблемой многих хаотических пиков периодограммы. В этом случае лучше найти частоты с большими спектральными плотностями, т.е. частотные области, состоящие из многих близких частот, которые вносят наибольший вклад в периодическое поведение всего ряда.

Перед анализом полезно вычесть среднее из значений ряда и удалить тренд (чтобы добиться стационарности). Иначе периодограмма и спектральная плотность "забьются" очень большим значением первого коэффициента при косинусе (с частотой 0,0). По существу, среднее – это цикл нулевой частоты в единицу времени; т. е. константа. Аналогично, тренд также не представляет интереса, когда нужно выделить периодичность в ряде. Фактически оба этих эффекта могут заслонить более интересные периодичности в данных.

В теории сигналов доказывается, что чем шире спектр случайного процесса, тем хаотичнее изменяются во времени его реализации. В пределе, когда на всех частотах спектральная плотность постоянна, процесс представляет собой "белый шум", то есть абсолютно случайную последовательность реализаций. Дисперсия белого шума неограниченно велика.

Результаты

  • Большинство регулярных составляющих временных рядов принадлежит к двум классам: они являются либо трендом, либо сезонной составляющей. Тренд представляет собой общую систематическую линейную или нелинейную компоненту, которая может изменяться во времени. Сезонная составляющая – это периодически повторяющаяся компонента. Оба эти вида регулярных компонент часто присутствуют в ряде одновременно.
  • В системе Statistica реализованы все основные и часто используемые методы анализа временных рядов.
  • Наиболее хорошо разработаны методы анализа стационарных рядов. Для приведения ряда к стационарному виду необходимо воспользоваться модулями системы Statistica по преобразованию рядов.
  • Прогноз строится для сглаженного ряда, получаемого из исходного ряда. Исходный ряд сглаживается с некоторыми экспоненциальными весами, образуется новый временной ряд (с меньшим уровнем шума), поведение которого можно прогнозировать.
  • Методы экспоненциального сглаживания и прогнозирования требуют выбора модели ряда, поиска параметров и проверки адекватности модели.
Центр системной оптимизации бизнеса
и управления качеством
Качество управления
Обучение статистической обработке данных
Программы курсов, тренингов, семинаров
Оптимизация бизнес-процессов
на основе статистических методов
(промо-семинар)
Уникальность
Изучаемые статистические методы
Проекты

 

Система статистических методов управления –
  • это палитра из инструментов сбора, обработки, представления, анализа информации, технологии принятия решений, специально разработанная для повышения качества управления и улучшения деятельности организации
  • это залог успеха вашего бизнеса!

  •  

    Цель – анализ временного процесса и прогноз

    Считается, что вся информация о текущих значениях ряда содержится в предыдущих

    В методе скользящего среднего каждый член ряда заменяется простым или взвешенным средним n соседних членов

    Обратите внимание: ряд – это случайный процесс. Характеристики ряда – неслучайные величины

     

    Выбор модели зависит от конкретной совокупности явлений, определяющих данный временной ряд и их взаимосвязей

    Это «классический» ряд – Ряд G (Бокс и Дженкинс), описанный в сотнях работ

    Методы анализа довольно сложны, поэтому стартовая панель, как и все диалоговые окна, содержит много параметров и кнопок

    Необходимо внимательно следить за выбранной переменной, чтобы дальнейший анализ был корректным

    Если наблюдения не проводились, ячейка таблицы с данными должна быть пустой. Это связано с тем, что при обработке не используются ни номера, ни названия наблюдений

    Характерно, что не существует «автоматического» выбора модели, обнаружения тренда в временном ряде и так далее. Ремесло здесь заканчивается, и начинается искусство

    Последовательность действий зависит от цели анализа и может изменяться

    Стационарность характеризуется тем, что последовательные группы элементов ряда имеют одну и ту же функцию распределения. То есть процесс не зависит от начала отсчёта

    Дело в том, что методы анализа стационарных процессов хорошо разработаны и давно показали практическую полезность

    Это необходимо сделать для проверки адекватности модели

    Частная автокорреляция дает более чистую картину периодических зависимостей

    Значения автокорреляционной функции также выводятся в виде таблицы. Близкие к нулю значения указывают на отсутствие корреляции

    Как и в предсказании погоды, чем дальше наблюдение, тем меньше точность прогноза

    Это графическое отображение автокорреляционной функции

    Эмпирические исследования показали, что весьма часто простое экспоненциальное сглаживание даёт достаточно точный прогноз

    Самый оптимальный прогноз можно получить для 10–15 наблюдений

    Как и в случае с обычной средней ошибкой отрицательные и положительные относительные ошибки будут подавлять друг друга. Поэтому для оценки качества подгонки для всего ряда лучше использовать среднюю абсолютную относительную ошибку

    В отличие от регрессионного анализа, кроме гистограммы и нормального вероятностного графика доступен ещё один инструмент – автокорреляционная функция

    Метод распределенных лагов позволяет исследовать зависимость одного ряда, запаздывающего относительно другого

    Математически задача заключается в разложении исходной периодической функции в ряд Фурье по синусно-косинусному ортогональному базису

    Для США вообще характерен четырёхлетний цикл. Догадайтесь, почему

    Спектральная плотность – основное понятие спектрального анализа

    В теории сигналов это постоянная составляющая, в электротехнике – постоянный ток

     
    Система статистических методов управления –
  • это палитра из инструментов сбора, обработки, представления, анализа информации, технологии принятия решений, специально разработанная для повышения качества управления и улучшения деятельности организации
  • это залог успеха вашего бизнеса!

  • Желаете участвовать в семинаре? Хотите написать? Электронная почта - tomsk@ieee.org (Стукач Олег Владимирович)