Русский  |  English  |  Карта сайта

IPF

Технология прогнозирования взаимосвязанных процессов (Interrelated Processes Forecasting)

Назначение

Задачи прогнозирования являются, пожалуй, наиболее распространенными в бизнес-аналитике. Планирование и принятие управленческих решений всегда опирается на прогнозы, даже если они производятся неявно, «в уме». Примеров прикладных задач прогнозирования в экономике огромное количество: прогнозирование потребительского спроса, объемов грузоперевозок, финансовых потоков компаний, курсовой стоимости акций, цен на недвижимость, и т. д.

В результате повсеместного распространения информационных технологий наметились три тенденции в прогнозировании.

  1. Во многих компаниях методы прогнозирования начинают включаться в автоматизированные технологические цепочки, тогда как раньше прогнозы использовались только для отчетности и носили лишь рекомендательный характер. Поэтому возрастают требования к точности прогнозирования.
  2. Стремительно возрастают объемы доступных данных. Накапливается огромное количество временных рядов, многие из которых взаимосвязаны. Все более актуальной становится задача выявления неочевидных скрытых взаимосвязей в данных.
  3. Динамичность процессов в современной экономике приводит к существенной нестационарности временных рядов — их структурные свойства постоянно изменяются.

В этих условиях стандартные статистические методы прогнозирования начинают давать сбой. Лежащие в их основе предположения часто не выполняются на практике или не допускают надежной проверки, например, гипотеза стационарности ряда или гипотеза о той или иной форме его нестационарности. Например, имея дело с нестационарным рядом, можно предполагать непостоянство дисперсии (гетероскедастичность) и использовать соответствующую стохастическую модель, тогда как на самом деле ряд будет периодически изменять свою структуру, переключаясь с одной модели на другую. Для высокоточного прогнозирования большого количества нестационарных взаимосвязанных временных рядов необходимы новые методы и подходы.

Исходя из этих соображений, специалисты компании Forecsys разработали технологию Прогнозирования взаимосвязанных процессов (Interrelated Processes Forecasting, IPF). Она совмещает в себе классические статистические методы прогнозирования, современные идеи интеллектуального анализа данных (data mining) и достижения научной школы академика РАН Ю.И. Журавлева — алгебраический подход к построению алгоритмических композиций.

Функциональность

Основная технологическая цепочка технологии IPF складывается из следующих шагов.

  1. Подготовка исходных данных
  2. Исходными данными являются массивы временных рядов. На первом этапе выполняются стандартные процедуры предварительной обработки данных: заполняются пропуски, фильтруются выбросы, устраняется асинхронность рядов, и т.д. Для решения этих задач используется библиотека функций Forecsys TSA.

  3. Поиск элементарных предикторов
  4. Предиктором может быть любая функция, оценивающая значение временного ряда в момент t + 1 по значениям данного ряда, и, возможно, других рядов, в моменты до t-го включительно. Это могут быть значения самого ряда, его скользящие средние, математические модели, связывающие данный ряд с другими рядами, и т.д. Неплохими предикторами часто оказываются стандартные статистические алгоритмы, такие как ARIMA или GARCH. В силу указанных выше обстоятельств они не всегда способны решить задачу «целиком», но могут выступать в роли компонент решения. Некоторые конструкции элементарных предикторов могут подсказать эксперты, работающие с данными рядами на практике, и, возможно, имеющие многолетний опыт прогнозирования «в уме».

  5. Отбор предикторов
  6. Следующим этапом является отбор значимых предикторов (features selection). Когда количество элементарных предикторов превышает несколько десятков, не говоря уже о сотнях и тысячах, задача отбора становится трудной комбинаторной проблемой. Для ее решения привлекаются эффективные методы сокращенного перебора: шаговая регрессия, случайный поиск с адаптацией, групповой учет аргументов, генетические алгоритмы и другие. Как правило, эти методы позволяют найти не один набор значимых предикторов, а целое множество наборов.

  7. Построение прогнозной модели
  8. На основе каждого набора элементарных предикторов строится отдельная прогнозная модель. Иногда достаточно удачными моделями оказываются непосредственно сами предикторы. Кроме того, возможна разработка специализированных (проблемно-ориентированных) моделей, построенных на основе опыта экспертов. Таким образом, формируется множество альтернативных моделей.

  9. Композиции прогнозных моделей
  10. Итоговая прогнозная модель может быть получена либо путем выбора модели, дающей лучшую точность прогнозов (model selection), либо путем построения композиции моделей. Композиции часто дают наилучший результат, так как в этом случае погрешности различных моделей компенсируют друг друга. Для учета нестационарности выбор модели настройка композиции производится только по самым последним данным.

    В некоторых задачах количество прогнозируемых рядов исчисляется десятками и сотнями тысяч. В этих случаях используются динамические (on-line) методы прогнозирования. При поступлении каждой порции новых данных вместо полной перестройки всех моделей по всем историческим данным производится лишь небольшая модификация прогнозных моделей.

 

Для реализации описанной технологической цепочки применяются библиотеки функций TSA и ForecastPro, являющиеся собственными разработками компании.