назад новости

Специалисты компании «Форексис» завершили исследовательский проект по прогнозированию влияния новостного потока на изменение цен инструментов

дата публикации 29-10-2017

Для анализа текстовых данных были выбраны экономические новости за период 01.04.2016-30.06.2016. По каждой новости анализировались следующие показатели: уникальный идентификатор, рубрика, теги, дата публикации, заголовок, подзаголовок и текст новости. Исследование включало в себя этапы предобработки текстовых данных, построения и тестирования модели прогнозирования.

На этапе предобработки тексты были переведены в нижний регистр, были удалены неинформативные знаки и символы (числа, запятые, стоп-слова и др.) Для коллекции текстов был построен словарь, для слов в словаре подсчитаны значения важности (TF-IDF). Для каждого текста был построен набор признаков по принципу «мешка слов» с использованием наиболее важных слов.

В качестве данных с финансового рынка были взяты временные ряды цен акций «Газпром» за аналогичный временной период. Для каждой новости, опубликованной в рабочее время, была вычислена вещественная оценка влияния новости на цену акции, превышение среднего значения цены после выхода новости. Признаковое описание текстов и оценки влияния новостей составили выборку для модели прогнозирования.

В качестве моделей прогнозирования использовались наивный байесовский классификатор, случайный лес на бинарных признаках, а также случайный лес на признаках TF-IDF. Модели сравнивались по критерию площади под кривой (ROC-AUC), усредненной по тестовым выборкам кросс-валидации. Наилучший результат показала модель байесовского классификатора с отбором признаков.

Исследование проводилось в рамках работ по модернизации системы Check4Trick для мониторинга и анализа результатов торгов, основанной на импортозамещающих решениях и технологиях.

Ознакомиться с результатами исследования вы можете, прислав заявку в аналитический отдел компании «Форексис» на адрес info@forecsys.ru.

Ответим на все вопросы