+7 499 135-41-63 (ВЦ РАН)
   info@forecsys.ru
      или посмотреть карту сайта

Новостной поток, 2017 год

Прогнозирование влияния новостного потока на изменение цен инструментов

Временной/событийный подходы, 2017 год

Временной и событийный подходы к выявлению нестандартных ситуаций на биржевых торгах

Геоанализ, 2015 год

Геоанализ кластеров клиентов крупного российского банка в г. Новосибирск

Диаграмма Вороного, 2015 год

Использование диаграммы Вороного для распределения сотовых базовых станций

Оптимизация сети светофоров, 2014 год

Оптимизация сети светофорных объектов в г. Люберцы

Модель светофорного объекта, 2013 год

Разработка программного инструмента оптимизации работы перекрестка

Тепловые карты, 2013 год

Построение тепловой карты клиентов крупного ТЦ

Новостной поток, 2017 год

Исследование: Прогнозирование влияния новостного потока на изменение цен инструментов
Сроки проекта: 2017

Задача

Проверка возможностей прогнозирования влияния новости на цену инструмента на базе анализа текстовых данных русскоязычных новостей.

Основа подхода

Для анализа текстовых данных были выбраны экономические новости за период 01.04.2016-30.06.2016. По каждой новости анализировались следующие показатели: уникальный идентификатор, рубрика, теги, дата публикации, заголовок, подзаголовок и текст новости. Исследование включало в себя этапы предобработки текстовых данных, построения и тестирования модели прогнозирования.

На этапе предобработки тексты были переведены в нижний регистр, были удалены неинформативные знаки и символы (числа, запятые, стоп-слова и др.) Для коллекции текстов был построен словарь, для слов в словаре подсчитаны значения важности (TF-IDF). Для каждого текста был построен набор признаков по принципу «мешка слов» с использованием наиболее важных слов.

В качестве данных с финансового рынка были взяты временные ряды цен акций «Газпром» за аналогичный временной период. Для каждой новости, опубликованной в рабочее время, была вычислена вещественная оценка влияния новости на цену акции, превышение среднего значения цены после выхода новости. Признаковое описание текстов и оценки влияния новостей составили выборку для модели прогнозирования.

В качестве моделей прогнозирования использовались наивный байесовский классификатор, случайный лес на бинарных признаках, а также случайный лес на признаках TF-IDF. Модели сравнивались по критерию площади под кривой (ROC-AUC), усредненной по тестовым выборкам кросс-валидации. Наилучший результат показала модель байесовского классификатора с отбором признаков.

Исследование проводилось в рамках работ по модернизации системы Check4Trick для мониторинга и анализа результатов торгов.