Прогнозирование и анализ данных

Фонд перспективных исследований, 2015 год

Конкурс для поиска лучшего отечественного коллектива, способного преодолеть существующие недостатки технологий распознавания лиц

Avito, 2015 год

Конкурс анализа данных, посвященный проблематике Uplift modelling для решения задачи распознавания отклика клиентов на маркетинговое предложение

Avito, 2014 год

Конкурс по распознаванию контактной информации на изображениях

Банк Траст, 2014 год

Внедрение системы прогнозирования поведения клиентов и оптимизации кампаний целевого маркетинга Sell4Cast

ОТП Банк, 2011 год

Конкурс анализа данных по решению задачи предсказания отклика клиентов на предложение новой услуги

Компания «Балтика», 2011 год

Автоматизация прогнозирования вторичных продаж

ММВБ, 2010 год

Система анализа финансовых рынков «САФРАН 3.0»

ГК «Лама», 2010 год

Внедрение системы автоматического формирования заказа на распредительном центре компании

ЗАО «НСС», 2009 год

Внедрение BI/CRM систем Forecsys & Teradata

ГК «Видео Интернешнл», 2009 год

Улучшения системы прогнозирования компании

ГК «Лама», 2009 год

Внедрение системы прогнозирования спроса и управления запасами Goods4Cast

Банк «Петрокоммерц», 2009 год

Система поддержки принятия кредитных решений

М-Видео, 2008 год

Оптимизации процессов планирования продаж и закупок товаров

Компания «Балтика», 2008 год

Внедрение системы прогнозирования спроса и планирования продаж

ГК «Комстар – ОТС», 2008 год

Поведенческая сегментация клиентов

ГУ-ВШЭ, 2007 год

Внедрение системы Антиплагиат

Сеть «Связной», 2007 год

Создание и внедрение ИС «Ценообразование»

Сеть «Связной», 2007 год

Внедрение системы прогнозирования спроса

X5 Retail Group, 2007 год

Объединение процессов ведения номенклатуры нескольких розничных торговых сетей

ГВЦ РАО «ЕЭС России», 2006 год

Анализ отраслевых данных энергетических компаний

AntiPlagiat.ru, 2005 год

Интернет-сервис анализа текстов на наличие заимствований

АП «Домодедово», 2005 год

Решение для имитационного моделирования транспортной сети аэропорта

Яндекс, 2005 год

Технология выявления взаимосогласованных структур сходства пользователей и ресурсов

ТД «Перекресток», 2005 год

Система прогнозирования потребительского спроса Goods4Cast

Брок-Инвест-Сервис, 2005 год

Анализ и сегментация клиентской базы

ОАО «МТС», 2004 год

Исследование поведенческой сегментации клиентов

Банк «Петрокоммерц», 2004 год

Система поддержки принятия кредитных решений

«Интер РАО ЕЭС», 2004 год

Автоматизированная система поддержки принятия решений на энергетических рынках «Aprel 1.0»

РАО «ЕЭС России», 2001 год

Автоматизированная система поддержки принятия решений «Форель 1.0»

ММВБ, 1999 год

Учебная имитационная торговая система «Имитрейд»

Яндекс, 2005 год

Компания-заказчик: Яндекс

Сроки проекта:       январь 2005 — июнь 2005

История проекта

В 2005 году в рамках стипендии Яндекс исследовательской группой компании Forecsys построена «карта сходства ресурсов Интернет». Карта служит для выявления предпочтений пользователей Интернет. Главные цели проведенного исследования:

  • демонстрация возможностей ранее разработанной технологии анализа клиентских сред, АКС (Customer Environment Analysis, CEA) для анализа пользовательской среды российского Интернета (применение технологии АКС для анализа среды сети Интернет направлено на выявление предпочтений и информационных потребностей пользователей, и в конечном итоге, служит для повышения удобства навигации, автоматической каталогизации ресурсов, персонализации ресурсов и услуг);
  • оздание прототипа системы для анализа логов Интернет-порталов, поисковых систем, счетчиков посещаемости (Web Usage Mining, WUM).
Особенности проекта

Исходными данными исследования являлись протоколы действий пользователей, в которых фиксируется кто, когда и какой ресурс посещал. По этим протоколам строилась матрица частот посещения каждым пользователем каждого ресурса. Дальнейший анализ данных состоял из трех этапов.

На первом этапе проекта построенная частотная матрица подвергалась предварительной обработке для исключения малоинформативных пользователей и ресурсов с наименьшими значениями суммарной частоты пользования.

На втором этапе по частотной матрице строились две меры сходства – между пользователями и между ресурсами. Пользователи схожи, если они посещают схожие множества ресурсов; ресурсы схожи, если их посещают схожие пользователи. Строгая математическая формализация этой простой, на первый взгляд, идеи требует применения специальных математических техник, направленных на построение наиболее адекватных мер сходства:

  • оптимизация мер сходства по критериям кластеризуемости;
  • построение оптимальных композиций из нескольких мер сходства;
  • анализ устойчивости мер сходства.

На третьем этапе к полученным мерам сходства применялись специальные алгоритмы кластеризации, классификации и многомерного шкалирования.

Основа подхода

Технология АКС направлена на решение широкого спектра задач маркетинга и управления взаимоотношения с клиентами (Customer Relationship Management, CRM). К числу этих задач относятся:

  • выявление и интерпретация сложившихся типов поведения клиентов («потребительских корзин»);
  • сегментация клиентской базы и выявление целевых групп клиентов;
  • структуризация ассортимента в соответствии с объективными предпочтениями клиентов;
  • персонализация предложения услуг клиентам;
  • прогнозирование оттока клиентов;
  • выявление необычного или потенциально опасного для компании поведения клиентов.

Основной целью решения этих задач является повышение качества оказываемых услуг, более эффективное привлечение и удержание клиентов.

Технология АКС достаточно универсальна и может применяться в разных сферах бизнеса. Можно говорить о клиентских средах торговых сетей, операторов связи, организаторов биржевых торгов, эмитентов пластиковых карт, а применительно к Интернету – электронных магазинов, интернет-порталов, форумов, поисковых машин.

Функциональные характеристики

Анализ сходства ресурсов и клиентов позволяет предложить ряд новых сервисов как рядовым пользователям Интернет, так и компаниям, имеющим интернет-порталы:

  • графическая навигация в сети Интернет: построение интерактивной графической карты сходства ресурсов, на которой точки соответствуют ресурсам, а расстояния между точками отражают степень их сходства;
  • сегментация пользователей: выявление типовых наборов ресурсов, посещаемых пользователями («потребительских корзин»); целевое позиционирование ресурса на основе потребительских корзин пользователей ресурса;
  • автоматическое создание каталогов: выявление сегментов схожих ресурсов и ранжирование сегментов по посещаемости;
  • эффективный поиск похожих ресурсов: построение карты окрестности некоторого ресурса позволяет пользователю производить поиск аналогичных ресурсов;
  • направленный поиск: предложение пользователю ресурсов, наиболее востребованных среди схожих клиентов (направленный поиск особенно удобен при поиске товаров в Интернет-магазинах);
  • персонализация результатов поисковых запросов: ранжирование результатов поиска по популярности только среди схожих пользователей;
  • создание адаптивных сайтов: автоматическая настройка внешнего вида сайта и рекламного контента для пользователей с учетом предпочитаемых ими ресурсов;
  • автоматизация поиска единомышленников: построение карт для сходства тем обсуждений и участников в Интернет-форумах.
Рабочий вид системы

Примером применения технологии АКС является автоматическое построение карты сходства российского сегмента Интернет. Демонстрационная версия карты содержит около 1000 ссылок на наиболее популярные сайты. Карта строится по принципу «чем больше пользователей заходили на оба сайта сразу, тем ближе эти сайты на карте». Примечательно, что близкими, как правило, оказываются сайты схожей тематики, хотя при построении карты используется только информация о посещаемости сайтов пользователями, а не содержание сайтов.

Рис. 1. Карта сходства

Для построения демонстрационной карты используется обычная рабочая станция на базе Pentium IV, 2 GHz, 128 MB RAM. Расчет карты по исходному протоколу посещений размером 3,5 GB занимает порядка одной минуты.

Обратите внимание! Для получения интерактивной карты, поддерживающей изменения масштаба, подписи к точкам и переход на сайты, необходимо согласиться с установкой ActiveX-компонента ForecsysActiveCHDView. Выделение точки – левая кнопка мышки, переход по ссылке – правая кнопка мышки. Можно отказаться от установки компонента и получить статичную карту сходства.

Материалы проекта

Технология выявления взаимо-согласованных структур сходства пользователей и ресурсов (К.В. Воронцов, К.В. Рудаков, В.А. Лексин).