+7 495 185-09-77
   +7 499 135-41-63 (ВЦ РАН)

   info@forecsys.ru
      или посмотреть карту сайта
10 октября 2018
Пополнение команды «Форексис» молодыми и талантливыми специалистами с ведущих вузов России

 

16 августа 2018
Внесены поправки в 224-ФЗ «О противодействии неправомерному использованию инсайдерской информации и манипулированию рынком и о внесении изменений в отдельные законодательные акты Российской Федерации»

 

12 августа 2018
Создана Рабочая группа НАУФОР по вопросам регулирования злоупотреблений на рынке ценных бумаг

 

02 августа 2018
Компания «Форексис» заключила соглашение о сотрудничестве с международной аудиторско-консалтинговой компанией КПМГ

 

20 июля 2018
Новые методы выявления мошеннических действий на финансовых рынках

 

17 июля 2018
Вышла обновленная версия пользовательского приложения системы Check4Trick

 

25 июня 2018
Завершен проект по разработке АРМ клиента мониторинга системы САФРАН

 

08 июня 2018
Компания «Форексис» продолжает работы по модернизации технологии распознавания движений SOLUT

 

24 мая 2018
Сотрудничество компании «Форексис» и ФИЦ «Информатика и управление» РАН

 

27 апреля 2018
Высокая оценка работы компании «Форексис» со стороны ПАО Московская Биржа

 

Новости

Компания «Форексис» организует исследование по разработке алгоритма определения синонимии слов для заданного текстового корпуса

Компания «Форексис» продолжает работы по развитию системы полнотекстового поиска. Очередным этапом работ стала разработка алгоритма, расширяющего области поиска за счет создания базы слов-синонимов.

Специалистами «Форексис» был составлен корпус из 125 тыс. текстовых документов на русском языке, преимущественно подзаконных актов, находящихся в открытом онлайн-доступе. После этого была произведена обработка текстового корпуса: из текстов были исключены знаки препинания, латинские буквы и цифры, слова приведены к начальной форме, удалены местоимения-существительные, предлоги, союзы и междометия, исправлены ошибки и опечатки.

Итоговое количество слов в полученном корпусе составило более 300 млн, из них 1 млн уникальных слов. В итоговый словарь вошло порядка 35 тыс. слов с частотой >100.

В настоящее время на данном корпусе текстов проводится тестирование работы алгоритмов ApSyn и word2vec.

По итогам проведенных работ был создан объединенный словарь синонимов, а также протестирована обновленная поисковая система. На 2018 год запланирована дальнейшая адаптация работы алгоритмов под задачи проекта.

Дата публикации: 26.02.2018

вернуться к другим новостям