+7 499 135-41-63 (ВЦ РАН)
   info@forecsys.ru
      или посмотреть карту сайта
16 апреля 2018
«Форексис» примет участие в международной конференция по искусственному интеллекту

 

03 апреля 2018
Стартовал проект по разработке новой подсистемы хранения данных и переходу с СУБД Oracle 11g на Firebird 3.0 для системы «САФРАН»

 

30 марта 2018
«Форексис» выиграла тендер на поставку программного продукта для анализа результатов финансовых торгов в одной из ведущих управляющих компаний

 

27 марта 2018
Компания «Форексис» приняла участие в семинаре KPMG, посвященном противодействию неправомерному использованию инсайдерской информации и манипулированию рынком (ПНИИИ/МР)

 

05 марта 2018
Открытые вакансии в компании «Форексис»

 

26 февраля 2018
Компания «Форексис» организует исследование по разработке алгоритма определения синонимии слов для заданного текстового корпуса

 

12 февраля 2018
Компания «Форексис» приняла участие в Открытой конференции по искусственному интеллекту OpenTalks.AI

 

01 февраля 2018
«Форексис» на конференции OpenTalks.AI

 

29 января 2018
Компания «Форексис» приняла участие в семинаре KPMG «Обзор законодательства в сфере комплаенс для НФО»

 

27 декабря 2017
Компания «Форексис» поздравляет вас с наступающим Новым годом и Рождеством!

 

Новости

Компания «Форексис» организует исследование по разработке алгоритма определения синонимии слов для заданного текстового корпуса

Компания «Форексис» продолжает работы по развитию системы полнотекстового поиска. Очередным этапом работ стала разработка алгоритма, расширяющего области поиска за счет создания базы слов-синонимов.

Специалистами «Форексис» был составлен корпус из 125 тыс. текстовых документов на русском языке, преимущественно подзаконных актов, находящихся в открытом онлайн-доступе. После этого была произведена обработка текстового корпуса: из текстов были исключены знаки препинания, латинские буквы и цифры, слова приведены к начальной форме, удалены местоимения-существительные, предлоги, союзы и междометия, исправлены ошибки и опечатки.

Итоговое количество слов в полученном корпусе составило более 300 млн, из них 1 млн уникальных слов. В итоговый словарь вошло порядка 35 тыс. слов с частотой >100.

В настоящее время на данном корпусе текстов проводится тестирование работы алгоритмов ApSyn и word2vec.

По итогам проведенных работ был создан объединенный словарь синонимов, а также протестирована обновленная поисковая система. На 2018 год запланирована дальнейшая адаптация работы алгоритмов под задачи проекта.

Дата публикации: 26.02.2018

вернуться к другим новостям