Распознавание именованных сущностей (NER) - это процесс автоматической идентификации и классификации именованных сущностей в тексте на естественном языке. Распространенными типами объектов являются люди, местоположения, организации, продукты, события и даты. Эта задача довольно сложна для решения машиной, поскольку текст на естественном языке может содержать шум и двусмысленность, которые необходимо устранить, прежде чем можно будет получить точный результат. Например, двусмысленность вокруг таких слов, как "они" или "это", может затруднить точную идентификацию именованных объектов в предложении без какого-либо другого контекста.
За основу модули нами была использована предообученная на русском языке библиотека DeepPavlov - ner_rus, которую мы дообучали на собственной выборке размеченных сообщений от Заказчика.
Результаты проекта показали хорошее качество распознавания, в среднем 96% по метрике F1.
Ожидаемые изменения от внедрения решения
Автоматизация обработки информационных сообщений приведет к:
- Сокращению времени обработки информационных сообщений с 7 минут до 10 секунд* (c 15-21 минут до 10-30 секунд для иностранных эмитентов)
- Сокращению объема первично читаемых сообщений на 50%
- Повышению скорости реакции на вновь поступившие информационные сообщения
- Возможности приоритезации обработки информационных сообщений согласно их типу и статусу
- Возможности наращивать анализируемые источники сообщений