назад новости

Компания «Форексис» организует исследование по разработке алгоритма определения синонимии слов для заданного текстового корпуса

дата публикации 03-11-2018

В рамках импортозамещения ИТ-технологий компания «Форексис» продолжает работы по развитию системы полнотекстового поиска. Очередным этапом работ стала разработка алгоритма, расширяющего области поиска за счет создания базы слов-синонимов.

Специалистами «Форексис» был составлен корпус из 125 тыс. текстовых документов на русском языке, преимущественно подзаконных актов, находящихся в открытом онлайн-доступе. После этого была произведена обработка текстового корпуса: из текстов были исключены знаки препинания, латинские буквы и цифры, слова приведены к начальной форме, удалены местоимения-существительные, предлоги, союзы и междометия, исправлены ошибки и опечатки.

Итоговое количество слов в полученном корпусе составило более 300 млн, из них 1 млн уникальных слов. В итоговый словарь вошло порядка 35 тыс. слов с частотой >100.

В настоящее время на данном корпусе текстов проводится тестирование работы алгоритмов ApSyn и word2vec.

По итогам проведенных работ был создан объединенный словарь синонимов, а также протестирована обновленная поисковая система. На 2018 год запланирована дальнейшая адаптация работы алгоритмов под задачи проекта.

Ответим на все вопросы