В рамках импортозамещения ИТ-технологий компания «Форексис» продолжает работы по развитию системы полнотекстового поиска. Очередным этапом работ стала разработка алгоритма, расширяющего области поиска за счет создания базы слов-синонимов.
Специалистами «Форексис» был составлен корпус из 125 тыс. текстовых документов на русском языке, преимущественно подзаконных актов, находящихся в открытом онлайн-доступе. После этого была произведена обработка текстового корпуса: из текстов были исключены знаки препинания, латинские буквы и цифры, слова приведены к начальной форме, удалены местоимения-существительные, предлоги, союзы и междометия, исправлены ошибки и опечатки.
Итоговое количество слов в полученном корпусе составило более 300 млн, из них 1 млн уникальных слов. В итоговый словарь вошло порядка 35 тыс. слов с частотой >100.
В настоящее время на данном корпусе текстов проводится тестирование работы алгоритмов ApSyn и word2vec.
По итогам проведенных работ был создан объединенный словарь синонимов, а также протестирована обновленная поисковая система. На 2018 год запланирована дальнейшая адаптация работы алгоритмов под задачи проекта.