Этот текущий проект представляет собой попытку построить NLP-классификатор для продуктов из супермаркетов, используя их название. Используются следующие технологии:
Главной сложностью этого проекта является то, что данные представлены более чем на 20 языках, в связи с чем была использована известная модель, натренированная на более чем 100 языках - XLMRoberta. Я провел тонкую настройку (fine-tuned) эту модель для поставленной задачи. В дальнейшем я планирую добавить к входным данным информацию о бренде, изображение, вес/объем товара к существующей модели с использованием ансамблевых методов для достижения лучших результатов.
Важной частью этого проекта является инструмент для очистки данных, который используется для фильтрации, очистски и обозначения данных. Этот web-инструмент создан с использованием Django, ео интерфейс представлен на изображении ниже: