Подавайте работы до 21 января (вт)11 000 Р,
с 22 января (ср)14 000 Р
Церемония награждения
5 декабря 2025
Крупнейшая digital-премия в Европе

Адаптация больших языковых моделей под задачи бизнеса: опыт Авито

Заказчик: Авито
Исполнитель: Vinci
Share
Адаптация больших языковых моделей под задачи бизнеса: опыт Авито

Главное о кейсе

В Авито много задач и процессов, где используются нейросети. Фактически, алгоритмы машинного обучения сопровождают пользователя на каждом шагу. Появление генеративных нейросетей стало новым этапом эволюционного развития искусственного интеллекта на платформе.
Прикладных решений с использованием языковых моделей с пользой для бизнеса пока еще достаточно мало. Мы столкнулись с тем, чтобы найти цель, для которой генеративные нейросети имели бы прикладную ценность.
Мы разработали и внедрили собственную генеративную языковую модель, специально адаптированную под специфику платформы. На базе ее модели был создан комплекс инструментов:
Автоматический генератор описаний объявлений, работающий на основе больших данных. Теперь, при создании объявления в категории «Обувь, одежда, аксессуары» в мобильном приложении, нейросеть может помочь пользователю написать объявление, исходя из ранее заполненных характеристик и изображения товара.
Система создания мета-тегов для оптимизации поиска на платформе. С ее помощью непрофессиональные пользователи, размещающие объявления на Авито, получат возможность дополнить объявления предложенными нейросетью мета-тегами, которые повысят возможность покупателей найти данное объявление по сгенерированным автоматически ключевым словам.

Как проект изменил жизнь пользователей

Для продавцов:
– Упростился процесс создания объявлений: достаточно написать заголовок, загрузить фото и заполнить базовые параметры товара, а нейросеть сама сгенерирует полное описание;
– Объявления стали привлекать больше покупателей благодаря автоматически сгенерированным мета-тегам, даже если продавец забыл указать какие-то характеристики товара;
– На 1,7% выросло количество заказов с доставкой по сравнению с контрольной группой. То есть покупатели лучше понимали описания, где помогала нейросеть, и чаще совершали заказы таких товаров.
– Выросло количество успешных поисковых сессий, закончившихся контактом с продавцом (+1%)
Для покупателей:
– 60% пользователей дали позитивную обратную связь по сгенерированным описаниям;
– Улучшился поиск нужных товаров: теперь объявления находятся, даже если продавец использовал нестандартные описания товаров без поисково-оптимизированных характеристик

Бизнес-задача и ее решение

Авито — UGC-платформа, ежедневно у нас появляется по несколько миллионов объявлений. Контент — это основа площадки, то, благодаря чему, покупатели находят продавцов, и наоборот.
Обучение большой языковой модели — наша внутренняя задача, непосредственно с моделью пользователи никак не взаимодействуют. Однако, они получают возможность использовать фичи, которые мы предлагаем на основе генеративных нейросетей.
1 - Генерация описания объявления
Теперь при создании объявления в категории «Обувь, одежда, аксессуары» в мобильном приложении нейросеть может помочь пользователю написать объявление. Функционал доступен для всех частных пользователей, которые продают свои товары.
Пользователю достаточно написать заголовок, загрузить фотографии, а также заполнить несколько параметров товара — и алгоритм автоматически обработает информацию и предложит вариант описания товара. При этом, если нейронная сеть не сможет определить важную информацию из данных, которые у нее есть, например, не определит достоверно длину по стельке в обуви по фотографии, то мы добавляем плейсхолдеры, в которых продавец может указать эту информацию самостоятельно.
Важной частью новой функции стал алгоритм Image-to-text, который генерирует описание, опираясь на изображение товара, приложенное продавцом.
Продавец по-прежнему может оформить описание самостоятельно, а может воспользоваться помощью нейросети для ускорения процесса. Текст, придуманный ею, можно корректировать — например, запросить другой вариант или добавить новые пункты.
Функционал раскатан также для категорий хобби и отдыха (велосипеды, музыкальные инструменты, спорт и отдых, охота и рыбалка).
2 - Добавление мета-тегов для поисковой оптимизации
Здесь мы использовали эту же технологию генерации описания для выделения ключевых характеристик товаров по фотографиям. Частные пользователи — не профессиональные селлеры — пишут описания своих товаров специфично, без учета поисковой оптимизации. То есть они могут формулировать описание так, как другие люди не ищут: что-то не упомянуть, где-то ошибиться, что-то сформулировать совершенно иначе. В этой ситуации покупатель, вводя в поиск наименование товара, не получает объявление в выдаче, а продавец — не получает покупателей. Поэтому мы решили добавить сгенерированные нейросетью мета-теги для улучшения поиска на платформе.
После создания пользователем объявления, нейросеть генерирует по главному изображению и названию дополнительные мета-теги. Например, модель выделит ключевые слова как “охотничья куртка цвета хаки, утеплённая, с капюшоном”.
Эти ключевые слова добавляются в базу поиска (в текстовое поле поискового движка sphinx). Теперь это объявление будет находиться по поисковому запросу, включающему данные слова, даже если продавец не указал их на этапе подачи.
Данное решение позволяет уменьшить количество пустых поисковых выдач (т.е. когда в выдаче нет релевантных объявлений) и повысить релевантность существующих объявлений, что, в свою очередь, позитивно влияет на пользовательский опыт.

Крафт (мастерство), реализация, технические детали

Сейчас в мире выходят много Open Source моделей, которые показывают высокое качество выполнения задач. А вот обучить свой претрейн очень дорого: нужно взять большую модель, терабайты данных и обучить модель на задачу next token prediction. Это может занять несколько дней или даже недель — в зависимости от количества данных, размера модели и количества GPU-карт.
Тем не менее, мы решили обучить свой претрейн:
1. Опенсорс модели намного лучше работают с английским языком, чем с русским. Их выпускают зарубежные компании, обучают обычно на домене английского языка, а русского языка модели видят не очень много.
2. Токенизатор опенсорсных моделей хуже адаптирован для русского языка. Такие модели будут выдавать значительно больше токенов, чем токенизатор, который вы обучите на русскоязычных текстах. Это влияет на скорость: модель с вашим токенизатором будет работать в 1,5-2 раза быстрее.
3. Они плохо приспособлены к прикладным задачам Авито.
Мы взяли популярные опенсорсные модели Mistral-7B-v0.1 и Mistral-7B-Instruct-v0.1 и исследовали их качество на наших бенчмарках.
Разработка велась исключительно командой Авито собственными ресурсами.

Инсайты, гипотезы, процесс создания и взаимодействия с заказчиком

Обучение модели состояло из двух этапов. На первом собрали много данных из разных корпусов, доступных в Open Source, и добавили данные Авито.
Получившиеся 1,5 Тб информации очистили от дублей — дата-сет уменьшился до 1,1 Тб. После этого обучали модель предсказывать следующий токен — взяли существующую языковую модель Mistral 7В и дообучили на наших данных. Обучение длилось 15 дней.
Дальше мы взяли Mistral-7B-v0.1 и дообучили её на этих данных на задачу next token prediction. Нам было доступно 72 GPU A100 80GB на ML Space. Одна эпоха обучения длилась 15 дней.
Вторым этапом стал SFT-этап (Supervised fine-tuning), когда мы дали модели обучиться на данных в формате «задание (вопрос) – ответ». Считается, что если на этапе претрейна языковая модель больше узнает о мире в целом, то на SFT-этапе модели показывают, как правильно отвечать на конкретные вопросы.
Затем мы проверили получившуюся модель на трех тестах: общепринятом для языковых моделей, и двух прикладных для Авито. Везде модель Mistral-7B-v0.1 получила лучшие результаты, по сравнению с Mistral 7В.
Подмена токенизатора
Токенизатор Open Source моделей заточен под работу с английским языком. Например, при использовании Mistral токен на этом языке состоял в среднем из 3,75 символа, а на русском — из 2,15. Мы обучили свой токенизатор на российских данных, тогда длина токена на русском увеличилась до средних 3,35 символов.
Подменив старый токенизатор модели на наш новый по описанной в этой статье методике, удалось увеличить скорость работы модели по предсказанию в полтора раза.

Скриншоты

Share
Серебро
• Лучший чат-бот и AI-технология
Tagline Awards 2024

Номинации

AI-технологии и чат-боты
AI-технологии и чат-боты → Ритейл и e-commerce

Дата запуска

1 января 2024 года

Авторы

Андрей Рыбинцев, CDO
Константин Мягких, директор DS
Анастасия Рысьмятова, руководитель разработки больших языковых моделей
Сергей Кляхандлер, DS Tech Lead

Ссылки

habr.com
Крупнейший digital-конкурс в Европе
Подавайте работы до 21 января (вт)11 000 Р,
с 22 января (ср)14 000 Р
Подать работу Выбрать номинации Рекламные опции