Наш заказчик — разработчик цифровых инструментов для маркетологов. В этот раз нашей задачей стало создание сервиса для анализа телевизионного вещания. Цель этого анализа — тонкая настройка рекламы для зрителей TV на основе контента, который они смотрят.
Мы разработали сервис на основе пяти нейросетей, включая две модели компьютерного зрения: одна распознает 392 логотипа, другая — 425 различных товаров.
Как проект изменил жизнь пользователей
Маркетологи заказчика получили возможность анализировать, какой контент смотрел зритель TV, и показывать ему персональную рекламу.
Например, если человек проводит вечер за просмотром спортивных передач — мы можем показать ему рекламу новых кроссовок Nike. А если зритель предпочитает шоу об автомобилях — продемонстрируем рекламу BMW.
Бизнес-задача и ее решение
Заказчик заключил контракт с крупной телекоммуникационной компанией, и решил подключить сервис, который позволит персонализировать каждый рекламный ролик. В результате доля целевой аудитории среди увидевших рекламу выросла на 35%.
— Первая YoloV8 находит в кадре предметы
— Вторая YoloV8, обученная отдельно от первой, находит логотипы в кадре
— Rev AI анализирует, какой был язык в аудиофрагменте, а затем транскрибирует речь
— Tesseract распознает статичный текст в кадре
— Расшифровка текста, сделанная через Rev AI, попадает в Chat GPT, который анализирует ее на позитив / негатив
В итоге мы получаем всесторонний анализ телеэфира:
— Результат визуального анализа. Какие предметы, какие логотипы появлялись в кадре, в каких временных промежутках и как часто.
— Результат речевого анализа. Имена селебрити и мест (городов, стран), которые были названы. Позитивные и негативные характеристики, которые ведущий давал людям, предметам и брендам.
— Результат анализа статичного текста. Опять же, позитив / негатив, какие бренды упоминались.
Инсайты, гипотезы, процесс создания и взаимодействия с заказчиком
Большинство опенсорсных датасетов с логотипами были устаревшими и плохо размеченными. Лучше всего подошел OpenLogo: в нем были материалы для того, чтобы натренировать модель на обнаружение 352 логотипов. Посовещались с заказчиком и решили добавить еще 40 дополнительных логотипов в наш датасет. Чтобы обучить нейросеть искать 1 логотип, нашли на каждый минимум 50 изображений, а затем аугментировали материал х3.
Количество изображений в изначальном датасете также было неравномерным: могло приходиться на один лого по 20 картинок, а на другие по 150. Чтобы исправить ситуацию, мы балансировали датасет. Заранее, до обучения, нашли, по каким логотипам у нас меньше картинок, чем по другим. Во время обучения сильнее штрафовали модель, если она пропускала те логотипы, по которым было меньше размеченных изображений.
Скриншоты
Видео
Tweet
Share
Share
Серебро
• Лучшая AI-технология: компьютерное зрение
Tagline Awards 2025
Номинации
— AI-технологии и чат-боты → Компьютерное зрение
Дата запуска
8 января 2025 года
Ориентировочный бюджет
5 000 000 ₽
Авторы
Данила Скаблов; руководитель ИИ-направления
Александр Русаков; проектный менеджер
Андрей Паскаренко; frontend разработчик
Влад Пузырев-Харьковский; frontend разработчик
Ян Борцов; DevOps / backend разработчик
Владислав Кирбятьев; DevOps / backend разработчик
Александр Сафронов; UI/UX дизайнер
Максим Анохин; QA