Компьютерное зрение для анализа эфира TV

Заказчик: Европейский разработчик маркетинговых решений

Исполнитель: Unistory

unistory.app

Компьютерное зрение для анализа эфира TV

Главное о кейсе

Наш заказчик — разработчик цифровых инструментов для маркетологов. В этот раз нашей задачей стало создание сервиса для анализа телевизионного вещания. Цель этого анализа — тонкая настройка рекламы для зрителей TV на основе контента, который они смотрят.

Мы разработали сервис на основе пяти нейросетей, включая две модели компьютерного зрения: одна распознает 392 логотипа, другая — 425 различных товаров.

Как проект изменил жизнь пользователей

Маркетологи заказчика получили возможность анализировать, какой контент смотрел зритель TV, и показывать ему персональную рекламу.

Например, если человек проводит вечер за просмотром спортивных передач — мы можем показать ему рекламу новых кроссовок Nike. А если зритель предпочитает шоу об автомобилях — продемонстрируем рекламу BMW.

Бизнес-задача и ее решение

Заказчик заключил контракт с крупной телекоммуникационной компанией, и решил подключить сервис, который позволит персонализировать каждый рекламный ролик. В результате доля целевой аудитории среди увидевших рекламу выросла на 35%.

Крафт (мастерство), реализация, технические детали

Система нейросетей работает следующим образом:

— Первая YoloV8 находит в кадре предметы
— Вторая YoloV8, обученная отдельно от первой, находит логотипы в кадре
— Rev AI анализирует, какой был язык в аудиофрагменте, а затем транскрибирует речь
— Tesseract распознает статичный текст в кадре
— Расшифровка текста, сделанная через Rev AI, попадает в Chat GPT, который анализирует ее на позитив / негатив

В итоге мы получаем всесторонний анализ телеэфира:

— Результат визуального анализа. Какие предметы, какие логотипы появлялись в кадре, в каких временных промежутках и как часто.
— Результат речевого анализа. Имена селебрити и мест (городов, стран), которые были названы. Позитивные и негативные характеристики, которые ведущий давал людям, предметам и брендам.
— Результат анализа статичного текста. Опять же, позитив / негатив, какие бренды упоминались.

Инсайты, гипотезы, процесс создания и взаимодействия с заказчиком

Большинство опенсорсных датасетов с логотипами были устаревшими и плохо размеченными. Лучше всего подошел OpenLogo: в нем были материалы для того, чтобы натренировать модель на обнаружение 352 логотипов. Посовещались с заказчиком и решили добавить еще 40 дополнительных логотипов в наш датасет. Чтобы обучить нейросеть искать 1 логотип, нашли на каждый минимум 50 изображений, а затем аугментировали материал х3.

Количество изображений в изначальном датасете также было неравномерным: могло приходиться на один лого по 20 картинок, а на другие по 150. Чтобы исправить ситуацию, мы балансировали датасет. Заранее, до обучения, нашли, по каким логотипам у нас меньше картинок, чем по другим. Во время обучения сильнее штрафовали модель, если она пропускала те логотипы, по которым было меньше размеченных изображений.

Скриншоты

Видео

Серебро

• Лучшая AI-технология: компьютерное зрение

Tagline Awards 2025

Номинации

— AI-технологии и чат-боты → Компьютерное зрение

Дата запуска

8 января 2025 года

Ориентировочный бюджет

5 000 000 ₽

Авторы

Данила Скаблов; руководитель ИИ-направления
Александр Русаков; проектный менеджер
Андрей Паскаренко; frontend разработчик
Влад Пузырев-Харьковский; frontend разработчик
Ян Борцов; DevOps / backend разработчик
Владислав Кирбятьев; DevOps / backend разработчик
Александр Сафронов; UI/UX дизайнер
Максим Анохин; QA

Ссылки

unistory.app youtu.be