Главное о кейсе
Перед нами стояла задача провести Social Listening исследование рынка онлайн-киносмотрения за 2023 год: анализ аудитории, платформ и контента. Объем данных был внушительным — 10 млн упоминаний из 5400 источников и 30+ объектов мониторинга. Требовалось обеспечить чистоту данных и создать reusable dataset для дальнейшего использования.
Вызовы:
1. Сверхмассивность данных, которые необходимо обработать.
2. Сверхразнородность данных: дубли, нерелевантные упоминания, ошибки.
3. Необходимость фильтрации каждого упоминания из ~10 млн по 176 тегам.
4. Ограниченные сроки и масштаб задачи.
Стандартное Social Listening исследование не справилось бы с таким объемом. Мы разработали AI-модель, которая автоматизировала процесс.
Как мы это сделали?
1.Собрали ~10 млн упоминаний с использованием систем мониторинга. Данные прошли многоуровневую очистку: удаление нерелевантного контента, дубликатов, эмодзи и ссылок.
2.Разработали базовую AI-модель (MVP), которая:
- Очищает и препроцессирует данные.
- Фильтрует релевантные тексты: мнения о сериалах и платформах.
- Автоматически размечает теги с использованием NER и эвристических правил.
Для обучения модели были использованы методы BoW, TF-IDF и эмбеддинги. Точность финальной модели достигла 94%, что сопоставимо с ручной разметкой.
3.Аугментация данных: для повышения качества модель обучалась на вручную размеченных ~100 тыс. строк текста, дополненных методами аугментации.
Благодаря разработанной AI-модели мы смогли не просто решить изначально поставленную задачу на высоком уровне, но и получили производный продукт — чат-бот, который помог оптимизировать работу над сбором данных в будущем: инструмент для команды PREMIER, интегрированный с массивом данных. Он позволяет задавать вопросы, сравнивать тайтлы, выявлять паттерны и проводить глубокую аналитику в реальном времени.
Как проект изменил жизнь пользователей
Проект значительно упростил и ускорил аналитические процессы для команды PREMIER, предоставив сильные инструменты для работы с данными:
1. Доступ к чистым данным: собранный и обработанный массив данных стал универсальным инструментом для аналитики. Теперь команда PREMIER может оперативно изучать рынок, выявлять тренды и принимать стратегические решения без необходимости начинать анализ "с нуля".
2. Аналитический чат-бот: этот инструмент стал настоящим помощником, позволяя в реальном времени получать ответы на ключевые вопросы о сериалах и платформах. Сравнение тайтлов, поиск закономерностей, определение сильных и слабых сторон контента — всё это теперь доступно за считанные минуты.
3.Оптимизация ресурсов: благодаря автоматизации и точности AI, команда PREMIER сократила затраты времени и усилий на рутинные задачи, сосредоточившись на стратегическом планировании.
4. Углубленное понимание аудитории: благодаря разметке и анализу мнений зрителей, PREMIER получил возможность детально изучать предпочтения аудитории, чтобы создавать и продвигать контент.
Бизнес-задача и ее решение
Онлайн-кинотеатру PREMIER требовался инструмент для комплексного анализа рынка онлайн-киносмотрения и тайтлов, который позволил бы:
- Выявлять актуальные тренды и предпочтения аудитории.
- Сравнивать сериалы и платформы по популярности и вовлеченности.
- Оценивать эффективность контента для оптимизации производства и продвижения.
- Работать с большими объемами разнородных данных, превращая их в чистую, структурированную и легко анализируемую информацию.
Решение — кастомная AI-модель, которая автоматизировала весь процесс:
1. Сбор и очистка данных: система удаляла дубли, нерелевантные упоминания, ссылки и эмодзи.
2. Фильтрация релевантного контента: модель отсеивала упоминания, не относящиеся к просмотру фильмов и сериалов.
3. Автоматическая разметка данных с использованием NER и эвристических правил. Для обучения использовались BoW, TF-IDF и эмбеддинги, что обеспечило точность 94%.
4. Создание интерактивного инструмента для команды PREMIER, который позволил анализировать данные, сравнивать тайтлы и выявлять паттерны в реальном времени.
Крафт (мастерство), реализация, технические детали
В ходе реализации проекта для PREMIER наша команда разработала и внедрила ряд уникальных технологических решений и подходов, которые позволили справиться с задачей обработки сверхмасштабных и разнородных данных:
1. Кастомная AI-модель для автоматизации обработки данных.
Мы создали модель, специально адаптированную под задачи анализа рынка онлайн-киносмотрения. Она объединила методы BoW, TF-IDF, эмбеддинги и подходы NER (Named Entity Recognition) для автоматической разметки данных с точностью 94%, что сопоставимо с ручной разметкой.
2. Многоуровневая очистка данных.
Для повышения качества данных была разработана система фильтрации, которая автоматически удаляла дубли, нерелевантные упоминания, ссылки и эмодзи. Это позволило значительно сократить «шум» и получить чистый массив информации для дальнейшего анализа.
3. Аугментация данных для повышения точности.
Модель обучалась не только на исходных данных, но и на вручную размеченных 100 тыс. строк, которые были дополнены с помощью методов аугментации. Это позволило повысить качество классификации и сделать модель более устойчивой к разнообразию данных.
4. Интерактивный аналитический инструмент.
На основе разработанной модели мы создали чат-бота, интегрированного с массивом данных. Он позволяет команде PREMIER проводить глубокую аналитику, сравнивать тайтлы, выявлять паттерны и задавать вопросы в режиме реального времени.
5. Эвристические правила для фильтрации контента.
Внедрение правил на основе специфики отрасли (например, контекстные упоминания платформ и сериалов) позволило улучшить релевантность данных и точность выводов.
Эти решения не только обеспечили успешное выполнение задачи, но и стали фундаментом для долгосрочной оптимизации аналитики клиента.
Инсайты, гипотезы, процесс создания и взаимодействия с заказчиком
Самое ценное в исследовательском проекте — выйти за рамки привычного формата и превратить данные в инструмент для развития бизнеса. Когда клиент и команда исполнителей вместе ищут новые подходы, результаты становятся мощнее.
Мы создали AI-чат-бота, который стал многоразовым инструментом для всех уровней управления заказчика. Он не просто предоставляет аналитику, а помогает находить ответы на ключевые вопросы, сравнивать данные и генерировать новые идеи.
Еще один важный инсайт — сила воркшопов. Вместо классической презентации данных мы организовали интерактивные сессии, где участники сами погружались в результаты исследования. Такой формат дал в разы больше креативных и стратегических идей, чем традиционная передача информации. Инновации рождаются именно там, где идет живое взаимодействие и обмен знаниями.
Скриншоты