Главное о кейсе
Мы создали серию экспертных видеороликов с цифровыми аватарами, сделанными при помощи нейросети из видеозаписей с настоящими людьми.
Результат превзошёл ожидания, мы добились весомых успехов: 10 видеороликов с аватарами и 293 901 просмотр во всех соцсетях.
Нам удалось оптимизировать производство экспертных вертикальных видео при помощи нейросетей, тем самым мы снизили нагрузку на бюджет и сократили время, затрачиваемое на создание подобного контента.
Подробнее в цифрах:
Просмотры:
Вконтакте — 270 619
Instagram* — 15 520
YouTube — 7 762
Тотал: 293 901
Реакции:
Вконтакте — 409
Instagram* — 321
YouTube — 114
Тотал: 844
*Признана экстремистской организацией и запрещена на территории РФ.
Как проект изменил жизнь пользователей
Покупка квартиры — сложный процесс, вызывающий массу вопросов. В видеороликах с нейроаватарами нам удалось дать ответы в простой, лаконичной и наглядной форме: с примерами, инфографикой и максимально доступным языком.
Информацию, которую обычно подают в виде громоздких постов, сложных для восприятия, мы уместили в небольшой видеоролик. Аудитория узнала много нового о покупке жилья, получила полезные советы и лайфхаки: какие бывают современные планировки, что такое КРТ, куда выгоднее инвестировать — в жильё или на вклад в банке.
Так, с одним из видеороликов мы даже запустили чат-бота в Instagram* и во Вконтакте: наш нейроведущий в конце видео просил оставить под роликом комментарий с ключевым словом, после которого пользователю в личные сообщения приходила ссылка с полезным материалом. Быстро и доступно.
*Признана экстремистской организацией и запрещена на территории РФ.
Бизнес-задача и ее решение
Нам было необходимо упростить цикл производства экспертного видеоконтента, то есть сократить время и ресурсы, затрачиваемые на съёмки таких роликов. Также нам было важно оптимизировать бюджет.
Если сравнивать с экономической точки зрения, то, безусловно, реализация задач через цифровой аватар существенно повлияла на бюджет в лучшую сторону.
Использование нейросетей позволило сократить траты на 35%, если сравнивать с обычным производством ролика с настоящим ведущим!
Как следствие, этот подход позволил нам упростить и сам рабочий процесс. Мы проходим все те же этапы — разработка и согласования сценария, поиск подходящих дополнительных материалов, но минуем этап с продакшеном, переходя сразу к монтажу.
Крафт (мастерство), реализация, технические детали
У нас было несколько вариантов экспертов в области создания AI-контента, чтобы назначить консультацию команде пост-продакшена.
Мы обратились к Стасу Шульгину, который на тот момент активно популяризировал работу с ИИ и конкретно через сервис HeyGen.
После консультации со Стасом, мы начали разработку ТЗ для правильного монтажа роликов. Спустя время, именно их мы загружали в HeyGen — нейросеть для обучения аватара вербальной и невербальной коммуникации со зрителем.
В HeyGen необходимо было загрузить чистовой ролик длинной до 5 минут. То есть видео не должно было быть склеенным, допускалось использование только одного плана — анфаса, разрешение и частота воспроизведения звука — исключительно высокого качества. Речь в ролике должна была быть чёткой и совпадать с артикуляцией губ аватара.
Многовато требований на этапе подготовки… Но результат обещал быть впечатляющим! Получившееся ТЗ мы отдали съёмочной команде из Тюмени — родного города нашего клиента «Страны Девелопмент».
Инсайты, гипотезы, процесс создания и взаимодействия с заказчиком
Для создания аватара важно было правильно отснять и сделать качественный чистовой монтаж. Чтобы искусственный интеллект смог повторить пластику, а липсинк — синхронизация губ со звуком — выглядел качественно, надо было снять на видео людей определённым образом.
Так как мы изначально планировали выпускать ролики в вертикальном формате, то сразу же в таком разрешении 1080 х 1920 загружали и чистовые ролики. Какие критерии необходимо было соблюдать, теперь по пунктам:
Человеку, позирующему для аватара, надо было смотреть в камеру всё время
Не изменять позицию в кадре. То есть у нас был доступен только один план и один ракурс
Движения рук не выше плеч
Без монтажа — чтобы речь была целостной, без склеек
Выдерживать между предложениями паузы
Ещё надо было подружиться с интерфейсом HeyGen, чтобы понять, как он работает, какие опции на что влияют и так далее. С этим в нашей команде разбирались все внутри тестового оплаченного аккаунта. Но впоследствии полностью загружала сценарии и обучала аватара произношению наш дизайнер Ульяна.
Чтобы машина обучалась жестам, голосу и мимике настоящего человека, этому человеку необходимо было сначала самому загрузить готовый чистовой ролик, пройти проверку (верификацию) и подтвердить, что он загружает ролик со своим изображением.
Первый ролик получился без дополнений к видеоряду. Кроме субтитров мы ничего не добавляли. Дальше начали экспериментировать. В монтаже со следующими роликами добавляли футажи, а на длинном монологе склеивали разный план — от среднего к крупному и наоборот. Подбирали динамичную музыку и даже вставляли шутки.
На каждом этапе всегда было, что улучшать. Где-то аватар запинался, ставил неправильно ударения или пропускал паузы. Мы в режиме реального времени подбирали разные варианты, как сделать речь более естественной. Например, в первом ролике, где мы ссылаемся на сайт Дом.рф, аватару было сложно произнести это так, чтобы звучало естественно. В итоге у нас почти сработала одна комбинаций в сценарии: дом эр эф, домэрэф, дом.эрэф, дом.эр.эф.
Пару раз мы заменяли аудио от HeyGen на генератор голоса Elevenlabs, чтобы добиться идеального голосового результата.
Скриншоты