Крупнейшая digital-премия в Европе

Doubletapp Meeting Notes: бот для саммаризации видео и аудио с помощью LLM

Заказчик: Doubletapp
Исполнитель: Doubletapp
Share
Doubletapp Meeting Notes: бот для саммаризации видео и аудио с помощью LLM

Главное о кейсе

Ежегодная IT-конференция Agency Growth Day, посвященная поиску новых бизнес-моделей, запуску продуктов и выходу на новые рынки, состоялась в Екатеринбурге 24 октября. В течение семи часов с двумя небольшими перерывами перед слушателями выступили шесть спикеров с получасовыми докладами, а затем группа экспертов провела разбор — представители трех компаний выступали с краткой презентацией и формулировали запрос к экспертам, а эксперты задавали вопросы и предлагали варианты решения проблем.

Когда проходит такое продолжительное мероприятие — много докладов и обсуждений подряд — гостям нелегко постоянно оставаться включенными слушателями. Хочется и пообщаться с коллегами, и поучаствовать в активностях, и завести новые знакомства, да отойти кофе выпить наконец. Конечно, можно потом посмотреть трансляцию, но она, во-первых, длинная, а во-вторых, это случится позже, когда все разъедутся, а вдруг прямо сейчас, когда ты отвлекся, в докладе расскажут что-то важное для тебя и это можно сразу же обсудить с докладчиком, пока он доступен?

Команда Doubletapp выступила не только дизайн-партнером мероприятия, но и позаботилась, чтобы никто ничего не пропустил: во время Agency Growth Day мы с помощью собственного бота-расшифровщика подготовили краткие сводки (митинг ноутсы) всех докладов и разборов. Обработка и публикация контента велись в реальном времени, митинг ноутс выкладывались через 10–15 мин. после очередного выступления. Наши тексты опубликованы не только в соцсетях ивента, организаторы также включили их в итоговую рассылку для участников вместе с фотографиями и презентациями докладов.

Как проект изменил жизнь пользователей

В итоге за 7 часов мероприятия мы обработали 12 выступлений длительностью от 8 до 49 минут. Среднее время на обсчет — около 15 мин, самый короткий файл обработали за 8 мин., самый длинный — за 28 мин. Вес файлов — от 14,7 Мб до 401 Мб. Сбоев — 0.

Конспекты, подготовленные ботом, организаторы включили в рассылку для участников вместе с фотографиями и презентациями спикеров.

После выступления нашего СЕО и объявления в каналах конференции ботом воспользовались 47 человек, мы получили несколько предложений о сотрудничестве. Например, сейчас занимаемся доработкой бота для нужд клиента (мы добавили удобные ему форматы файлов для заливки) — к нам обратился заказчик, который занимается приложениями и сайтами для коммерческой медицины в Екатеринбурге. Компании нужен такой электронный секретарь для протоколирования заседаний — ранее использовали диктофонные записи и привлекали сотрудника-расшифровщика, а теперь могут более рационально использовать человеческие ресурсы. Дополнительным плюсом в нашу пользу послужило и то, что файлы, которые загружает заказчик, доступны только ему — обрабатывать можно конфиденциальную информацию.

Мы готовы совершенствовать продукт вместе с заинтересованным заказчиком для решения его бизнес-задач. Сейчас разрабатываем поисковый инструментарий по загруженным файлам и решения для подключения бота непосредственно к созвонам в Zoom или Google Meet, чтобы получать результат сразу же после окончания звонка.

Бизнес-задача и ее решение

ML-отдел Doubletapp разработал бота-расшифровщика для решения наших рабочих задач: сотрудники и клиенты Doubletapp живут по всему миру и нам необходим инструмент, чтобы расшифровывать созвоны, переводить длинные обсуждения в короткие сводки, по горячим следам фиксировать результаты и закреплять договоренности.

Когда мы готовились к Agency Growth Day, то поняли, что можем продемонстрировать участникам, какую пользу приносит наш продукт, помочь им не потеряться в информационном потоке и получить максимум пользы от конференции. СЕО Doubletapp Сергей Анчутин предложил организаторам публиковать в телеграм-каналах конференции актуальные митинг ноутс выступлений: так те, кто присутствует на мероприятии, могут более предметно пообщаться с докладчиками, опираясь на тезисы их выступлений, а после — освежить в памяти важные моменты. Те же, кто не смог приехать или не следил за трансляцией непрерывно, получат краткие конспекты и смогут выборочно изучить то, что их заинтересовало.

Мы получили задачу подготовить и выпустить краткие сводки по шести докладам, намеченным на первую часть мероприятия, а последующие обсуждения с большим количеством разноголосых участников (и не всегда с микрофонами) решили обработать по возможности. Но бот обсчитывал все быстро и без сбоев, поэтому мы продолжили работу и подготовили еще шесть сводок — по презентациям участников разборов и по обсуждениям экспертов.

Крафт (мастерство), реализация, технические детали

ML-отдел Doubletapp умеет вникать в задачу клиента и решать ее точно и экономно. Например, у нас есть разработки, основанные на алгоритмах машинного обучения и компьютерного зрения:
• Watchmen (девайс и административная панель для каршеринговых сервисов — идентификация личности водителя и контроль над его поведением);
• Bus Factor (девайс и административная панель для использования в общественном транспорте — автоматизация контроля над поведением водителя).
Еще один проект — приложение под iOS для тренировок по практической стрельбе HitFactor Shots Analysis. Здесь команда ML обучала нейросеть точно опознавать звуки выстрелов и портировала обученную сеть на конечное устройство.

В апреле 2023 года ML-отдел начал работу над внутренним продуктом — ботом-расшифровщиком. Готовые решения есть, но их качество работы с русской речью нас не устраивало. Плюс мы сделали разделение говорящих, в расшифровке видно, какие слова кому принадлежат — такое мало где есть. Нам нужен собственный стабильный инструмент, работу которого мы можем контролировать, а инструментарий — дорабатывать.

Итоговый продукт работает на основе трех нейросетей:
• диаризация (разделение на звуковые дорожки по количеству собеседников) происходит с помощью нейросети на нашем сервере;
• транскрибация (перевод звучащей речи в письменную) происходит в Whisper;
• создание митинг ноутсов делаем с помощью промпт-инжиниринга в GPT-4.

Инсайты, гипотезы, процесс создания и взаимодействия с заказчиком

Работы над продуктом начались в апреле 2023 года. Мы изучили имеющиеся на рынке инструменты — они плохо работали с русскоязычным контентом, поэтому начали разрабатывать собственное решение для использования во внутренних процессах. Когда началась подготовка к конференции, работы вышли на финишную прямую. Бот задуман с большим запасом прочности: запросы обрабатываются асинхронно (с заделом на множество одновременных обращений), а технологии подобраны так, чтобы обрабатывать одновременно большие файлы — до 2 Гб (ограничение Телеграм).

Бот-расшифровщик работает на основе трёх нейросетей:
1) Диаризация (определяем, сколько человек говорит, и детектируем реплики каждого). На этом этапе используем нейросеть, развернутую на нашем сервере.
2) Транскрибация (перевод устной речи в текст). На этом этапе работает Whisper (бесплатная система распознавания речи от OpenAI) — для решения задачи в общем случае ничего сейчас лучше в мире нет, плюс ее реально дообучать для каких-то специфических кейсов. Whisper можно разворачивать у себя, можно платить за API у сервисов, где он уже развернут.
3) Митинг ноутсы / краткое содержание. Используем GPT-4, тут большую роль играет промпт-инжиниринг — мы на имеющемся API подбираем такие запросы, чтобы задача решалась лучше всего.

Чтобы максимально ускорить работу, реализовали параллельную обработку больших файлов и исключили, где можно, некоторые шаги — та же диаризация при одном спикере не нужна, некоторые аудиофайлы конвертировать не нужно и т. п.

Для подключения монетизации пришлось создавать собственные решения. Поскольку в Pyrogram (библиотеке для создания Telegram-ботов) нет готовых методов для платежей, то пришлось их писать самостоятельно с тем, что предоставляет эта библиотека.

Сергей Анчутин, СЕО Doubletapp:
«Текущее решение — быстрое MVP, которое мы используем внутри компании уже полгода и которое быстро адаптировали под формат конференций, чтобы запустить волну обсуждений и знакомств на мероприятии.
И в целом, если давать советы, то лучше для быстрых решений и проверки гипотез использовать максимально готовое, тратя меньше времени на кишки и больше — на суть продукта. А когда уже нужно будет улучшать качество, тогда делать дообучение и кастомные нейросети.
И попробуйте бесплатно нашего бота https://t.me/doubletapp_meeting_notes_bot».

Прочая информация о кейсе

ТЕХНОЛОГИИ:
Whisper, GPT-4, Pyrogram, ffmpeg, SQLAlchemy, PostgreSQL, PGAdmin, Alembic

ЦИФРЫ ПРОЕКТА
12 конспектов опубликовано
401 Мб — самый тяжелый файл
49 мин. — самое длинное выступление
15 мин. — среднее время обработки
47 человек зарегистрировались в боте на конференции
0 — раз бот упал

Скриншоты

Share
Серебро
• Лучшая AI-технология: мессенджер-маркетинг
• Лучшая маркетинговая коммуникация среди агентств
Tagline Awards 2023
Бронза
• Лучший чат-бот и AI-технология
• Лучший продукт года среди агентств
Tagline Awards 2023

Дата запуска

24 октября 2023 года

Авторы

Антон Рябых
Кирилл Столбов
Кирилл Воронин
Игорь Наумов

Номинации

AI-технологии и чат-боты
AI-технологии и чат-боты → Мессенджер-маркетинг
«Сапожник с сапогами»
«Сапожник с сапогами» → Коммуникация
«Сапожник с сапогами» → Продукт для индустрии

Ссылки

t.me
До 17:59 Мск 27 апреля (сб) заполняйте все три Анкеты (1, 2, 3) для попадания в продакшн-рейтинги Тэглайна

31 мая Церемония награждения и конференция об управлении

Не забывайте про аудит и консалтинг