Подавайте работы до 3 июля (птн)18 000 Р,
с 4 июля (сб)24 000 Р
Церемония награждения
4 декабря 2026
Крупнейшая digital-премия в Европе

Локализация и рывок вперед: новый подход к хранению данных для Hoff на облачной платформе Yandex Cloud

Заказчик: Hoff
Исполнитель: Aero
Share
Share
Локализация и рывок вперед: новый подход к хранению данных для Hoff на облачной платформе Yandex Cloud

Главное о кейсе

За год удалось с нуля пересобрать хранилище на облачной платформе и оптимизировать все данные: из 93 ТБ в ядро уложили 51 ТБ регулярно используемой информации. Сейчас ежедневный прирост сырых данных — около 15 ГБ, а в Data Vault — 3 ГБ единообразно обработанных.

За счет алгоритмов и разделения хранилища на слои, аналитики обращаются только к необходимому, подготовленному для работы объему информации. У специалистов стало уходить меньше времени на рутинные отчеты, что открыло возможности для новых проектов по развитию компании.

Преимущества нового хранилища:

1. Скорость
Промежуточный слой в виде Data Vault значительно ускорил работу сотрудников. В разных компаниях подготовка аналитического отчета может занимать от нескольких дней до недели, в Hoff этот процесс сократился до 20 минут.
Мы с клиентом выработали «гигиенический минимум» — данные в облачном хранилище хранятся так, как удобно бизнесу, а не источникам.

2. Масштабируемость
Текущая архитектура спроектирована под нужды Hoff: ее можно наслаивать, модифицировать и расширять в зависимости от запроса. При регулярно растущем объеме данных DWH можно трансформировать в Data Lake без потери качества структуры.

3. Достоверность
В облаке появилась единая методология очистки и подготовки данных — теперь вероятность разночтений сведена к минимуму. При появлении нового источника достаточно прописать новый алгоритм, после чего сырые данные будут автоматически приводиться в стандартный вид и попадать в Data Valut.

Детализированная система алертинга построена таким образом, что может оповещать аналитиков о сбоях даже в мессенджерах. Это позволяет оперативно устранять неточности в данных — скорость реагирования на ошибки увеличилась в 3 раза.

4. Экономическая целесообразность
Сопутствующей выгодой при реализации проекта стала оптимизация бюджета клиента. Хранилище в BigQuery предусматривало оплату за каждое обращение к данным: помимо того, что при увеличении задач это обходилось компании дороже, всегда был риск потерять сотни тысяч рублей из-за одного ошибочного запроса.

Переезд в Yandex Cloud сделал затраты более предсказуемыми и гибкими. Бюджет при переходе в новое облако не изменился, а количество задач и объем разметки для продуктовой аналитики регулярно растет. Все обработки данных внутри хранилища стали фактически бесплатными — теперь нет никаких платежей, зависящих от количества запросов.

5. Надежность
Мы в срочном порядке локализовали облачное хранилище и тем самым создали стабильную систему принятия решений в части продуктовой аналитики и digital-маркетинга Hoff. Кроме этого, инфраструктура Yandex Cloud соответствует высшим стандартам безопасности как персональных данных, так и платежных карт.

6. Технологии
Используемый в проекте технологический стек помогает развивать внутреннюю команду дата-инженеров и усиливает привлекательность компании для соискателей.

Бизнес-задача и ее решение

Целью проекта стал рефакторинг облачного хранилища. Главной задачей Aero было привести онлайн-данные в порядок: создать единые принципы хранения, разработать масштабируемую архитектуру, выстроить правильную систему алертинга для регулярного контроля качества. В общем, сделать облачное хранилище понятным и структурированным источником информации для Hoff.

Начали с анализа старой структуры: требовалось понять и описать картину as is, поэтому мы провели реверсивный инжиниринг. Начиная с конца, то есть от дашбордов, по цепочке «шли» к сырым данным в источниках, попутно выявляя все последовательности и правила преобразования.

Факты, которые мы обнаружили:
- Из 93 ТБ данных в BigQuery почти треть — ненужные или устаревшие.
- Объем еженедельных запросов к хранилищу из PowerBI составляет 29 ТБ.
- Обработка запросов данных стоит компании порядка 3000$ в месяц.

В общем, всё работало долго, дорого и сложно. Стало ясно, что нужно не только оптимизировать облачное хранилище, но и выстроить универсальный регламентированный процесс сбора, очистки и обработки данных для масштабирования аналитики в Hoff.

Сразу после аудита мы предложили перейти из BigQuery на open-source решения в Yandex Cloud, так как на текущем этапе развития платить за каждое обращение к данным было нерационально. Это казалось рискованным предложением на фоне привычных сервисов Google, но в феврале картина мира резко изменилась — риск отключения стал стимулом к локализации хранилища. Hoff доверился нашей экспертизе, и мы незамедлительно инициировали бэкап данных, параллельно разрабатывая архитектуру совместно с командой Yandex Cloud.

Благодаря проактивности всех участников процесса и помощи аналитиков из Hoff, уже спустя месяц у нас был доступ к историческим данным на случай отключения инфраструктуры Google.

На следующем этапе мы решили послойно развернуть хранилище в разных системах управления.

Clickhouse и Greenplum — это бесплатные сервисы с открытым исходным кодом, над которыми работает большое количество разработчиков. Из-за этого они, как правило, содержат меньше дефектов, быстрее обновляются и в целом обеспечивают гибкий рабочий процесс. При желании клиента, текущую архитектуру Hoff можно быстро перенести из облака на локальные сервера без потери данных, в то время как BigQuery заставляет буквально с нуля пересобирать все хранилище.

Clickhouse хорошо работает с сырыми данными: за счет высокого сжатия хранилище занимает меньше места, но при этом даже единичные ad hoc запросы выполняются оперативно. Для ядра DWH выбрали Greenplum. Благодаря распределенной обработке, в нем можно быстро изменять, фильтровать и связывать данные. В BigQuery аналитики Hoff работали только с raw data level, то есть с сырыми данными, которые мы перенесли в Clickhouse вместе с коннекторами. Предобработанные данные упорядочили в Greenplum в виде Data Vault 2.0.

Это гибридная модель, суть которой — дробление массива данных на логические сегменты. В таком формате удобнее работать с хранилищем: все сотрудники от менеджеров до аналитиков могут компилировать информацию в зависимости от своих потребностей. Мы решили хранить в Data Vault только предобработанные с помощью фреймворка DBT данные. Такой подход позволяет доверять информации в хранилище на 100%, не переживая об актуальности и достоверности.

Для новой архитектуры мы с нуля создали полноценную систему оповещений. Теперь при обнаружении ошибки уведомления будут появляться на всех этапах работы с ними — от загрузки сырых данных до дашбордов. При просмотре любого отчета сотрудники могут оценить его актуальность по трехцветной системе маркировки.

Так, облачное хранилище стало единой точкой правды для Hoff.

Прочая информация о кейсе

Hoff обратились к нам в октябре 2021 года за корректировкой разметки web-аналитики. После нескольких консультаций стало ясно, что истинный запрос клиента гораздо шире — в области работы с большими данными.

В компании существует два хранилища, на основе которых работает глобальная аналитическая система Hoff:
- Внутреннее, в котором лежат ключевые данные ритейлера (продажи по товарам, регионам и др).
- Облачное DWH (data warehouse), которое использовалось для работы продуктовых и маркетинговых аналитиков.

Для повышения эффективности и качества работы Hoff собирает большое количество информации: звонки, визиты, обращения, оплаты, действия клиентов на сайте и многое другое. За 5 лет в хранилище накопился внушительный пул данных об онлайн-заказах и поведении пользователей, а также легаси-код, который замедлял выполнение новых аналитических задач.

Структура хранилища DWH на базе Google Cloud Platform влекла за собой недочеты, которые ставили под вопрос качество собираемой информации. Сырые данные из более чем 10 источников стекались в BigQuery, использовались для 155 дашбордов и занимали 1938 расчетных полей в 42 отчетах. Иногда данные могли противоречить друг другу, что усложняло принятие решений для бизнеса.

Эта система позволяла закрывать текущие задачи компании, но для достижения новых амбициозных целей, которые ставил перед собой Hoff, требовался переход на качественно новый уровень работы с данными.

Скриншоты

Комментарий заказчика

Компания Aero отлично справилась с поставленной задачей и даже больше — проект по оптимизации облачного хранилища превратился в создание гибкой, надежной и масштабируемой системы хранения части данных в компании. Совместными усилиями запрос на локализацию стал для нас историей успеха и рывком вперед. Появились новые возможности: собирать больше данных и наращивать эффективность digital-маркетинга.
Share
Share

Дата запуска

1 октября 2021 года

Авторы

Вячеслав Жуков — руководитель отдела аналитики, Татьяна Майстрова — ведущий аналитик данных, Татьяна Дидова — техлид дата-инженерии, Артем Гришечко — дата-инженер, Андрей Червозеров — дата-инженер, Никита Костин — дата-инженер.

Ссылки

drive.google.com
Крупнейший digital-конкурс в Европе
Подавайте работы до 3 июля (птн)18 000 Р,
с 4 июля (сб)24 000 Р

Церемония награждения — 4 декабря (пт)  •  Москва и онлайн
Купить билет
Количество билетов ограниченно, торопитесь!