Крупнейшая digital-премия в Европе

Супермаркет данных для Сбера

Заказчик: SberData
Исполнитель: ADV
Share
Супермаркет данных для Сбера

Главное о кейсе

Супермаркет данных снабжает разнородными данными от более чем 300 типов поставщиков данных витрины и аналитические решения бизнес блоков Сбера.

Ежедневно через Супермаркет данных проходит около 3 Пб данных, включающих более 70 тыс. таблиц и миллиона атрибутов фильтрации.

Бизнес-задача и ее решение

Задача: предоставить доступ широкому кругу пользователей внутри компании к огромному массиву данных и реализовать работу с данными как сервис — создать «единое окно» доступа к данным, объем которых уже превысил 100 Пбайт.

Решение: разработка инструмента для быстрого поиска и автоматизированного получения нужной информации среди огромного количества данных разных форматов, глубины и качества в формате self-service.

С очень верхнего уровня, Супермаркет данных состоит всего лишь из двух компонент:
- Портала, который является пользовательским представлением решения, содержит каталог данных и управляет контрактами на поставки данных
- Ядра, которое не имеет интерфейса и выполняет саму техническую поставку данных согласно зафиксированному контакту, как пакетную, в формате snapshot и diff, так и поставку в потоковом режиме данных около реального времени.

Каждая из компонент при более детальном рассмотрении имеет кучу различных интеграций с внутренними системами. Портал, например, поддерживает регулярное получение метаданных и управляет процессом согласования доступа к заказанным данных. А Ядро, из главного, поддерживает защиту данных по технологиям токенизирования и набор различных площадок распространения, позволяя получать данные решениям, реализованных на разных платформах и с использованием различных технологических стеках, скрывая от пользователя всю эту сложную техническую логику.

Базовая архитектура:
- Портал Супермаркета данных — интерфейсная часть, с которой работает пользователь
- Ядро Супермаркета данных — технический компонент, отвечающий непосредственно за работу с данными и их поставку
- Источники данных — условное обозначение всех точек, метаданные которых опубликованы в ассортименте Супермаркета данных и доступных для заказа
- Получатели данных — условное обозначение потребителя данных независимо от технологического стека

Важные фичи:
1) Каталогизация доступных данных разных видов с возможностью поиска и фильтрации
2) Поставка данных в пакетном режиме как в виде snapshot, так и в формате diff, по расписанию и по факту обновления данных
Потоковая поставка обновлений данных в режиме near-real time
3) Доступ к чувствительным данным с использованием концепции тегирования
4) Единый пользовательский сценарий оформления подписки — общего контракта, описывающего метаданные запрошенных данных и условия поставки самих данных
5) Возможность заказа данных с использованием Единого Семантического Слоя (общей логической модели данных всего Сбера, структурированной по предметным областям и наполненной данными из разных источников)
6) Поставка данных в отдельный сервис Сбера, предназначенный для обмена данными с дочерними и зависимыми организациями
7) Поддержка различных сопроводительных процессов и систем, например общего механизма управления пользователями и ролями и централизованного механизма согласования доступа
8) Решение различных бизнес задач по использованию данных: от работы DataScience в «песочнице» до промышленных процессов, обеспечивающих работу ряда критичных пользовательских сервисов.

Супермаркет данных — единая точка доступа к данным в контуре «Фабрики данных» (единой платформы Сбера для работы с данными), которая поддерживает все процессы, связанные с правами доступа, распространением данных.

Прочая информация о кейсе

Команда ADV помогла SberData реализовать проект по созданию сервиса, который собирает в себе и автоматизирует рутинные процессы по работе с данными внутри контура Сбера.

Цель - сократить time-to-data, упростить доступ к данным пользователей Сбера и при этом повысить контроль за доступом к данным и data governance.

Это сложный архитектурный проект с каталогизацией данных и их дистрибуцией (в том числе потоковых данных) в формате подписки, выдерживающий высокие нагрузки, соответствующий требованиям кибербезопасности и реализованный в формате удобного и интуитивного self-сервиса.

С бизнес-точки зрения решение позволяет превратить сложный технический поиск данных в удобный и знакомый формат выбора нужных товаров в интернет-магазине, поэтому решение получило название Супермаркет данных. Данные представлены в виде каталога и структурированы по категориям, поддержан поиск и фильтрация по различным свойствам. Пользователь, оформляя "заказ" на данные в похожем на тот же типовой сценарий оформления заказа в интернет-магазине, заключает с порталом контракт, в котором описаны все условия поставки данных. А сама поставка данных по этим условиям выполняется типовыми внутренними механизмами.

Сегодня Супермаркет данных – единый информационный сервис для получения данных внутри Сбера. Сервис является флагманским проектом в рамках Корпоративной аналитической платформы Сбера, объем собранных данных в которой уже сейчас превышает 120ПБ из тысяч источников как самого Банка, так и дочерних компаний.
Share
Бронза
• Лучшее управление аудиторией и данными
Tagline Awards 2022

Номинации

Сервисы для digital-индустрии → Управление аудиторией и данными
Сервисы для digital-индустрии → Сервис для автоматизации работы

Дата запуска

25 ноября 2021 года

Авторы

SberData и ADV

Ссылки

cio.osp.ru