Главное о кейсе
Супермаркет данных снабжает разнородными данными от более чем 300 типов поставщиков данных витрины и аналитические решения бизнес блоков Сбера.
Ежедневно через Супермаркет данных проходит около 3 Пб данных, включающих более 70 тыс. таблиц и миллиона атрибутов фильтрации.
Бизнес-задача и ее решение
Задача: предоставить доступ широкому кругу пользователей внутри компании к огромному массиву данных и реализовать работу с данными как сервис — создать «единое окно» доступа к данным, объем которых уже превысил 100 Пбайт.
Решение: разработка инструмента для быстрого поиска и автоматизированного получения нужной информации среди огромного количества данных разных форматов, глубины и качества в формате self-service.
С очень верхнего уровня, Супермаркет данных состоит всего лишь из двух компонент:
- Портала, который является пользовательским представлением решения, содержит каталог данных и управляет контрактами на поставки данных
- Ядра, которое не имеет интерфейса и выполняет саму техническую поставку данных согласно зафиксированному контакту, как пакетную, в формате snapshot и diff, так и поставку в потоковом режиме данных около реального времени.
Каждая из компонент при более детальном рассмотрении имеет кучу различных интеграций с внутренними системами. Портал, например, поддерживает регулярное получение метаданных и управляет процессом согласования доступа к заказанным данных. А Ядро, из главного, поддерживает защиту данных по технологиям токенизирования и набор различных площадок распространения, позволяя получать данные решениям, реализованных на разных платформах и с использованием различных технологических стеках, скрывая от пользователя всю эту сложную техническую логику.
Базовая архитектура:
- Портал Супермаркета данных — интерфейсная часть, с которой работает пользователь
- Ядро Супермаркета данных — технический компонент, отвечающий непосредственно за работу с данными и их поставку
- Источники данных — условное обозначение всех точек, метаданные которых опубликованы в ассортименте Супермаркета данных и доступных для заказа
- Получатели данных — условное обозначение потребителя данных независимо от технологического стека
Важные фичи:
1) Каталогизация доступных данных разных видов с возможностью поиска и фильтрации
2) Поставка данных в пакетном режиме как в виде snapshot, так и в формате diff, по расписанию и по факту обновления данных
Потоковая поставка обновлений данных в режиме near-real time
3) Доступ к чувствительным данным с использованием концепции тегирования
4) Единый пользовательский сценарий оформления подписки — общего контракта, описывающего метаданные запрошенных данных и условия поставки самих данных
5) Возможность заказа данных с использованием Единого Семантического Слоя (общей логической модели данных всего Сбера, структурированной по предметным областям и наполненной данными из разных источников)
6) Поставка данных в отдельный сервис Сбера, предназначенный для обмена данными с дочерними и зависимыми организациями
7) Поддержка различных сопроводительных процессов и систем, например общего механизма управления пользователями и ролями и централизованного механизма согласования доступа
8) Решение различных бизнес задач по использованию данных: от работы DataScience в «песочнице» до промышленных процессов, обеспечивающих работу ряда критичных пользовательских сервисов.
Супермаркет данных — единая точка доступа к данным в контуре «Фабрики данных» (единой платформы Сбера для работы с данными), которая поддерживает все процессы, связанные с правами доступа, распространением данных.
Прочая информация о кейсе
Команда ADV помогла SberData реализовать проект по созданию сервиса, который собирает в себе и автоматизирует рутинные процессы по работе с данными внутри контура Сбера.
Цель - сократить time-to-data, упростить доступ к данным пользователей Сбера и при этом повысить контроль за доступом к данным и data governance.
Это сложный архитектурный проект с каталогизацией данных и их дистрибуцией (в том числе потоковых данных) в формате подписки, выдерживающий высокие нагрузки, соответствующий требованиям кибербезопасности и реализованный в формате удобного и интуитивного self-сервиса.
С бизнес-точки зрения решение позволяет превратить сложный технический поиск данных в удобный и знакомый формат выбора нужных товаров в интернет-магазине, поэтому решение получило название Супермаркет данных. Данные представлены в виде каталога и структурированы по категориям, поддержан поиск и фильтрация по различным свойствам. Пользователь, оформляя "заказ" на данные в похожем на тот же типовой сценарий оформления заказа в интернет-магазине, заключает с порталом контракт, в котором описаны все условия поставки данных. А сама поставка данных по этим условиям выполняется типовыми внутренними механизмами.
Сегодня Супермаркет данных – единый информационный сервис для получения данных внутри Сбера. Сервис является флагманским проектом в рамках Корпоративной аналитической платформы Сбера, объем собранных данных в которой уже сейчас превышает 120ПБ из тысяч источников как самого Банка, так и дочерних компаний.