Подавайте работы до 21 января (вт)11 000 Р,
с 22 января (ср)14 000 Р
Церемония награждения
5 декабря 2025
Крупнейшая digital-премия в Европе

Управление аудиторией и данными в Росстат (Highload Big Data)

Заказчик: Росстат
Исполнитель: Artwell
Share
Управление аудиторией и данными в Росстат (Highload Big Data)

Главное о кейсе

Проект Росстата по внедрению Информационной системы сбора "больших данных" (ИС БД) из альтернативных источников, в частности контрольно-кассовой техники (ККТ), представляет собой прорыв в области сбора и обработки статистических данных. С использованием big data технологий, система обеспечивает автоматизированный сбор и анализ данных от Федеральной налоговой службы России. Это позволяет проводить более точные статистические исследования, связанные с потребительскими ценами и розничной торговлей, уменьшая при этом нагрузку на респондентов и сокращая необходимость вручную собирать первичные данные.

Rosstat's project to introduce an Information system for collecting "big data" (IS DB) from alternative sources, in particular cash register equipment (KKT), represents a breakthrough in the field of collecting and processing statistical data. Using big data technologies, the system provides automated data collection and analysis from the Federal Tax Service of Russia. This allows for more accurate statistical studies related to consumer prices and retail trade, while reducing the burden on respondents and reducing the need to manually collect primary data.

Как проект изменил жизнь пользователей

Благодаря проекту, Росстат смог значительно улучшить качество и полноту статистических данных, что, в свою очередь, способствует более эффективному планированию и принятию решений в экономике страны. Автоматизация процессов сбора данных также уменьшила нагрузку на отчитывающихся респондентов и повысила эффективность работы самого Росстата.

Thanks to the project, Rosstat was able to significantly improve the quality and completeness of statistical data, which, in turn, contributes to more effective planning and decision-making in the country's economy. Automation of data collection processes has also reduced the burden on reporting respondents and increased the efficiency of Rosstat itself.

Бизнес-задача и ее решение

Целью проекта было обеспечение сбора и анализа данных большего объема и сложности, что требовало применения технологий обработки больших данных. Решением стала разработка и внедрение ИС БД, которая позволяет автоматизировать процесс сбора данных, обеспечивать их актуальность и надежность, а также упростить процесс формирования статистических отчетов.

The goal of the project was to ensure the collection and analysis of data of greater volume and complexity, which required the use of big data processing technologies. The solution was the development and implementation of the IS database, which allows you to automate the process of data collection, ensure their relevance and reliability, as well as simplify the process of generating statistical reports.

Крафт (мастерство), реализация, технические детали

Разработка Информационной системы сбора "больших данных" (ИС БД) для Росстата была огромным техническим вызовом, требующим глубоких знаний в области big data технологий и компетенций в интеграции сложных информационных систем. Проект охватывал широкий спектр деятельности от первоначального обследования и анализа до разработки, тестирования и внедрения системы в промышленную эксплуатацию. В основе ИС БД лежит комплекс технологий, включающий Java для серверной части, Vue.js для создания интерактивного пользовательского интерфейса, а также использование PyTorch и NumPy для обработки данных. Важную роль в проекте сыграли Spring Framework, обеспечивающий связь между компонентами системы, и Pandas для анализа и манипуляции данными. Для обеспечения высокоскоростного поиска и аналитики были задействованы Elastic Enterprise Search и Spark SQL. Поддержка большого объема данных и их быстрый доступ обеспечивались с помощью распределенной файловой системы Ceph. Redis использовался как система управления базами данных в памяти для кэширования и ускорения доступа к данным.
Использование Spark Apache и Python в качестве основы для обработки и анализа больших данных позволило системе не только эффективно справляться с текущими задачами, но и масштабироваться для будущих потребностей. Таким образом, ИС БД стала примером успешного сочетания разнообразных передовых технологий для создания мощной и гибкой системы обработки больших данных, способной обеспечивать актуальные и точные статистические данные для Росстата.

The development of an Information system for collecting "big data" (IS DB) for Rosstat was a huge technical challenge requiring deep knowledge in the field of big data technologies and competencies in the integration of complex information systems. The project covered a wide range of activities from the initial survey and analysis to the development, testing and implementation of the system into commercial operation. The database IS based on a set of technologies, including Java for the server side, Vue.js for creating an interactive user interface, as well as using PyTorch and NumPy for data processing. An important role in the project was played by the Spring Framework, which provides communication between system components, and Pandas for data analysis and manipulation. Elastic Enterprise Search and Spark SQL were used to provide high-speed search and analytics. Support for a large amount of data and their fast access was provided using the Ceph distributed file system. Redis was used as an in-memory database management system for caching and speeding up data access.
Using Spark Apache and Python as the basis for processing and analyzing big data allowed the system not only to effectively cope with current tasks, but also to scale for future needs. Thus, the IS database has become an example of a successful combination of various advanced technologies to create a powerful and flexible big data processing system capable of providing up-to-date and accurate statistical data for Rosstat.

Инсайты, гипотезы, процесс создания и взаимодействия с заказчиком

Работа над проектом предоставила уникальную возможность исследовать и применять передовые методы обработки и анализа больших данных. Ключевым моментом стало взаимодействие с Федеральной налоговой службой для получения и интеграции данных, что требовало тесного сотрудничества и глубокого понимания процессов обеих организаций. Этот опыт позволил не только реализовать текущие задачи, но и заложил основу для дальнейшего развития систем статистики в России.

The work on the project provided a unique opportunity to explore and apply advanced methods of processing and analyzing big data. The key point was the interaction with the Federal Tax Service to obtain and integrate data, which required close cooperation and a deep understanding of the processes of both organizations. This experience allowed not only to implement current tasks, but also laid the foundation for the further development of statistical systems in Russia.

Скриншоты

Share
Серебро
• Лучшее управление аудиторией и данными
Tagline Awards 2024

Номинации

Сервисы для digital-индустрии → Управление аудиторией и данными

Дата запуска

6 мая 2024 года

Авторы

Апурин Николай Андреевич, Бескоровайный Владимир Андреевич

Ссылки

rosstat.gov.ru
Крупнейший digital-конкурс в Европе
Подавайте работы до 21 января (вт)11 000 Р,
с 22 января (ср)14 000 Р
Подать работу Выбрать номинации Рекламные опции