Главное о кейсе
Проект по внедрению информационной системы для сбора и обработки больших данных (ИС БД) в Федеральной службе государственной статистики (Росстат) ознаменовал новую эру в сборе и анализе статистических данных. Система, получающая данные от Федеральной налоговой службы России, позволила автоматизировать процесс сбора статистики, существенно снизив необходимость ручного труда и привлечения дополнительных ресурсов для формирования первичных данных. Это обеспечило повышение качества и полноты показателей статистики потребительских цен и розничной торговли, открывая новые возможности для глубоких статистических исследований.
The project to introduce an information system for the collection and processing of big data (IS DB) in the Federal State Statistics Service (Rosstat) marked a new era in the collection and analysis of statistical data. The system, which receives data from the Federal Tax Service of Russia, has made it possible to automate the process of collecting statistics, significantly reducing the need for manual labor and attracting additional resources for the formation of primary data. This has improved the quality and completeness of consumer price and retail trade statistics, opening up new opportunities for in-depth statistical research.
Как проект изменил жизнь пользователей
Внедрение ИС БД привело к значительному улучшению качества статистических данных, доступных для пользователей Росстата. Это не только упростило процесс получения точной и актуальной информации для исследователей и аналитиков, но и обогатило процесс принятия решений на государственном уровне. Также проект снизил нагрузку на отчитывающихся респондентов, облегчая процесс сбора и передачи данных.
The introduction of the IS database has led to a significant improvement in the quality of statistical data available to Rosstat users. This not only simplified the process of obtaining accurate and up-to-date information for researchers and analysts, but also enriched the decision-making process at the state level. The project also reduced the burden on reporting respondents, facilitating the process of data collection and transmission.
Бизнес-задача и ее решение
Целью проекта было повышение полноты и качества статистических данных Росстата через автоматизацию сбора и обработки больших данных, получаемых от различных источников, включая фискальные чеки. Проект обеспечил автоматизацию сбора данных, уменьшение объема ручного труда и сокращение времени, необходимого для обработки статистической информации. Также были разработаны алгоритмы для эффективной обработки и анализа больших объемов данных.
The aim of the project was to improve the completeness and quality of Rosstat statistical data by automating the collection and processing of big data received from various sources, including fiscal receipts. The project provided automation of data collection, reduction of manual labor and reduction of time required for processing statistical information. Algorithms have also been developed for efficient processing and analysis of large amounts of data.
Крафт (мастерство), реализация, технические детали
В проекте использовались передовые технологии обработки больших данных и алгоритмы Big Data для сбора и анализа информации от ФНС. Разработка ИС БД включала обследование объекта автоматизации, разработку технического проекта, поставку аппаратных и программных средств, а также тестирование и внедрение системы. Весь процесс был нацелен на создание эффективной, надежной и масштабируемой системы сбора данных.
Использовались следующие технологии:
Vue.js для разработки интерактивного front-end;
Серверные решения на основе Python с использованием фреймворков и библиотек, таких как PyTorch, NumPy и Pandas, обеспечивающие глубокую обработку и анализ данных;
Системы хранения данных, включая Ceph и Redis, для эффективного распределения и быстрого доступа к обработанным данным;
Apache Spark для распределённой обработки данных и интеграции с другими системами;
Инструменты мониторинга Zabbix и Grafana, предоставляющие детальную визуализацию собранных метрик и производительности системы.
The project used advanced big data processing technologies and Big Data algorithms to collect and analyze information from the Federal Tax Service. The development of the IS database included the inspection of the automation facility, the development of a technical project, the supply of hardware and software, as well as testing and implementation of the system. The whole process was aimed at creating an efficient, reliable and scalable data collection system.
The following technologies were used:
Vue.js to develop an interactive front-end;
Python-based server solutions using frameworks and libraries such as PyTorch, NumPy and Pandas, providing deep data processing and analysis;
Data storage systems, including Ceph and Redis, for efficient distribution and quick access to processed data;
Apache Spark for distributed data processing and integration with other systems;
Zabbix and Grafana monitoring tools that provide detailed visualization of collected metrics and system performance.
Инсайты, гипотезы, процесс создания и взаимодействия с заказчиком
В процессе создания информационной системы для сбора и анализа больших данных для Росстата открылись уникальные инсайты и были подтверждены гипотезы, которые значительно повлияли на разработку и функциональность системы. Одной из ключевых гипотез было предположение о том, что интеграция современных технологий big data позволит достичь нового уровня в анализе статистических данных, что в итоге было успешно реализовано.
In the process of creating an information system for collecting and analyzing big data, unique insights were revealed for Rosstat and hypotheses were confirmed that significantly influenced the development and functionality of the system. One of the key hypotheses was the assumption that the integration of modern big data technologies would allow reaching a new level in the analysis of statistical data, which was eventually successfully implemented.
Скриншоты