Цифровая система управления технологическими рисками
Инструменты для анализа,
прогнозирования и визуализации
устойчивости ИТ-систем крупного банка
Цифровая система управления технологическими рисками
Инструменты для анализа, прогнозирования и визуализации устойчивости ИТ-систем крупного банка
Задача
Создать для клиента ― крупнейшего финансового института России цифровую экосистему для централизованного управления рисками и показателями надежности ИТ-систем.
Партнер проекта
Исполнение
Мы вместе с командой заказчика создали микросервисную платформу на Python, Vue.js и React.
Ключевые результаты
Единая экосистема управления технологическими рисками и надежностью ИТ-систем.
Интеграция с внутренними источниками данных и BI-платформой для полной аналитической прозрачности.
Партнер проекта
Проблематика
До внедрения платформы управление рисками в банке велось разрозненно, что приводило к ряду трудностей:
- Неполнота данных и отсутствие консолидации.
Оценка критичности и рисков проводилась вручную или в отдельных инструментах, данные не синхронизировались. - Отсутствие прогнозных механизмов.
Недостаточная автоматизация расчёта мощностей и нагрузок усложняла планирование инфраструктуры. - Нехватка визуализации и единых метрик.
Руководителям было сложно отслеживать состояние систем и принимать решения на основе актуальных данных.
Задача
Обеспечить прозрачность и управляемость процессов надежности, внедрить цифровые инструменты для анализа, прогнозирования и визуализации рисков в масштабах всей инфраструктуры банка.
Решение
Сервисы процессов надежности
Сервис центра критичности — система классификации бизнес- и технокритичных систем (Mission-Critical, Business-Critical и др.), с учетом влияния на бизнес и зависимостей между сервисами.
Сервис самооценки технорисков — инструмент для риск-координаторов и локальных владельцев систем: позволяет фиксировать риски, определять меры их нейтрализации и отслеживать исполнение.
Калькулятор мощностей (Capacity Calculator) — сервис расчета требуемых ресурсов и прогнозирования нагрузки. Интегрирован с системой мониторинга, анализирует количество транзакций и межсервисных вызовов.
Отчётность и аналитика
RunUP — комплекс приложений для работы с метриками и данными, построенный на принципах inner-source.
BI-платформа и дашборды — веб-платформа на базе Superset, доработанная и обернутая в корпоративную. Позволяет создавать визуализации, отчеты и панели мониторинга.
Панель надежности — витрина ключевых метрик из RunUP, агрегирующая более 300 отчётов и отображающая сводные показатели в удобной форме.
Чат-бот — инструмент для мгновенного доступа к данным и метрикам, автоматически формирует скриншоты отчётов и отправляет их пользователям.
Технологическая реализация
Состав команды
Проект был реализован совместно с командой заказчика. Трайб включал два кластера и три основные команды:
- Команда отчетности (BI-инженеры) — разработка и поддержка визуализаций и аналитических панелей.
- Команда данных — обеспечение актуальности и доступности данных, интеграции с источниками (SMD, NiFi и др.).
- Команда разработки — реализация серверных и клиентских сервисов, интеграции и DevOps-поддержка.
Технологии
- Backend: Python (FastAPI)
- Frontend: Vue.js, React.js
- Database: PostgreSQL
- Messaging: Kafka
- Infrastructure: Kubernetes, Linux
- BI и визуализация: Apache Superset, Data Platform
- Monitoring & Data Flow: NiFi, SMD
- Task management: TFS
Не адаптируйтесь к технологиям.
Заставьте технологии работать по вашим правилам.
Результаты
Создана централизованная система оценки критичности и управления рисками.
Введены прогнозные модели для оценки нагрузок и планирования мощностей.
Повышена прозрачность метрик надёжности благодаря BI-дашбордам и чат-боту.
Сокращено время на сбор и анализ данных, повышена скорость реакции на инциденты.