Garantir a visibilidade e monitoramento contínuo da saúde dos sistemas e aplicações, implementando soluções de observabilidade que permitam identificar, diagnosticar e resolver problemas de forma proativa, assegurando alta disponibilidade e performance dos serviços.
Responsabilidades
Implementar e manter ferramentas de observabilidade (monitoramento, métricas, logs e tracing).
Criar dashboards e alertas para acompanhamento de performance e disponibilidade.
Analisar métricas e logs para identificar tendências e possíveis falhas.
Trabalhar junto às equipes de desenvolvimento e infraestrutura para melhorar a visibilidade dos sistemas.
Apoiar incidentes críticos com análise detalhada e recomendações de melhoria.
Garantir conformidade com práticas de SRE (Site Reliability Engineering) e DevOps.
Requisitos Técnicos
Experiência com ferramentas como Prometheus, Grafana, ELK Stack, Datadog, New Relic ou similares.
Conhecimento em métricas, logs, tracing e conceitos de observabilidade.
Familiaridade com ambientes em nuvem (AWS, Azure, GCP).
Noções de automação e scripts (Python, Shell).
Conhecimento em containers e orquestração (Docker, Kubernetes).
Competências Comportamentais
Capacidade analítica e resolução de problemas.
Proatividade e atenção aos detalhes.
Boa comunicação e colaboração com times multidisciplinares.