Analista NOC Sênior

São Paulo Hybrid

Analista Sênior de NOC para atuar no monitoramento, análise e resposta a incidentes críticos que impactam os serviços essenciais do nosso negócio de venda online. O profissional será responsável por identificar, registrar, gerenciar e escalar incidentes, garantindo a disponibilidade, estabilidade e performance da plataforma.
• Monitorar a infraestrutura e os serviços críticos do e-commerce, detectando incidentes e comportamentos anômalos.
• Classificar, registrar, documentar e gerenciar chamados técnicos, garantindo o correto fluxo de tratamento de incidentes.
• Diagnosticar e resolver problemas de nível 1 e 2, acionando equipes especializadas quando necessário.
• Escalar incidentes críticos para as áreas responsáveis (infraestrutura, desenvolvimento, suporte ao cliente, etc.) de acordo com SLAs predefinidos.
• Atuar na análise de causa raiz dos incidentes, garantindo que sejam implementadas soluções definitivas para evitar recorrências.
• Trabalhar com ferramentas de monitoramento e observabilidade (Zabbix, Grafana, Datadog, New Relic, Splunk, entre outras).
• Desenvolver e manter documentação de processos e procedimentos operacionais do NOC.
• Participar ativamente na melhoria contínua das práticas de monitoramento e resposta a incidentes.
• Garantir a comunicação eficiente entre o NOC e as demais equipes técnicas e de negócios.

Requirements

Experiência sólida com monitoramento de serviços críticos de venda online.
Conhecimento em ferramentas de observabilidade e monitoramento.
Experiência na gestão e priorização de chamados, seguindo boas práticas de ITIL/SRE.
Familiaridade com metodologias de gestão de incidentes, SLA, SLO e SLI.
Experiência com infraestrutura de TI, redes, servidores e aplicações web.
Capacidade analítica para investigar problemas e sugerir melhorias.
Boa comunicação e capacidade de interação com diferentes áreas.
Experiência em ambientes 24x7, garantindo alta disponibilidade e performance.

Diferenciais:
Certificações ITIL, SRE, ou similares.
Conhecimento em Cloud (AWS, Azure, GCP) e arquitetura distribuída.
Experiência com automação de monitoramento e resposta a incidentes.
Habilidade com linguagens de script (Python, Bash, PowerShell).