Buscamos um(a) Engenheiro(a) de Confiabilidade de Site (SRE) Sênior para assumir a responsabilidade técnica da nossa infraestrutura em nuvem AWS.
Você será peça-chave na garantia de disponibilidade, performance e segurança dos nossos ambientes, liderando iniciativas de automação, observabilidade e evolução contínua da plataforma — com visão estratégica e execução.
Mais do que manter a casa em ordem, buscamos alguém que antecipe problemas antes que virem incidentes e que, quando o pior acontecer, seja a pessoa que todos querem ao lado: calma sob pressão, raciocínio rápido e decisões assertivas.
Perfil que buscamos:
Profissional sênior com mentalidade orientada a confiabilidade, monitoramento e automação, capaz de tomar decisões técnicas com autonomia, liderar frentes estratégicas de infraestrutura e atuar como multiplicador de boas práticas dentro do time. Alguém que enxerga cada falha como oportunidade de melhoria, que seja pró-ativo e resolutivo. Procuramos alguém que não espere o problema chegar — que rastreia, antecipa e age. Quando o incidente ocorre, é quem assume o controle com clareza, coordena a resolução sem entrar em pânico e não sai da crise sem um plano para que ela não se repita.
Principais Responsabilidades:
· Desenvolver, manter e evoluir pipelines de CI/CD, garantindo entregas contínuas, estáveis e seguras
· Automatizar processos de infraestrutura e deploy de aplicações, reduzindo toil e aumentando a confiabilidade
· Monitorar e otimizar continuamente a performance, disponibilidade e segurança dos ambientes produtivos
· Administrar e dar suporte aos ambientes em nuvem AWS, assegurando resiliência e escalabilidade
· Ser referência técnica para o time de desenvolvimento, apoiando boas práticas de entrega contínua
· Garantir observabilidade end-to-end com práticas sólidas de métricas, logs, tracing, versionamento e rollback
· Administrar e garantir a disponibilidade e performance dos bancos de dados MongoDB e PostgreSQL
· Atuar como tutor e referência em FinOps, promovendo cultura de eficiência e controle de custos na nuvem
· Liderar a resposta a incidentes críticos — diagnosticar rapidamente, coordenar a resolução e garantir comunicação clara durante crises
· Conduzir post-mortems sem cultura de culpa, transformando incidentes em aprendizado e melhorias concretas
Requisitos Técnicos:
· Experiência comprovada com CI/CD — Jenkins e similares
· Domínio de containers e orquestração — Docker e Kubernetes
· Sólida vivência com Infraestrutura como Código — Terraform
· Experiência com observabilidade e monitoramento — Datadog
· Experiência em ambientes de cloud AWS.
· Conhecimento em FinOps — otimização e governança de custos em nuvem
Diferenciais:
· Experiência com automação de segurança — DevSecOps
· Certificações AWS (Solutions Architect, DevOps Engineer ou SysOps)
· Participação em projetos de migração para cloud
· Conhecimento em Python para automação e scripting