Platform Engineer Sênior (DevOps) / Especialista em Infraestrutura e Plataforma

Florianópolis Remote

Platform Engineer Sênior / Especialista em Infraestrutura e Plataforma

Se você constrói a base da plataforma e não apenas opera a que já existe, gosta de entender o que acontece por baixo da abstração e é a pessoa que assume os problemas que ninguém mais resolve em produção, essa vaga é para você.

Para você entender nosso contexto: nossa stack roda em AWS EC2 com componentes autogerenciados: não é uma operação Kubernetes gerenciada. O dia a dia é operar a primitiva: Linux, redes, proxy reverso, observabilidade open-source. Se a sua experiência é mais na camada de configuração de serviços gerenciados, sem ter operado o que está por baixo, talvez não seja o encaixe mais aderente neste momento e isso não diz nada sobre o seu valor como profissional.

Sobre a Ozmap 💚

Somos uma empresa de tecnologia especializada em planejamento, gestão e documentação de redes de telecomunicações. Nossa plataforma ajuda provedores de internet e operadores de telecom a projetar, expandir e operar suas redes, o que significa que confiabilidade não é abstrata aqui: quando algo cai, redes reais de clientes reais sentem. Estamos em crescimento, com atuação internacional e desafios constantes de escala, criticidade e evolução de produto.

Problemas, aqui, não são ignorados nem empurrados para frente: são discutidos, investigados e transformados em melhoria concreta. Nossa cultura é autonomia, senso de dono, comunicação transparente e aprendizado contínuo.

🚀 O que você vai encontrar por aqui:

Espaço para atuar de forma estratégica e prática: construir observabilidade do zero, evoluir a entrega contínua, conduzir as investigações complexas de produção e influenciar tecnicamente os times de desenvolvimento. Mais do que manter ambientes, queremos quem ajude a definir os próximos passos da nossa engenharia.

🚩 O que você vai fazer

Projetar, operar e evoluir ambientes AWS (EC2) e on-premises com containers (Docker), garantindo disponibilidade, segurança e escalabilidade;
Operar e administrar ambientes Linux em produção (systemd, tuning de kernel/rede, I/O, troubleshooting de processo);
Construir e evoluir pipelines de CI/CD do zero, com gates de qualidade e segurança;
Desenvolver observabilidade ponta a ponta (instrumentação, exporters, PromQL, SLI/SLO, alertas);
Conduzir troubleshooting avançado, RCA e post-mortem blameless — com mudança estrutural depois, não só o relatório;
Implementar automação via Infraestrutura como Código;
Analisar e otimizar custos em cloud: rightsizing, análise de uso e proposta de alternativas com dados.
Ser referência técnica para devs e engenheiros, influenciando arquitetura sem depender de autoridade formal.

Requirements

🔍 O que esperamos de você:

O que define o nível desta vaga é profundidade + protagonismo. Buscamos quem construiu do zero, definiu a arquitetura, liderou tecnicamente, foi responsável por, resolveu o incidente que ninguém resolvia. Menos sobre ter feito parte de times que fizeram isso, e mais sobre o que você conduziu na linha de frente. A senioridade será avaliada pela complexidade do que você resolveu e pela responsabilidade que assumiu, comprovada por história concreta de mão na massa, mais do que por uma lista de ferramentas.

Obrigatório: experiência operando a primitiva em produção:

AWS (~4+ anos): EC2, VPC/redes, IAM e segurança: EC2, VPC/redes, IAM e segurança — operação e decisão técnica em produção; certificação é bem-vinda, mas, sozinha, não substitui essa vivência;
Linux e redes (~4+ anos): administração de servidores, troubleshooting em produção — disco cheio, OOM killer, diagnóstico de rede. Processos, memória e I/O;
CI/CD construído do zero (~3+ anos): pipelines criados e evoluídos por você (GitHub Actions, Jenkins, runners self-hosted, secrets, cache, gates) ;
Observabilidade open-source ponta a ponta (~2+ anos): Prometheus, Grafana, Loki, VictoriaMetrics ou equivalentes — configurados e mantidos por você, não só utilizados.
OpenTelemetry — com instrumentação, exporters, PromQL e definição de SLI/SLO;
Operação sob a camada gerenciada: histórico concreto com nginx/HAProxy/Envoy, Linux por baixo, e resolução de incidentes críticos que você conduziu.
Docker: Docker em produção (~3+ anos): operação real de containers em ambientes críticos — volumes, redes, recursos, encerramento controlado de serviços.

Perfil:

Autonomia alta: recebe um problema ambíguo ("nossa observabilidade está fraca") e entrega ponta a ponta;
Ownership e proatividade : enxerga o problema antes de virar incidente;
Comunicação clara e influência técnica, conectando times de desenvolvimento, infraestrutura e negócio. Conduz post-mortems orientados à causa raiz, aprendizado organizacional e melhoria contínua, sem cultura de culpabilização.;
Maturidade para se autogerir em remoto.

Nosso processo

Candidatura → Entrevista técnica assistida por IA (~35 min) → Conversa com o time de People → Entrevista com o Diretor da área → Bar Raiser → Carta oferta

Benefits

🎁 O que oferecemos para você:

💻 Auxílio Equipamento – pra garantir uma estrutura de trabalho confortável;
💚 Incentivo à saúde – porque seu bem-estar importa;
📚 Incentivo aos estudos – apoiamos sua jornada de desenvolvimento contínuo;
🎂 Presente de aniversário – porque gostamos de comemorar juntos;
🏅 Reconhecimento por tempo de casa – sua história aqui é valorizada;
🗣️ Incentivo a idiomas – para você ir além das fronteiras;
🏋️ TotalPass (uso exclusivo do colaborador);
🌴 Recesso remunerado após 12 meses de contrato;
🎉 Eventos online de integração e confraternizações.

Apply

by Quickin

Português | English | Español