Buscamos um(a) Platform Reliability Engineer para atuar como braço técnico de execução da Área de Plataforma, com foco em confiabilidade, observabilidade e FinOps.
Essa pessoa será responsável por implementar padrões corporativos que serão consumidos por todos os times de engenharia do Grupo Primo, garantindo autonomia, ownership e resultados mensuráveis em disponibilidade, performance e eficiência de custos.
É um papel hands-on, orientado a métricas e impacto organizacional.
Principais Responsabilidades
1. Confiabilidade e Observabilidade
Definir e implementar SLI/SLO para serviços críticos (latência, disponibilidade, taxa de erro).
Estabelecer padrões corporativos de observabilidade (logs estruturados, traces distribuídos, métricas – RED/USE).
Configurar dashboards e alertas no Datadog (SLO tracking, burn rate, detecção de anomalias).
Criar e manter runbooks para troubleshooting e incident response.
Participar de postmortems blameless e garantir implementação das melhorias.
Habilitar times de engenharia a implementar padrões de confiabilidade (office hours, pairing, documentação).
2. FinOps e Otimização de Custos
Mapear e monitorar custos por produto, time e ambiente.
Identificar e eliminar desperdícios (recursos ociosos, snapshots antigos, volumes não utilizados).
Implementar automações de otimização (shutdown automático, rightsizing, limpeza de recursos órfãos).
Configurar alertas de anomalias de custo e acompanhamento de budgets.
Colaborar com times para validar e executar otimizações.
3. Enablement e Liderança Técnica
Conduzir office hours semanais.
Documentar padrões, runbooks e processos de forma clara e consumível.
Realizar pairing com desenvolvedores para implementação de padrões.
Coletar feedback e propor melhorias contínuas.
Apresentar resultados em monthly reviews e all-hands.
Competências Esperadas
Técnicas (Obrigatórias)
Observabilidade: logs estruturados, traces distribuídos, métricas (golden signals).
Plataformas: Datadog, New Relic, Grafana/Prometheus, ELK ou similares.
Cloud: Experiência sólida em AWS, GCP ou Azure.
Automação: Python, Bash ou Go.
IaC: Terraform, CloudFormation, Pulumi ou similares.
CI/CD: Conhecimento de pipelines (GitHub Actions, GitLab CI, Jenkins).
Containers: Docker e Kubernetes (deployments, services, ingress).
Técnicas (Diferenciais)
Datadog avançado (APM, SLO Tracking, Cloud Cost Management).
Experiência prática com SLO/error budgets em produção.
FinOps (tagging, budgets, anomaly detection, cost optimization).
Métricas DORA e práticas de DevEx.
Incident management, on-call e postmortems estruturados.
Competências Comportamentais (Críticas)
Ownership e accountability de ponta a ponta.
Presença consistente e comunicação proativa.
Pragmatismo e foco em entregas incrementais.
Comunicação clara para públicos técnicos e executivos.
Mentalidade de enablement.
Aprendizado contínuo e autonomia.
Perfil Ideal
Executor pragmático, orientado a métricas.
Enabler natural.
Forte senso de ownership.
Comunicador capaz de explicar SLO/SLI para PMs e CFO.
Presença consistente e previsível.
Oportunidades de Crescimento
Crescimento Técnico
Construir do zero o programa de confiabilidade do Grupo Primo.
Definir padrões que impactarão todos os produtos.
Trabalhar com stack moderna (Datadog, Kubernetes, Terraform, GitHub).
Atuar em ambiente multi-produto com desafios variados.
Crescimento de Carreira
Alta visibilidade com CTO e liderança através de métricas concretas.
Oportunidade de moldar cultura de SRE desde o início.
Ambiente com autonomia e aprendizado contínuo.
Benefícios
💰 Variável Semestral;
🍔 Vale Refeição e Vale Alimentação disponível no Cartão flexível Ifood;
🚑 Plano de saúde SulAmérica;
🦷 Plano odontológico SulAmérica;
🏃♂️Total Pass;
⚠️ Seguro de vida;
🚌 Vale Transporte;
👧 Auxilio creche;
📕Acesso às plataformas do Grupo Primo.