Início: Assim que aprovado.
Prazo: Indeterminado, fazer parte do time da consultoria.
Objetivo da Posição:
Buscamos um Site Reliability Engineer (SRE) para reforçar a confiabilidade da nossa plataforma, atuando com observabilidade, automação e boas práticas de segurança. O profissional será responsável por garantir que nossas aplicações tenham um monitoramento eficiente, disponibilidade consistente e processos robustos para recuperação e mitigação de incidentes.
- Formação: Graduação completa ou em andamento em Ciência da Computação, Engenharia da Computação ou áreas relacionadas.
-Experiência como SRE, DevOps ou Engenheiro de Plataforma
-Conhecimento aprofundado em Kubernetes e observabilidade
-Capacidade de troubleshooting e otimização de performance
-Interesse em automação e infraestrutura como código
-Boa comunicação e habilidade para trabalhar em equipe
Experiência ou conhecimento nas seguintes tecnologias:
Cloud & Orquestração
-AWS (ECS, Elastic Beanstalk, EKS)
- Kubernetes (EKS)
- Istio (mutualTLS, observabilidade de tráfego, roteamento)
Observabilidade & Monitoramento
-Grafana, Prometheus, Loki
-OpenTelemetry (Library, Agent, Sidecar)
-Grafana Tempo e Kiali
Infraestrutura & Automação
-Terraform (com migração para OpenTofu)
-Docker e containerização
-CI/CD com GitHub Actions, CodePipeline, Jenkins
Segurança e Performance
-Segurança em ambientes Kubernetes e AWS
-Implementação e monitoramento de tráfego seguro
-Estratégias de mitigação de falhas e alta disponibilidade
Responsabilidades:
-Monitoramento & Observabilidade: Aprimorar e gerenciar ferramentas de monitoramento (Grafana, Prometheus, Loki, OpenTelemetry, Grafana Tempo, Kiali).
-Gestão de Tráfego & Segurança: Melhorar a implementação e observabilidade do Istio, incluindo mutualTLS, controle de tráfego e métricas de segurança.
-Cloud & Kubernetes: Gerenciar workloads em EKS, incluindo troubleshooting, escalabilidade e melhorias de deploy.
-Infraestrutura como Código (IaC): Manutenção e otimização do provisionamento de infraestrutura utilizando Terraform e suporte à migração para OpenTofu.
-CI/CD & Automação: Aprimorar e manter pipelines de GitHub Actions, CodePipeline e Jenkins para garantir entregas ágeis e seguras.
-Prevenção & Resolução de Incidentes: Implementar soluções para reduzir tempo de recuperação (MTTR) e melhorar a resposta a falhas.
-Melhoria Contínua: Propor otimizações contínuas para performance, segurança e custos na nuvem AWS.