Consultor SRE (Site Reliability Engineer) - SR

São Paulo Hybrid

1. Responsabilidades

  • Garantir a alta disponibilidade, estabilidade e desempenho da plataforma.
  • Implementar e manter práticas de automação e monitoramento para melhorar a escalabilidade e resiliência dos serviços.
  • Colaborar com equipes de desenvolvimento para aprimorar a confiabilidade e capacidade de resposta dos serviços.
  • Prover soluções proativas para prevenir problemas de desempenho e disponibilidade.
  • Assegurar que a infraestrutura e os sistemas estejam devidamente atualizados, com os patchs de correções mais recentes.
  • Assegurar que a infraestrutura e os sistemas estejam aderentes às melhores práticas de segurança.

2. Atividades Chave

  • Gerenciar e otimizar a infraestrutura na nuvem (AWS), incluindo configuração de Rede, instâncias, balanceamento de carga, serviços nativos e serviços de monitoramento.
  • Implementar e monitorar pipelines de CI/CD para automatizar deploys e reduzir o tempo de entrega.
  • Desenvolver e manter sistemas de monitoramento e alertas para identificar problemas antes que afetem os usuários.
  • Analisar logs de sistema e de aplicações para identificar e corrigir falhas, gargalos de desempenho e anomalias.
  • Realizar análises de causa raiz e propor melhorias de infraestrutura e de aplicação.
  • Fazer contato com o fornecedor responsável por DevOps e monitoramento contínuo em caso de incidentes, assegurando uma comunicação rápida e efetiva para a recuperação da infraestrutura.
  • Manter o relacionamento com o fornecedor, coordenando as ações necessárias e garantindo que as necessidades da plataforma sejam atendidas conforme acordado.
  • Trabalhar em parceria com o time de desenvolvimento na construção de serviços resilientes e escaláveis.
  • Conduzir e documentar testes de estresse e de carga para identificar melhorias em capacidade e desempenho.
Requirements

1. Hard Skills

  • Conhecimento avançado em gerenciamento de infraestrutura em nuvem (principalmente AWS).
  • Conhecimento de ferramentas de monitoramento e observabilidade (principal: NewRelic, Grafana, e CloudWatch, sendo como diferenciais: Prometheus, DataDog).
  • Experiência com automação e pipelines de CI/CD (ex.: Azure DevOps, AWS CodePipeline).
  • Conhecimento em práticas de DevOps e SRE, incluindo automação, IaC (Infrastructure as Code) com Terraform ou AWS CloudFormation.
  • Habilidades em programação e automação com linguagens como Python, Bash ou outras utilizadas para SRE.
  • Conhecimento de containers e orquestração (Docker, Kubernetes, Rancher).
  • Noções de segurança em infraestrutura e práticas de compliance, especialmente em ambientes de nuvem.

2. Soft Skills

  • Orientado a ação
  • Escuta ativa
  • Organização
  • Integridade e confiança
  • Negociação
  • Resolução de Problemas
  • Autodesenvolvimento