Consultor SRE (Site Reliability Engineer) - SR

1. Responsabilidades

Garantir a alta disponibilidade, estabilidade e desempenho da plataforma.
Implementar e manter práticas de automação e monitoramento para melhorar a escalabilidade e resiliência dos serviços.
Colaborar com equipes de desenvolvimento para aprimorar a confiabilidade e capacidade de resposta dos serviços.
Prover soluções proativas para prevenir problemas de desempenho e disponibilidade.
Assegurar que a infraestrutura e os sistemas estejam devidamente atualizados, com os patchs de correções mais recentes.
Assegurar que a infraestrutura e os sistemas estejam aderentes às melhores práticas de segurança.

2. Atividades Chave

Gerenciar e otimizar a infraestrutura na nuvem (AWS), incluindo configuração de Rede, instâncias, balanceamento de carga, serviços nativos e serviços de monitoramento.
Implementar e monitorar pipelines de CI/CD para automatizar deploys e reduzir o tempo de entrega.
Desenvolver e manter sistemas de monitoramento e alertas para identificar problemas antes que afetem os usuários.
Analisar logs de sistema e de aplicações para identificar e corrigir falhas, gargalos de desempenho e anomalias.
Realizar análises de causa raiz e propor melhorias de infraestrutura e de aplicação.
Fazer contato com o fornecedor responsável por DevOps e monitoramento contínuo em caso de incidentes, assegurando uma comunicação rápida e efetiva para a recuperação da infraestrutura.
Manter o relacionamento com o fornecedor, coordenando as ações necessárias e garantindo que as necessidades da plataforma sejam atendidas conforme acordado.
Trabalhar em parceria com o time de desenvolvimento na construção de serviços resilientes e escaláveis.
Conduzir e documentar testes de estresse e de carga para identificar melhorias em capacidade e desempenho.

1. Hard Skills

Conhecimento avançado em gerenciamento de infraestrutura em nuvem (principalmente AWS).
Conhecimento de ferramentas de monitoramento e observabilidade (principal: NewRelic, Grafana, e CloudWatch, sendo como diferenciais: Prometheus, DataDog).
Experiência com automação e pipelines de CI/CD (ex.: Azure DevOps, AWS CodePipeline).
Conhecimento em práticas de DevOps e SRE, incluindo automação, IaC (Infrastructure as Code) com Terraform ou AWS CloudFormation.
Habilidades em programação e automação com linguagens como Python, Bash ou outras utilizadas para SRE.
Conhecimento de containers e orquestração (Docker, Kubernetes, Rancher).
Noções de segurança em infraestrutura e práticas de compliance, especialmente em ambientes de nuvem.

2. Soft Skills