Estamos em busca de um(a) Engenheiro(a) de Dados para atuar no desenvolvimento e sustentação de soluções robustas de dados em ambientes de alta escala. Esse profissional fará parte de um time técnico, contribuindo diretamente para a construção de pipelines eficientes, confiáveis e orientados a dados, utilizando tecnologias modernas do ecossistema AWS.
Sobre a empresa
Nosso cliente é uma empresa de tecnologia e inovação, especializada em co-criação estratégica, dedicada a aprimorar a excelência operacional de grandes empresas desde 2014. Através da integração de APIs e gestão de dados, buscamos otimizar resultados, reduzir custos e apoiar as empresas na exploração de novas fontes de receita, sendo agentes de transformação, comprometidos com o crescimento sustentável dos nossos clientes.
Responsabilidades e atribuições:
Desenvolver, manter e evoluir pipelines de dados para ingestão, transformação e disponibilização de informações em larga escala, contemplando processamentos batch e streaming.
Criar, otimizar e manter processos ETL/ELT utilizando Apache Spark e Delta Lake, garantindo performance, qualidade e confiabilidade dos dados.
Integrar soluções de dados com serviços da AWS, como AWS Glue, DynamoDB, Athena, Lambda e SQS.
Monitorar a execução e a saúde dos pipelines de dados por meio do Amazon CloudWatch, identificando e corrigindo falhas de forma proativa.
Automatizar a infraestrutura de dados utilizando AWS CloudFormation, promovendo padronização, escalabilidade e controle de versões.
Aplicar o padrão de arquitetura Medallion (Bronze, Silver e Gold) para organização, governança e evolução dos dados analíticos.
Requisitos
Experiência prática com Apache Spark, incluindo uso de Spark SQL.
Sólidos conhecimentos em SQL para manipulação, transformação e consulta de dados.
Vivência no desenvolvimento de pipelines ETL batch e streaming.
Experiência com bancos de dados NoSQL, como Amazon DynamoDB.
Conhecimento e experiência com Delta Lake (delta.io).
Noções práticas e experiência com os seguintes serviços da AWS: AWS Glue, Amazon DynamoDB, Amazon Athena, AWS Lambda, Amazon SQS, Amazon CloudWatch e AWS CloudFormation.
Diferenciais
Experiência com grandes volumes de dados e ambientes distribuídos.
Conhecimento em boas práticas de observabilidade, monitoramento e resiliência de pipelines.
Vivência em arquiteturas orientadas a eventos e dados em tempo real.
Experiência prévia em ambientes ágeis e times multidisciplinares
Contratação PJ ( por hora) sem benefícios ou CLT com os seguintes benefícios:
2.000,00 Caju + VR 704,00 + Wellhub + Plano de saúde e odontológico bradesco