Responsabilidades:
- Projetar, desenvolver e manter pipelines de Machine Learning (treinamento, validação, deployment e monitoramento);
- Implementar modelos preditivos e de classificação usando técnicas estatísticas, algoritmos supervisionados e não supervisionados;
- Garantir versionamento e rastreabilidade de dados, modelos e experimentos;
- Criar e manter APIs, serviços e automações que suportem modelos em produção;
- Monitorar drift de dados e desempenho dos modelos em produção, propondo melhorias contínuas;
- Trabalhar em conjunto com times de Data Engineering, Produto e Negócio para garantir entregas eficientes e alinhadas às demandas;
- Implementar boas práticas de MLOps (CI/CD para modelos, automações, containers, jobs agendados);
- Trabalhar com ferramentas de orquestração e MLOps (ex.: Kubeflow, MLflow, Airflow) para assegurar workflows robustos;
- Definir e aplicar infraestrutura como código (IaC) para provisionamento em nuvem (Terraform, CloudFormation, Pulumi, etc.);
- Gerenciar e otimizar soluções de deploy de modelos, tanto em ambientes serverless quanto em clusters containerizados (ex.: AWS SageMaker, Kubernetes).
Requirements
Buscamos alguém com:
- Experiência comprovada com Python e bibliotecas como Pandas e NumPy;
- Conhecimento de técnicas de modelagem (regressão, classificação, clustering, ensembles etc.);
- Experiência sólida em bibliotecas de ML (scikit-learn, TensorFlow, PyTorch, XGBoost, Catboost, LightGBM);
- Forte conhecimento em ML lifecycle, modelagem, tuning de hiperparâmetros e avaliação de performance;
- Experiência prática com deploy de modelos em produção em nuvem (AWS SageMaker, GCP Vertex AI ou Azure ML);
- Domínio em CI/CD aplicado a pipelines de ML, incluindo testes automatizados e integração contínua;
- Experiência com Infraestrutura como Código (IaC) — Terraform, CloudFormation ou equivalentes;
- Experiência com orquestração de workflows ou ferramentas MLOps (Kubeflow, Airflow, MLflow).
- Experiência com deploy de modelos em APIs (FastAPI, Flask, etc.);
- Boas práticas de versionamento (Git) e documentação;
- Familiaridade com ambientes em nuvem (AWS, GCP ou Azure).
Serão diferenciais:
- Conhecimento em sistemas distribuídos e processamento de dados em escala (Spark, Beam);
- Experiência sólida em ferramentas AWS (SageMaker, Lambda, S3, Glue, CloudFormation, CodeBuild);
- Experiência com monitoramento de modelos (EvidentlyAI, WhyLabs);
- Conhecimentos de containers e orquestração (Docker e Kubernetes) para servir modelos de forma escalável;
- Experiência com bancos de dados SQL e/ou NoSQL;
- Noções de engenharia de dados e data pipelines;
- Experiência com arquitetura de microsserviços;
- Participação em projetos de ciência de dados aplicados ao negócio.
Benefits
O que oferecemos:
- Plano de saúde e odontológico Bradesco;
- Wellhub (antiga Gympass);
- Conexa Saúde & Psicologia Viva;
- Parceria Corporativa com a Open English (descontos em cursos de Inglês & Espanhol);
- Caju: Auxílio Home Office;
- Recesso remunerado de 22 dias úteis/ano;
- Day off de aniversário;
- Modelo de contratação PJ.
About the company
A Datarisk é uma empresa que desde 2017 transforma dados em inteligência para auxiliar a tomada de decisão de nossos clientes. Construindo soluções com base em Inteligência Artificial para diferentes setores, formatos de negócio e cadeias de valor, de forma rápida, ágil e simples.