Cientista de Dados Sênior

CLT, São Paulo Remote

Impactar positivamente bilhões de vidas é nosso propósito e também pode ser o seu! 🚀

 

Fundada em 2010, no Brasil, a Semantix é referência em Big Data, Analytics e Inteligência Artificial. 

 

Somos um time de apaixonados por inovação, com diversas origens e diferentes graus de experiência. O que nos une, é a motivação compartilhada de transformar a experiência de nossos clientes através da cultura data driven.

 

Se você se identificou, a Semantix é seu lugar. 

Estamos ansiosos para ter você como parte do time.

 

Afinal, o futuro se faz juntos. 💜  

Requirements

Temos desafios como alta disponibilidade, performance, machine learning e engenharia de dados! Em outras palavras, focamos em micro-serviços, pipelines de dados e algoritmos.

Responsabilidades e atribuições: 

  • Explorar os dados de forma analítica e avançada para compreender sua qualidade e relevância para as modelagens;
  • Propor a criação de novas variáveis preditivas relevantes para os modelos de aprendizado de máquina;
  • Estudar, propor e criar modelos para a detecção de padrões nos dados (ex. CF, Clusterização, Classificação etc.), com o objetivo de fazer previsões automatizadas;
  • Criar e testar modelos para detecção de padrões, classificação, clusterização e recomendações. Em NLP, aplicar tanto abordagens clássicas quanto modelos pré-treinados (Transformer, BERT, GPT, etc.), uso de Foundation Models, com atenção a problemas fuzzy, como ambiguidades, incertezas na interpretação e ausência de dados (missing data) nos textos.
  • Analisar e avaliar as métricas de aprendizado e generalização dos modelos e fazer sua correlação com métricas de negócio, adaptando estratégias conforme desafios como inconsistências linguísticas e de imagens;
  • Propor novas variáveis, como contagens, embeddings e indicadores de modelos, que ajudem a captar nuances e aspectos dos dados multimodais.
  • Integrar dados de fontes diversas para complementar informações e gerar variáveis mais robustas e contextuais.
  • Monitorar os modelos em produção (Drift de dados, métrica, tempo de execução, etc);
  • Sempre que apropriado, publicar os achados científicos em periódicos ou para a comunidade em geral.

Requisitos e qualificações:

  • Habilidades avançadas com programação em Python.
  • Fortes habilidades analíticas quantitativas para interpretar dados, desenvolver features e propor soluções com Ciência de Dados.
  • Sólido conhecimento teórico e prático de técnicas de IA e modelagem de Machine Learning (aprendizado de máquina supervisionado, semi-supervisionado e não supervisionado).
  • Conhecimento avançado em bibliotecas e plataformas de DS/ML/IA do mercado (transformers, pandas, scikit-learn, tensorflow, pytorch, pyspark, mllib, etc)
  • Habilidade de se comunicar com pessoas do time de negócios e das demais áreas de engenharia;
    Conhecimento de Deep Learning.

Conhecimentos e habilidades diferenciais: 

  • Conhecimentos avançados em ambientes distribuídos para dados (com Delta Lake) com uso de BigQuery e/ou SQL, PySpark, Polars e  Dask;
  • Técnicas Avançadas para problemas multimodais;
  • Embeddings Multimodais (Construção de modelos próprios de embeddings, como também, o uso de embeddings pré-treinadas);
  • IA Gen com LLMOps (SGLang, etc), MCP, RAGs, etc;
  • Conhecimentos avançados em orquestração de workflows de ML com pipelines escaláveis (Kube Flow, MLflow, Argo, …);
  • Causal Inference;
  • Conhecimentos e habilidades práticas em Foundation Models aplicadas em NLP e Imagens;
  • Uso de bibliotecas e datasets de NLP para o Português-BR (transformers, nltk, spaCy, gensim, etc).
Benefits

💰 Salário compatível com o mercado;

🍎 Caju (cartão flexível) com a recarga de R$ 1.060/mês;

🚑 Plano de Saúde Bradesco;

🦷 Plano Odontológico Bradesco;

👩‍⚕️ Medicina preventiva com Dr. Alper;

💜 Seguro de Vida;

🏋🏽‍♂️ Gympass;

🏞️ SESC;

👶🏼 Auxílio Creche para mamães e papais;

💰 Bônus;

🧠 Learning – área focada no desenvolvimento de hard e soft skills;

📖 Parceria com instituições de ensino para formação técnica, MBA, pós-graduação, certificações, inglês e espanhol;

🚀 Plano de Carreira;

🛒 Desconto em produtos de um portal parceiro.

 

Ressaltamos que todas as nossas vagas estão abertas a pessoas de todos os perfis e origens, valorizando a diversidade e promovendo um ambiente inclusivo e acolhedor para todos. 💎