Cientista de Dados Sênior | Hibrido em Fortaleza ou SP | PJ

PJ, Fortaleza Hybrid

Como Cientista de Dados Sênior você fará parte de uma equipe analítica madura, atuando com projetos de ponta de machine learning e de grandes modelos de linguagem (LLMs) para tratar dados clínicos, operacionais e de beneficiários. A sua missão será transformar dados não estruturados ou semiestruturados (como laudos, prontuários, relatórios) em informação com valor para o negócio, via extração, classificação, detecção e geração de insights.
  
Principais Responsabilidades
 

  • Trabalhar com dados não estruturados e/ou semiestruturados (por exemplo: laudos médicos, prontuários, relatórios clínicos) para extração de informação, classificação de documentos, detecção de padrões e automação de processos baseados em linguagem.
  • Projetar, desenvolver e implantar modelos de machine learning e de LLMs para casos de uso específicos de saúde (ex: extração de entidades de texto, sumarização, classificação, inferência de risco ou condição).
  • Utilizar plataformas de dados e ML escaláveis (como Databricks) para construir pipelines: aquisição de dados, limpeza, transformação, engenharia de features, modelagem, validação, implantação, monitoramento e manutenção.
  • Colaborar com equipes de negócio, TI, inovação e operações clínicas para entender os desafios, definir hipóteses, selecionar as métricas certas e medir o impacto no negócio.
  • Garantir que os modelos e soluções estejam alinhados com boas práticas de qualidade de dados, governança, ética, privacidade e anonimização / pseudonimização (LGPD) de forma apropriada para o contexto de saúde.
  • Comunicar de forma clara e eficaz os resultados técnicos para públicos não-técnicos, contando a história dos dados, recomendando mudanças de processos ou novas soluções.
     
Requirements
  • Formação superior em Ciência de Dados, Estatística, Engenharia, Matemática, Computação ou área relacionada.
  • Experiência sênior (por exemplo: 5 ou mais anos) em ciência de dados ou machine learning, com histórico comprovado de entrega de projetos em produção.
  • Experiência prática com grandes modelos de linguagem (LLMs): fine-tuning, prompt engineering, integração em pipelines de dados, análise dos resultados.
  • Proficiência em Python (bibliotecas como pandas, numpy, scikit-learn, TensorFlow ou PyTorch) e em SQL para trabalhar com grandes volumes de dados.
  • Experiência com plataforma Databricks ou equivalente no contexto de big data + ML.
  • Experiência ou familiaridade com dados de saúde ou ambientes regulamentados será um diferencial (por exemplo: prontuários, laudos médicos, operadora de saúde).
  • Excelentes habilidades de comunicação, capacidade de traduzir resultados técnicos em valor para o negócio e trabalhar de forma remota com autonomia.

 Diferenciais Desejáveis
 

  • Experiência com modelos de NLP/LLM em português ou em múltiplas línguas aplicada ao setor de saúde ou seguros.
  • Experiência com MLOps: pipelines de deploy, monitoramento de desempenho, retraining, versionamento de modelos.
  • Conhecimento de frameworks de explicabilidade de modelos, fairness/viés algorítmico, interpretação de modelos.
  • Conhecimento aplicado em privacidade de dados, anonimização ou pseudonimização em ambiente de saúde (conforme LGPD).
  • Familiaridade com ferramentas de visualização de dados (ex: Qlick, Power BI) ou arquitetura de dados em nuvem (ex: Azure, GCP).
Benefits
  • 13º Salário
  • Fornecimento de máquina pela empresa
  • Descanso remunerado de 30 dias após 12 meses