Engenheiro de MLOps Sênior

Campinas Remote

Buscamos um(a) Engenheiro(a) de MLOps para dar suporte às operações e à manutenção de soluções GenAI e agentes em produção. O profissional será responsável por executar procedimentos operacionais padrão (POPs), monitorar a integridade do sistema e solucionar problemas usando ferramentas de observabilidade e logs para garantir a confiabilidade, o desempenho e a escalabilidade de aplicações baseadas em IA.

Principais Responsabilidades


Operações e Suporte
* Executar e seguir os Procedimentos Operacionais Padrão (POPs) estabelecidos para GenAI e soluções baseadas em agentes em produção
* Monitorar a integridade da plataforma, o desempenho do modelo e os pipelines de inferência
* Garantir a estabilidade e a disponibilidade dos serviços de IA em todos os ambientes
Gerenciamento de Incidentes e Solução de Problemas
* Investigar e resolver incidentes analisando logs, rastreamentos e métricas
* Realizar análise de causa raiz (ACR) e documentar as descobertas
* Agir dentro dos processos de escalonamento definidos quando necessário
Observabilidade e Monitoramento
* Utilizar ferramentas de observabilidade (logs, métricas, rastreamento) para detectar anomalias e problemas de desempenho
* Apoiar a melhoria contínua do monitoramento, alertas e painéis de controle
* Garantir a instrumentação adequada das cargas de trabalho de GenAI e ML
Operações de GenAI e Agentes
* Apoiar as operações de tempo de execução de aplicativos baseados em LLM e fluxos de trabalho baseados em agentes
* Monitorar o desempenho da inferência (latência, taxa de transferência, custo)
* Garantir a adesão às diretrizes, padrões de confiabilidade e melhores práticas operacionais Práticas de Melhoria Contínua
* Identificar oportunidades para automatizar tarefas operacionais e melhorar a eficiência
* Contribuir para a evolução de Procedimentos Operacionais Padrão (POPs), manuais de execução e estruturas operacionais
* Colaborar com as equipes de Engenharia e Ciência de Dados para melhorar a confiabilidade do sistema.

 

Modelo de Trabalho: Remoto

Inglês: Avançado 

Requirements

* Experiência com MLOps, sistemas de ML ou operações de plataformas de IA
* Forte capacidade de resolução de problemas usando logs e ferramentas de observabilidade
* Familiaridade com ambientes de nuvem (por exemplo, Azure, AWS, GCP)
* Compreensão de pipelines de ML, APIs e sistemas distribuídos
* Experiência com ferramentas de monitoramento (por exemplo, Datadog, Prometheus, Grafana, Azure Monitor)

Desejáveis

* Experiência com aplicações baseadas em GenAI/LLM
* Experiência com ferramentas de orquestração (por exemplo, Airflow)
* Conhecimento de gerenciamento do ciclo de vida de modelos e padrões de implantação
* Familiaridade com processos de gerenciamento de incidentes (SLA/SLO, plantão, escalonamento)