Modelo de contratação: CLT
Modelo de atuação: Remoto
Responsabilidades
- Desenvolver e manter pipelines de dados com PySpark;
- Orquestrar workflows com Apache Airflow (DAGs em Python);
- Trabalhar com processamento distribuído em ambiente AWS (EMR);
- Atuar na ingestão, transformação e disponibilização de dados;
- Garantir qualidade, performance e escalabilidade dos pipelines.
Requisitos Técnicos
- Experiência no Experiência com PySpark (Spark + Python);
- Vivência com Airflow (criação/manutenção de DAGs);
- Experiência com AWS (especialmente EMR, S3, Glue);
- SQL sólido para manipulação de dados;
- Vivência com notebooks (Jupyter ou similares).
Diferenciais
- Experiência com Scala;
- Integrar dados de diferentes fontes, incluindo APIs;
- Experiência com arquitetura de dados (Data Lake / Lakehouse);
- Vivência em ambientes de alto volume (Big Data).
