Atividade

138255 - Ingestão e Pepeline de Dados

Período da turma: 08/07/2026 a 02/09/2026

Selecione um horário para exibir no calendário:
 
 
Descrição: Objetivo:
Planejar, construir e operar pipelines de dados de ponta a ponta, contemplando coleta em lote e streaming, preparação e processamento, orquestração e monitoramento, qualidade, metadados e catálogo, e persistência/armazenamento em ambientes modernos (on-prem, containerizados e cloud). Disciplina 100% prática, centrada no estudante, com projetos incrementais por aula e uso de ferramentas (ex. linguagem de programação, SGBD, dentre outras) para cada etapa do processo do pipeline de dados.

Conteúdo programático:
Organização e construção de pipelines: requisitos, desenho, camadas, contratos, SLAs. Coleta: batch (ingest ETL/ELT), streaming (event-driven, pub/sub). Preparação e processamento: transformações em código e/ou SQL; particionamento; esquemas. Orquestração e monitoramento: DAGs, retries, alertas, métricas. Qualidade de dados: testes, expectativas, regras e coverage. Catálogo/Metadados: descoberta, linhagem, glossário e ownership. Persistência/Armazenamento: data lake/lakehouse, bancos relacionais e padrões de layout. Implantação em Cloud (AWS): serviços gerenciados, custo e segurança mínima.

Bibliografia:
1. STRENGHOLT, Piethein. Data Management at Scale: Modern Data Architecture with Data Mesh and Data Fabric. O’Reilly Media, 2023.
2. OLESEN-BAGNEUX, Ole. The Enterprise Data Catalog: Improve Data Discovery, Ensure Data Governance, and Enable Innovation. O’Reilly Media, 2023.
3. REIS, Joe; HOUSLEY, Matt. Fundamentals of Data Engineering. O’Reilly Media, 2022.
4. EAGAR, Gareth. Data Engineering with AWS. Packt Publishing, 2021.
5. TRAVERSO, Martin; FULLER, Matt. Presto: The Definitive Guide: SQL at Any Scale, on Any Storage, in Any Environment. O’Reilly Media, 2020.
6. CHAMBERS, Bill; ZAHARIA, Matei. Spark: The Definitive Guide: Big Data Processing Made Simple. O’Reilly Media, 2018. DOI: https://doi.org/10.5555/3235386 .
7. KUMAR, V. Naresh; SHINDGIKAR, Prashant. Modern Big Data Processing with Hadoop: Expert Techniques for Architecting End-to-End Big Data Solutions to Get Valuable Insights. Packt Publishing, 2018.
8. KLEPPMANN, Martin. Designing Data-Intensive Applications: The Big Ideas Behind Reliable, Scalable, and Maintainable Systems. O’Reilly Media, 2017.
9. NARKHEDE, Neha; SHAPIRA, Gwen; PALINO, Todd. Kafka: The Definitive Guide: Real-Time Data and Stream Processing at Scale. O’Reilly Media, 2017. DOI: https://doi.org/10.5555/3175825.
10. TURKINGTON, Garry; DESHPANDE, Tanmay; KARANTH, Sandeep. Hadoop: Data Processing and Modelling. Packt Publishing, 2016.
11. KIMBALL, Ralph; CASERTA, Joe. The Data Warehouse ETL Toolkit: Practical Techniques for Extracting, Cleaning, Conforming, and Delivering Data. Wiley, 2004. DOI: https://doi.org/10.5555/1201627.
12. CAPRIOLO, Edward; WAMPLER, Dean; RUTHERGLEN, Jason. Programming Hive: Data Warehouse and Query Language for Hadoop. O’Reilly Media, 2012. DOI: https://doi.org/10.5555/2464898.
13. KIMBALL, Ralph; ROSS, Margy. The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling. 3. ed. Wiley, 2013. (Sem DOI informado).
14. WHITE, Tom. Hadoop: The Definitive Guide. 3. ed. O’Reilly Media, 2012.
15. Outros livros e artigos para cada tópico a serem indicados em aula.

Carga Horária:

27 horas
Tipo: Obrigatória
Vagas oferecidas: 55
 
Ministrantes: Leandro Mendes Ferreira


 
 voltar

Créditos
© 1999 - 2025 - Superintendência de Tecnologia da Informação/USP