| 138255 - Ingestão e Pepeline de Dados |
| Período da turma: | 08/07/2026 a 02/09/2026
|
||||
|
|
|||||
| Descrição: | Objetivo:
Planejar, construir e operar pipelines de dados de ponta a ponta, contemplando coleta em lote e streaming, preparação e processamento, orquestração e monitoramento, qualidade, metadados e catálogo, e persistência/armazenamento em ambientes modernos (on-prem, containerizados e cloud). Disciplina 100% prática, centrada no estudante, com projetos incrementais por aula e uso de ferramentas (ex. linguagem de programação, SGBD, dentre outras) para cada etapa do processo do pipeline de dados. Conteúdo programático: Organização e construção de pipelines: requisitos, desenho, camadas, contratos, SLAs. Coleta: batch (ingest ETL/ELT), streaming (event-driven, pub/sub). Preparação e processamento: transformações em código e/ou SQL; particionamento; esquemas. Orquestração e monitoramento: DAGs, retries, alertas, métricas. Qualidade de dados: testes, expectativas, regras e coverage. Catálogo/Metadados: descoberta, linhagem, glossário e ownership. Persistência/Armazenamento: data lake/lakehouse, bancos relacionais e padrões de layout. Implantação em Cloud (AWS): serviços gerenciados, custo e segurança mínima. Bibliografia: 1. STRENGHOLT, Piethein. Data Management at Scale: Modern Data Architecture with Data Mesh and Data Fabric. O’Reilly Media, 2023. 2. OLESEN-BAGNEUX, Ole. The Enterprise Data Catalog: Improve Data Discovery, Ensure Data Governance, and Enable Innovation. O’Reilly Media, 2023. 3. REIS, Joe; HOUSLEY, Matt. Fundamentals of Data Engineering. O’Reilly Media, 2022. 4. EAGAR, Gareth. Data Engineering with AWS. Packt Publishing, 2021. 5. TRAVERSO, Martin; FULLER, Matt. Presto: The Definitive Guide: SQL at Any Scale, on Any Storage, in Any Environment. O’Reilly Media, 2020. 6. CHAMBERS, Bill; ZAHARIA, Matei. Spark: The Definitive Guide: Big Data Processing Made Simple. O’Reilly Media, 2018. DOI: https://doi.org/10.5555/3235386 . 7. KUMAR, V. Naresh; SHINDGIKAR, Prashant. Modern Big Data Processing with Hadoop: Expert Techniques for Architecting End-to-End Big Data Solutions to Get Valuable Insights. Packt Publishing, 2018. 8. KLEPPMANN, Martin. Designing Data-Intensive Applications: The Big Ideas Behind Reliable, Scalable, and Maintainable Systems. O’Reilly Media, 2017. 9. NARKHEDE, Neha; SHAPIRA, Gwen; PALINO, Todd. Kafka: The Definitive Guide: Real-Time Data and Stream Processing at Scale. O’Reilly Media, 2017. DOI: https://doi.org/10.5555/3175825. 10. TURKINGTON, Garry; DESHPANDE, Tanmay; KARANTH, Sandeep. Hadoop: Data Processing and Modelling. Packt Publishing, 2016. 11. KIMBALL, Ralph; CASERTA, Joe. The Data Warehouse ETL Toolkit: Practical Techniques for Extracting, Cleaning, Conforming, and Delivering Data. Wiley, 2004. DOI: https://doi.org/10.5555/1201627. 12. CAPRIOLO, Edward; WAMPLER, Dean; RUTHERGLEN, Jason. Programming Hive: Data Warehouse and Query Language for Hadoop. O’Reilly Media, 2012. DOI: https://doi.org/10.5555/2464898. 13. KIMBALL, Ralph; ROSS, Margy. The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling. 3. ed. Wiley, 2013. (Sem DOI informado). 14. WHITE, Tom. Hadoop: The Definitive Guide. 3. ed. O’Reilly Media, 2012. 15. Outros livros e artigos para cada tópico a serem indicados em aula. |
||||
| Carga Horária: |
27 horas |
||||
| Tipo: | Obrigatória | ||||
| Vagas oferecidas: | 55 | ||||
| Ministrantes: |
Leandro Mendes Ferreira |
|
Créditos © 1999 - 2025 - Superintendência de Tecnologia da Informação/USP |