127087 - Ingestão de Dados |
Período da turma: | 29/07/2025 a 23/09/2025
|
||||
|
|||||
Descrição: | Objetivo:
Fornecer ao aluno conhecimento e práticas do processo de planejamento, criação e organização de pipeline de dados. Para isso serão abordadas conceitos e técnicas de coleta, extração, preparação, processamento, persistência, orquestração e análise de dados em ambientes de Big Data e BI. Conteúdo programático: Conceitos de planejamento, organização e construção de pipelines; Conceitos e práticas de coleta, captura e extração de dados em lote e em streaming; Conceitos e práticas de preparação e processamento de dados; Conceitos e práticas de orquestração, agendamento e monitoramento de pipeline de dados. Práticas em ferramentas de ETL e ingestão de dados: Extração (NIFI, Sqoop, Logstash); Processamento (Spark, Hive/Presto); Streaming: (Kafka, Spark, Flink); Orquestração: (Ariflow); Persistência e Armazenamento de Dados (HDFS, Druid). Bibliografia: 1. Kimball, Ralph, and Margy Ross. The data warehouse toolkit: the complete guide to dimensional modeling. John Wiley & Sons, 2011. 2. Caserta, Joe, and Ralph Kimball. The Data Warehouseetl Toolkit: Practical Techniques for Extracting, Cleaning, Conforming, and Delivering Data. Wiley, 2013. 3. Kumar, V. Naresh, and Prashant Shindgikar. Modern Big Data processing with Hadoop: Expert techniques for architecting end-to-end Big Data solutions to get valuable insights. Packt Publishing Ltd, 2018. 4. Kleppmann, Martin. Designing data-intensive applications: The big ideas behind reliable, scalable, and maintainable systems. " O'Reilly Media, Inc.", 2017. 5. Chambers, Bill, and Matei Zaharia. Spark: The definitive guide: Big data processing made simple. " O'Reilly Media, Inc.", 2018. 6. Narkhede, Neha, Gwen Shapira, and Todd Palino. Kafka: the definitive guide: real-time data and stream processing at scale. " O'Reilly Media, Inc.", 2017. 7. Capriolo, Edward, Dean Wampler, and Jason Rutherglen. Programming Hive: Data warehouse and query language for Hadoop. " O'Reilly Media, Inc.", 2012. 8. Turkington, Garry, Tanmay Deshpande, and Sandeep Karanth. Hadoop: Data Processing and Modelling. Packt Publishing Ltd, 2016. 9. Martin Traverso and Matt Fuller. Presto: The Definitive Guide. "O'Reilly Media, Inc.", 2020. |
||||
Carga Horária: |
27 horas |
||||
Tipo: | Obrigatória | ||||
Vagas oferecidas: | 55 | ||||
Ministrantes: |
Leandro Mendes Ferreira |
![]() |
Créditos © 1999 - 2025 - Superintendência de Tecnologia da Informação/USP |