Apolo

Atividade

121580 - Processamento Analitico de Dados em Larga Escala

Período da turma:

12/04/2025 a 09/05/2025

Selecione um horário para exibir no calendário:

Descrição:

Objetivos:
O curso visa prover teoria e prática sobre processamento analítico de dados em larga escala, a fim de que os alunos possam utilizar a teoria aprendida pare resolver problemas práticos enfrentados no mercado de trabalho. É fornecida uma visão ampla dos objetivos da inteligência do negócio (business intelligence), do conceito de big data e dos fundamentos de data warehousing, desde aspectos relacionados com o processo ETL (extract-transform-load) até o armazenamento adequado dos dados em data warehouses e a recuperação desses dados voltada à tomada de decisão estratégica. É definido um problema prático do mundo real, o qual é utilizado ao longo de todo o curso para exemplificar os conceitos e fundamentos estudados. Desde que a manipulação de dados em larga escala requer o uso de processamento de dados paralelo e distribuído, no curso também são introduzidos o modelo de programação funcional MapReduce e as suas implementações amplamente utilizadas no mercado de trabalho, com destaque para Spark. Adicionalmente, são especificadas diferentes consultas analíticas voltadas à tomada de decisão estratégica usando PySpark, discutindo sua importância na tomada de decisão estratégica frente às necessidades enfrentadas pelo mercado de trabalho.

Justificativa:
Diversas aplicações comerciais atuais necessitam gerenciar gigantescos volumes de dados com o intuito de realizar a tomada de decisão estratégica, permitindo à empresa um planejamento rápido frente às mudanças nas condições do negócio, essencial na atual conjuntura de um mercado globalizado. O gigantesco volume de dados está diretamente relacionado ao contexto de big data, enquanto a tomada de decisão estratégica diz respeito ao uso analítico desses dados no contexto de business intelligence. Para oferecer suporte a essa demanda, o curso visa prover teoria e prática sobre o processamento analítico de dados em larga escala. São detalhados, utilizando como base um problema prático do mundo real, os seguintes conceitos: business intelligence, big data warehousing, cubo de dados, operações analíticas, modelo de programação funcional MapReduce, framework de processamento paralelo e distribuído Spark e linguagem de programação PySpark.

Conteúdo:
Parte I (Big Data Warehousing) - Discussão dos conceitos de business intelligence, data waerehousing e big data. Detalhamento da arquitetura de big data warehousing. Discussão de aplicações práticas e dos benefícios de se utilizar big data warehousing para resolver problemas relacionados à tomada de decisão estratégica. Exemplos de pipelines utilizando tecnologias disponíveis atualmente no mercado de trabalho para implementar a arquitetura de big data warehousing.

Parte II (Dados Multidimensionais e Consultas Analíticas) – Discussão de conceitos relacionados aos dados do data warehouse, ao modelo de dados multidimensional e aos sistemas ROLAP (relational on-line analytical processing). Exemplificação desses conceitos considerando as aplicações práticas introduzidas na Parte I. Escolha de uma dessas aplicações e uso desta para a especificação de consultas analíticas práticas usando Pandas, incluindo a discussão da importância dessas consultas analíticas na tomada de decisão estratégica.

Parte III (Spark: Fundamentos e Consultas em SQL) – Discussão de conceitos relacionados ao processamento de dados paralelo e distribuído e ao framework Apache Spark. Uso da aplicação escolhida na Parte II para a especificação de consultas analíticas práticas usando SQL com Spark.

Parte IV (Módulo pyspark.sql e Discussões Finais) – Discussão de métodos de interesse do módulo pyspark.sql. Uso da aplicação escolhida na Parte II para a especificação de consultas analíticas práticas em Spark usando pyspark.sql.

Bibliografia:
KIMBALL, R., ROSS, M. The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling, 3rd Edition. Wiley, 2013.

CIFERRI, C., CIFERRI, R., GÓMEZ, L., SCHNEIDER, M., VAISMAN, A., ZIMÁNYI, E. Cube algebra: A generic user-centric model and query language for OLAP cubes. Journal of Data Warehousing and Mining, v. 9, n. 2, p. 39-65, 2013.

VAISMANN, A., ZIMÁNYI, E. Data Warehouse Systems: Design and Implementation, 1st edition. Springer, 2014.

CHEN, M., MAO, S., LIU, Y. Big data: A survey. Mobile Networks and Applications, v. 19, n.2, p. 171-209, 2014.

LINSTEDT, D., OLSCHIMKE, M. Building a Scalable Data Warehouse with Data Vault 2.0, 1st edition. Morgan Kaufmann, 2015.

WHITE, T. Hadoop: The Definitive Guide: Storage and Analysis at Internet Scale, 4th Edition. O'Reilly Media, 2015.
GROSSMANN, W., RINDERLE-MA, S. Fundamentals of Business Intelligence. Springer, 2015.
INMON, W. H. Building the Data Warehouse. Wiley, 4th edition, 2005.

MATHIS, C. Data lakes. Datenbank-Spektrum, v. 17, n. 3, p. 289–293, 2017.
DEAN, J., GHEMAWAT, S. MapReduce: Simplified Data Processing on Large Clusters. Communications of the ACM, v. 51, n. 1, p. 107-113, 2008.
DAMJI, J. S., WENIG, B., DAS T., LEE, D. Learning Spark: Lightning-Fast Data Analytics, 2nd edition. O’Reilly, 2020.

Carga Horária:

20 horas

Tipo:

Optativa

Vagas oferecidas:

300

Ministrantes:

Cristina Dutra de Aguiar

voltar