| 136312 - Análise de dados com base em processamento massivo em paralelo |
| Período da turma: | 26/09/2026 a 28/11/2026
|
||||
|
|
|||||
| Descrição: | Resumo: Diversas aplicações comerciais atuais necessitam gerenciar volumes massivos de dados com o intuito de realizar a tomada de decisão estratégica, permitindo à empresa um planejamento rápido frente às mudanças nas condições do negócio, essencial na atual conjuntura de um mercado globalizado. O gigantesco volume de dados está diretamente relacionado ao contexto de big data, enquanto a tomada de decisão estratégica diz respeito ao uso analítico desses dados no contexto de business intelligence. Para oferecer suporte a essa demanda, é fundamental o uso de tecnologias que possibilitem o processamento paralelo e distribuído dos dados. Nesse cenário, frameworks como o Apache Spark destacam-se por possibilitar o processamento de volumes massivos de dados de forma eficiente e escalável, oferecendo bibliotecas importantes como Spark SQL para a análise de dados com base em processamento massivo em paralelo e Spark MLlib para aplicar algoritmos de aprendizado de máquina sobre esses dados. Assim, a integração entre big data, business intelligence e frameworks de processamento paralelo e distribuído torna-se um fator chave para a competitividade e inovação no ambiente corporativo atual.
Objetivos: neste curso são introduzidos objetivos, conceitos, fundamentos e ferramentas voltados ao processamento analítico de dados em larga escala. Ementa: 1- Inteligência do Negócio: definição, objetivos, tarefas. 2- Data Warehousing: definição, funcionalidades, aplicações, diferenças existentes entre os ambientes operacional e informacional, arquitetura, pipelines. 3- Big Data: definição, uso, desafios 4- Processo de ETL/ELT em Data Warehousing: definição, extração, tradução, limpeza, integração, carga, modelagem conceitual. 5- OLAP (online analytical processing): cubo de dados multidimensional, características dos dados, operações analíticas típicas, sistemas ROLAP (OLAP relacional). 6- Processamento Paralelo e Distribuído: clusters de computadores, computação em nuvem, modelo de programação MapReduce, sistema de arquivos distribuídos HDFS, frameworks Hadoop e Spark. 7- Framework Spark Apache: definição, Spark RDD 8- Análise de volumes massivos de dados: Apache Spark SQL 9- Aplicação de algoritmos de aprendizado de máquina sobre volumes massivos de dados: Apache Spark MLlib 10- Exemplos práticos voltados à tomada de decisão estratégica utilizando Python e PySpark. Principais Referências: * R. Kimball and M. Ross. The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling. Wiley, 3rd edition, 2013. * W. H. Inmon. Building the Data Warehouse. Wiley, 4th edition, 2005. * A. Vaismann and E. Zimányi. Data Warehouse Systems: Design and Implementation, 1st edition. Springer, 2014. * J. S. Damji, B. Wenig, T. Das, and D. Lee. Learning Spark: Lightning-Fast Data Analytics. O’Reilly, 2nd edition, 2020. * J. Dean and S. Ghemawat. MapReduce: Simplified Data Processing on Large Clusters. Communications of the ACM, v. 51, n. 1, p. 107-113, 2008. * Apache Spark. Disponível em: https://spark.apache.org/ |
||||
| Carga Horária: |
40 horas |
||||
| Tipo: | Obrigatória | ||||
| Vagas oferecidas: | 320 | ||||
| Ministrantes: |
Cristina Dutra de Aguiar |
|
Créditos © 1999 - 2025 - Superintendência de Tecnologia da Informação/USP |