Atividade

136312 - Análise de dados com base em processamento massivo em paralelo

Período da turma: 26/09/2026 a 28/11/2026

Selecione um horário para exibir no calendário:
 
 
Descrição: Resumo: Diversas aplicações comerciais atuais necessitam gerenciar volumes massivos de dados com o intuito de realizar a tomada de decisão estratégica, permitindo à empresa um planejamento rápido frente às mudanças nas condições do negócio, essencial na atual conjuntura de um mercado globalizado. O gigantesco volume de dados está diretamente relacionado ao contexto de big data, enquanto a tomada de decisão estratégica diz respeito ao uso analítico desses dados no contexto de business intelligence. Para oferecer suporte a essa demanda, é fundamental o uso de tecnologias que possibilitem o processamento paralelo e distribuído dos dados. Nesse cenário, frameworks como o Apache Spark destacam-se por possibilitar o processamento de volumes massivos de dados de forma eficiente e escalável, oferecendo bibliotecas importantes como Spark SQL para a análise de dados com base em processamento massivo em paralelo e Spark MLlib para aplicar algoritmos de aprendizado de máquina sobre esses dados. Assim, a integração entre big data, business intelligence e frameworks de processamento paralelo e distribuído torna-se um fator chave para a competitividade e inovação no ambiente corporativo atual.

Objetivos: neste curso são introduzidos objetivos, conceitos, fundamentos e ferramentas voltados ao processamento analítico de dados em larga escala.

Ementa:
1- Inteligência do Negócio: definição, objetivos, tarefas.
2- Data Warehousing: definição, funcionalidades, aplicações, diferenças existentes entre os ambientes operacional e informacional, arquitetura, pipelines.
3- Big Data: definição, uso, desafios
4- Processo de ETL/ELT em Data Warehousing: definição, extração, tradução, limpeza, integração, carga, modelagem conceitual.
5- OLAP (online analytical processing): cubo de dados multidimensional, características dos dados, operações analíticas típicas, sistemas ROLAP (OLAP relacional).
6- Processamento Paralelo e Distribuído: clusters de computadores, computação em nuvem, modelo de programação MapReduce, sistema de arquivos distribuídos HDFS, frameworks Hadoop e Spark.
7- Framework Spark Apache: definição, Spark RDD
8- Análise de volumes massivos de dados: Apache Spark SQL
9- Aplicação de algoritmos de aprendizado de máquina sobre volumes massivos de dados: Apache Spark MLlib
10- Exemplos práticos voltados à tomada de decisão estratégica utilizando Python e PySpark.


Principais Referências:
* R. Kimball and M. Ross. The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling. Wiley, 3rd edition, 2013.
* W. H. Inmon. Building the Data Warehouse. Wiley, 4th edition, 2005.
* A. Vaismann and E. Zimányi. Data Warehouse Systems: Design and Implementation, 1st edition. Springer, 2014.
* J. S. Damji, B. Wenig, T. Das, and D. Lee. Learning Spark: Lightning-Fast Data Analytics. O’Reilly, 2nd edition, 2020.
* J. Dean and S. Ghemawat. MapReduce: Simplified Data Processing on Large Clusters. Communications of the ACM, v. 51, n. 1, p. 107-113, 2008.
* Apache Spark. Disponível em: https://spark.apache.org/

Carga Horária:

40 horas
Tipo: Obrigatória
Vagas oferecidas: 320
 
Ministrantes: Cristina Dutra de Aguiar


 
 voltar

Créditos
© 1999 - 2025 - Superintendência de Tecnologia da Informação/USP