Apolo

Atividade

121570 - Gerenciamento e Processamento Paralelo de Dados em Larga Escala

Período da turma:

14/09/2024 a 25/10/2024

Selecione um horário para exibir no calendário:

Descrição:

Objetivos:
Apresentar as principais tecnologias para a coleta, preparação, armazenagem, recuperação, e análise de dados em larga escala. Este módulo trata dos recursos computacionais que dão apoio a tais processos, envolvendo como preparar os dados para serem armazenados e analisados. Isso é feito analisando-se os princípios envolvidos nas ferramentas usadas, tratando especialmente os aspectos que afetam o desempenho dos processos, e com isso dar diretrizes técnicas de como desenvolver sistemas levando em conta questões de velocidade de processamento, consumo de memória, repetibilidade de processos, integração de fontes de dados diversas (estrutural e temporalmente), recursos computacionais, e de comunicação, etc. Este módulo apresenta as principais classes de ferramentas e como elas podem ser usadas para executar as tarefas necessárias para desenvolver sistemas que atendam às expectativas para se obter o desempenho esperado sobre grandes conjuntos de dados.

Justificativa: Na era da "Sociedade da Informação" em que vivemos hoje, os dados são o bem mais importante das pessoas, empresas e instituições. Em muitas situações, os dados são acumulados ao longo do tempo, criando grandes repositórios, que necessitam ser analisados para deles extrair padrões, conhecimento útil. Processos analíticos, que envolvem predominantemente análises baseadas em estatísticas e processos de mineração de dados, tendem a ter complexidade super-linear. Desempenho em sistemas computacionais é um fator de grande importância para sistemas computacionais eficazes. Agora que a Lei de Moore está em seu final, não se pode mais contar com os avanços no hardware para garantir e manter um bom desempenho. Em particular, frente ao aumento dos dados que precisam ser processados, é necessário trabalhar a lógica dos programas, e conhecer os princípios de funcionamento das ferramentas utilizadas para extrair delas ganhos de desempenho, de eficiência e eficácia que possam fazer frente aos dados que se avolumam, que se tornam cada vez mais complexos e multivariados.

Conteúdo:
Técnicas de Redução de Dados.
Busca por similaridade para análise de dados.
Armazenagem de snapshots de dados para análise.
Estruturas de dados para agilizar a análise de dados.
Modelos de dados alternativos: Chave-Valor, Linha X Coluna, Relacional, Documentos, Grafos.

Técnicas de Preparação de dados. Extração, Transformação, Carga (ETL).
Técnicas de armazenamento de Dados.
Datawarehouse: armazéns de dados SQL, e No-SQL.
OLAP x OLTP.
Cloud computing.
Suporte a técnicas de mineração de dados em repositórios de dados.
Técnicas de processamento paralelo distribuído: map-reduce e spark, e ferramentas relacionadas.
Ciência de dados em larga escala: conceitos e algoritmos fundamentais.

Bibliografia:
M. J. Zaki and W. Meira - Data Mining and Machine Learning: Fundamental Concepts and Algorithms, 2'Ed: Cambridge University Press, 2020.

DAMJI, WENIG, DAS, LEE. Learning Spark Lightning-Fast Data Analytics. O'Reilly, 2020. ISBN 978-1492050049

PERRIN, JG. Spark in Action, Second Edition: Covers Apache Spark 3 with Examples in Java, Python, and Scala. Manning, 2020. ISBN 978-1617295522

J. Leskovec, A. Rajaraman and J. D. Ullman; Mining of Massive Datasets; Cambridge University Press; 3rd Edition, 2020.

A. Meier and M. Kaufmann - SQL&NoSQL Databases: Models, Languages, Consistency Options and Architectures for Big Data Management: Springer Vieweg, 2019.

I. F. Ilyas and X. Chu - Data Cleaning: ACM, 2019.

P. Olivier - NoSQL Data Models trends and challenges, V.1: Wiley, 2018.

Y. Gao and X. Miao - Query Processing over Incomplete Databases: Morgan & Claypool Publishers, 2018.

CHAMBERS, ZAHARIA. Spark: The Definitive Guide: Big Data Processing Made Simple. O'Reilly, 2018. ISBN 978-1491912218.

G. Harrison - Next Generation Databases: NoSQL, NewSQL, and Big Data: Apress-IOUG, 2016.

C. Aggarwal - Data Mining: The Textbook. Springer. 2015.

M. Greenacre and R. Primicerio - Multivariate Analysis of Ecological Data: Bilbao, Spain. Fundación BBVA, 2014.

J. Han, M. Kamber, and J. Pei, Data Mining - Concepts and Techniques, 3rd Edition, 3st Edition ed. New York: Morgan Kaufmann Publishers, 2012.

C. J. Date - SQL and Relational Theory - How to Write Accurate SQL Code: O'Reilly Media, 2009.

D. Gusfield - Algorithms on Strings, Trees, and Sequences: New York, NY, USA: Cambridge University Press, 1997.

Carga Horária:

40 horas

Tipo:

Obrigatória

Vagas oferecidas:

300

Ministrantes:

Caetano Traina Junior
José Fernando Rodrigues Junior

voltar