Atividade

109312 - Administração de Dados Complexos em Larga Escala

Período da turma: 09/09/2023 a 20/10/2023

Selecione um horário para exibir no calendário:
 
 
Descrição: Objetivos:
Apresentar as principais tecnologias existentes para a coleta, preparação, armazenagem, recuperação, e análise de dados em larga escala. Na era da "Sociedade da Informação" em que vivemos hoje, os dados são o bem mais importante das pessoas, empresas e instituições. Em muitas situações, os dados são acumulados ao longo do tempo, criando grandes repositórios, que necessitam ser analisados para deles extrair padrões, conhecimento útil. Processos analíticos, que envolvem predominantemente análises baseadas em estatísticas e processos de mineração de dados, tendem a ter complexidade super-linear. Este módulo trata dos recursos computacionais que dão apoio a tais processos, envolvendo como preparar os dados para serem armazenados e analisados. Isso é feito analisando-se os princípios envolvidos nas ferramentas usadas, tratando especialmente os aspectos que afetam o desempenho dos processos, e com isso dar diretrizes técnicas de como desenvolver sistemas levando em conta questões de velocidade de processamento, consumo de memória, repetibilidade de processos, integração de fontes de dados diversas (estrutural e temporalmente), recursos computacionais, e de comunicação, etc.

Justificativa:
Desempenho em sistemas computacionais é um fator de grande importância para sistemas computacionais eficazes. Agora que a Lei de Moore está em seu final, não se pode mais contar com os avanços no hardware para garantir e manter um bom desempenho. Em particular, frente ao aumento dos dados que precisam ser processados, é necessário trabalhar a lógica dos programas, e conhecer os princípios de funcionamento das ferramentas utilizadas para extrair delas ganhos de desempenho, de eficiência e eficácia que possam fazer frente aos dados que se avolumam, que se tornam cada vez mais complexos e multivariados. Este módulo apresenta as principais classes de ferramentas para coleta, preparação, armazenagem, recuperação e análise de dados, mostrando seus princípios conceituais e técnicas de implementação, e como elas podem ser usadas para executar as tarefas necessárias e desenvolver sistemas que atendam às expectativas dos usuários no que diz respeito à sua capacidade de obter o desempenho esperado sobre grandes conjuntos de dados.

Conteúdo:
Revisão de processos de mineração de dados; conceitos e algoritmos fundamentais.
Técnicas de Preparação de dados. Extração, Transformação, Carga (ETL). Data lakes.
Técnicas de Redução de Dados.Técnicas de armazenamento de Dados.
Suporte a técnicas de mineração de dados em repositórios de dados.
Busca por similaridade para análise de dados.
Armazenagem de snapshots de dados para análise.
Estruturas de dados para agilizar a análise de dados.
Modelos de dados alternativos: Chave-Valor, Linha X por coluna, Relacional, Atributo-Chave-Valor, Documentos complexos.
Técnicas de processamento paralelo distribuído: map-reduce e spark, e ferramentas relacionadas.
Repositórios de dados: SQL, No-SQL, New-SQL. Sistemas relacionais, chave-valor, documentos, multimodelo.

Bibliografia:
P. Olivier - NoSQL Data Models trends and challenges, V.1: Wiley, 2018.
G. Harrison - Next Generation Databases: NoSQL, NewSQL, and Big Data: Apress-IOUG, 2016.
C. Aggarwal - Data Mining: The Textbook. Springer. 2015.
J. Leskovec, A. Rajaraman and J. D. Ullman; Mining of Massive Datasets; Cambridge University Press; 3rd Edition, 2020.
A. Meier and M. Kaufmann - SQL&NoSQL Databases: Models, Languages, Consistency Options and Architectures for Big Data Management: Springer Vieweg, 2019.
I. F. Ilyas and X. Chu - Data Cleaning: ACM, 2019.
M. J. Zaki and W. Meira - Data Mining and Machine Learning: Fundamental Concepts and Algorithms, 2'Ed: Cambridge University Press, 2020.
J. Han, M. Kamber, and J. Pei, Data Mining - Concepts and Techniques, 3rd Edition, 3st Edition ed. New York: Morgan Kaufmann Publishers, 2012.
D. Gusfield - Algorithms on Strings, Trees, and Sequences: New York, NY, USA: Cambridge University Press, 1997.
M. Greenacre and R. Primicerio - Multivariate Analysis of Ecological Data: Bilbao, Spain. Fundación BBVA, 2014.
Y. Gao and X. Miao - Query Processing over Incomplete Databases: Morgan & Claypool Publishers, 2018.
C. J. Date - SQL and Relational Theory - How to Write Accurate SQL Code: O'Reilly Media, 2009.
R. L. F. Cordeiro, C. Faloutsos, and C. Traina Jr - Data Mining in Large Sets of Complex Data: Springer, 2013.

Carga Horária:

40 horas
Tipo: Obrigatória
Vagas oferecidas: 245
 
Ministrantes: Caetano Traina Junior
José Fernando Rodrigues Junior
Robson Leonardo Ferreira Cordeiro


 
 voltar

Créditos
© 1999 - 2024 - Superintendência de Tecnologia da Informação/USP