Atividade

113544 - MÓDULO - MODELOS SUPERVISIONADOS E NÃO SUPERVISIONADOS DE MACHINE LEARNING

Período da turma: 28/05/2024 a 29/10/2024

Selecione um horário para exibir no calendário:
 
 
Descrição: Unsupervised Machine Learning: Clustering
Análise de conglomerados e de agrupamentos; padronização de variáveis e procedimento z-scores; medidas de distância e de similaridade; clusters hierárquicos; clusters não hierárquicos k-means; esquemas de aglomeração; dendrograma; escalonamento multidimensional; aplicações de bancos de dados reais de mercado em Python.

DEUS, J. E. R. Escalamiento multidimensional. Madrid: Editorial La Muralla, 2001.

EVERITT, B. S.; LANDAU, S.; LEESE, M.; STAHL, D. Cluster analysis. 5. ed. Chichester: John Wiley & Sons, 2011.

FÁVERO, LUIZ PAULO; BELFIORE, PATRÍCIA. Manual de análise de dados: estatística e modelagem multivariada com Excel®, SPSS® e Stata®. Rio de Janeiro: Elsevier, 2017.

HAIR JR., J. F.; BLACK, W. C.; BABIN, B. J.; ANDERSON, R. E.; TATHAM, R. L. Análise multivariada de dados. 6. ed. Porto Alegre: Bookman, 2009.

IEMMA, A.F. Estatística Descritiva. Piracicaba: Fi Sigma Rô Publicações, 1992.

TRIOLA, MARIO F. Introdução à estatística. 12ª ed. Rio de Janeiro: LTC, 2017.


Unsupervised Machine Learning: Análise Fatorial e PCA
Análise fatorial; principal componente analysis (PCA); construção de fatores; matriz de correlações; escores e cargas fatoriais; mapa de cargas; criação de rankings em datasets; aplicações de bancos de dados reais de mercado em Python.

BONETT, D. G. Varying coefficient meta-analytic methods for alpha reliability. Psychological Methods, v. 15, n. 4, p. 368-385, 2010.

CHATTERJEE, S.; JAMIESON, L.; WISEMAN, F. Identifying most influential observations in factor analysis. Marketing Science, v. 10, n. 2, p. 145-160, 1991.

FABRIGAR, L. R.; WEGENER, D. T.; MacCALLUM, R. C.; STRAHAN, E. J. Evaluating the use of exploratory factor analysis in psychological research. Psychological Methods, v. 4, n. 3, p. 272-299, 1999.

FÁVERO, LUIZ PAULO; BELFIORE, PATRÍCIA. Manual de análise de dados: estatística e modelagem multivariada com Excel®, SPSS® e Stata®. Rio de Janeiro: Elsevier, 2017.

HAIR JR., J. F.; BLACK, W. C.; BABIN, B. J.; ANDERSON, R. E.; TATHAM, R. L. Análise multivariada de dados. 6. ed. Porto Alegre: Bookman, 2009.

TRIOLA, MARIO F. Introdução à estatística. 12ª ed. Rio de Janeiro: LTC, 2017.


Unsupervised Machine Learning: Análise de Correspondência Simples e Múltipla
Tabelas de frequência; massas de frequências; resíduos frequentistas; teste chi-quadrado; associação entre variáveis e entre categorias; coordenadas de categorias e mapas perceptuais; clusterização e rankings de observações a partir de variáveis qualitativas; aplicações de bancos de dados reais de mercado em Python.

AGRESTI, A. Categorical data analysis. 3. ed. Hoboken: John Wiley & Sons, 2013.

FÁVERO, LUIZ PAULO; BELFIORE, PATRÍCIA. Manual de análise de dados: estatística e modelagem multivariada com Excel®, SPSS® e Stata®. Rio de Janeiro: Elsevier, 2017.

HAIR JR., J. F.; BLACK, W. C.; BABIN, B. J.; ANDERSON, R. E.; TATHAM, R. L. Análise multivariada de dados. 6. ed. Porto Alegre: Bookman, 2009.

LOMBARDO, R.; BEH, E. J.; D’AMBRA, L. Non-symmetric correspondence analysis with ordinal variables using orthogonal polynomials. Computational Statistics & Data Analysis, v. 52, p. 566-577, 2007.

TRIOLA, MARIO F. Introdução à estatística. 12ª ed. Rio de Janeiro: LTC, 2017.


Unsupervised Machine Learning: Exercícios Aplicados
Exercícios complementares de técnicas não supervisionadas de machine learning.

BAKKE, H. A.; LEITE, A. S. M.; SILVA, L. B. Estatística multivariada: aplicação da análise fatorial na engenharia de produção. Revista Gestão Industrial, v. 4, n. 4, p. 1-14, 2008.

ESPINOZA, F. S.; HIRANO, A. S. As dimensões de avaliação dos atributos importantes na compra de condicionadores de ar: um estudo aplicado. Revista de Administração Contemporânea (RAC), v. 7, n. 4, p. 97-117, 2003.

FÁVERO, LUIZ PAULO; BELFIORE, PATRÍCIA. Manual de análise de dados: estatística e modelagem multivariada com Excel®, SPSS® e Stata®. Rio de Janeiro: Elsevier, 2017.

HAIR JR., J. F.; BLACK, W. C.; BABIN, B. J.; ANDERSON, R. E.; TATHAM, R. L. Análise multivariada de dados. 6. ed. Porto Alegre: Bookman, 2009.

RODRIGUES, P. C.; LIMA, A. T. Analysis of an European union election using principal component analysis. Statistical Papers, v. 50, n. 4, p. 895-904, 2009.

RODRIGUES, M. C. P. Potencial de desenvolvimento dos municípios fluminenses: uma metodologia alternativa ao IQM, com base na análise fatorial exploratória e na análise de clusters. Caderno de Pesquisas em Administração, v. 9, n. 1, p. 75-89, 2002.

TRIOLA, MARIO F. Introdução à estatística. 12ª ed. Rio de Janeiro: LTC, 2017.


Supervised Machine Learning: Análise de Regressão Simples e Múltipla
Mapa de correlações; modelos de regressão simples; estimação por mínimos quadrados; coeficiente de ajuste R²; teste F, testes t, modelos de regressão múltipla; procedimento Stepwise; multicolinearidade; teste de Shapiro-Francia; procedimento de Box-Cox; modelos não lineares; intervalos de confiança e previsão; aplicações de bancos de dados reais de mercado em Excel e em Python.

CHARNET, R.; BONVINO, H.; FREIRE, C. A. L.; CHARNET, E. M. R. Análise de modelos de regressão linear: com aplicações. 2. ed. Campinas: Editora da UNICAMP, 2008.

CHEN, M. H.; IBRAHIM, J. G.; SHAO, Q. M. Maximum likelihood inference for the Cox regression model with applications to missing covariates. Journal of Multivariate Analysis, v. 100, n. 9, p. 2018-2030, 2009.

FÁVERO, LUIZ PAULO; BELFIORE, PATRÍCIA. Manual de análise de dados: estatística e modelagem multivariada com Excel®, SPSS® e Stata®. Rio de Janeiro: Elsevier, 2017.

HAIR JR., J. F.; BLACK, W. C.; BABIN, B. J.; ANDERSON, R. E.; TATHAM, R. L. Análise multivariada de dados. 6. ed. Porto Alegre: Bookman, 2009.

HOFFMANN, R.; VIEIRA, S. Análise de Regressão. São Paulo: Atual, 2a. ed., 1977.

LANDAU, S.; EVERITT, B. S. A handbook of statistical analyses using SPSS. Boca Raton: Chapman & Hall / CRC Press, 2004.

PARDOE, I. Applied regression modeling. 2. ed. Hoboken: John Wiley & Sons, 2012.

REIS, E. Estatística multivariada aplicada. 2. ed. Lisboa: Edições Sílabo, 2001.

TURKMAN, M. A. A.; SILVA, G. L. Modelos lineares generalizados: da teoria à prática. Lisboa: Edições SPE, 2000.

VALENTIN, J. L. Ecologia numérica: uma introdução à análise multivariada de dados ecológicos. 2. ed. Rio de Janeiro: Interciência, 2012.


Supervised Machine Learning: Modelos Logísticos Binários e Multinomiais
Conceitos de probabilidade e chance de ocorrência de eventos; curva sigmoide S e modelo probabilístico; estimação por máxima verossimilhança; modelos de risco de crédito e de probabilidade de default; intervalos de confiança e previsão; conceito de cutoff; confusion matrix; análise de sensibilidade; indicadores de acurácia, sensitividade e especificidade; curva ROC; índice GINI; modelos multinomiais; curvas spline; aplicações de bancos de dados reais de mercado em Excel e em Python.

FÁVERO, LUIZ PAULO; BELFIORE, PATRÍCIA. Manual de análise de dados: estatística e modelagem multivariada com Excel®, SPSS® e Stata®. Rio de Janeiro: Elsevier, 2017.

LONG, J. S.; FREESE, J. Regression models for categorical dependent variables using Stata. 2. ed. College Station: Stata Press, 2006.

PAMPEL, F. C. Logistic regression: a primer. Thousand Oaks: Sage Publications, 2000.

RIGAU, J. G. Traducción del término ‘odds ratio’. Gaceta Sanitaria, v. 16, p. 35, 1990.

SAPORTA, G. Probabilités, analyse des données et statistique. Paris: Technip, 1990.

VITTINGHOFF, E.; GLIDDEN, D. V.; SHIBOSKI, S. C.; McCULLOCH, C. E. Regression methods in biostatistics: linear, logistic, survival, and repeated measures models. 2. ed. New York: Springer-Verlag, 2012.

WULFF, J. N. Interpreting results from the multinomial logit: demonstrated by foreign market entry. Organizational Research Methods, v. 18, n. 2, p. 300-325, 2015.


Supervised Machine Learning: Modelos para Dados de Contagem
Dados de contagem; conceito de exposição; estimação por máxima verossimilhança; modelo Poisson; modelo binomial negativo; overdispersion; teste de Cameron e Trivedi; intervalos de confiança e previsão; modelagem para eventos raros; zero-inflated models; aplicações de bancos de dados reais de mercado em Excel e em Python.

ALBERGARIA, M.; FÁVERO, L. P. Narrow replication of Fisman and Miguel's (2007a) 'Corruption, norms, and legal enforcement: evidence from diplomatic parking tickets'. Journal of Applied Econometrics, v. 32, n. 4, p. 919-922, 2017.

FÁVERO, LUIZ PAULO. Análise de dados: modelos de regressão com Excel®, Stata® e SPSS®. Rio de Janeiro: Campus Elsevier, 2015.

HALL, D. B. Zero-inflated Poisson and binomial regression with random effects: a case study. Biometrics, v. 56, p. 1030-1039, 2000.

VUONG, Q. H. Likelihood ratio tests for model selection and non-nested hypotheses. Econometrica, v. 57, n. 2, p. 307-333, 1989.

XIE, M.; HE, B.; GOH, T. N. Zero-inflated Poisson model in statistical process control. Computational Statistics & Data Analysis, v. 38, n. 2, p. 191-201, 2001.


Supervised Machine Learning: Modelagem Multinível
Generalized linear multilevel models (GLMM); conceitos e definições; caracterização de aninhamento e agrupamento nos dados; hierarquias e contextos em modelagem de dados; efeitos contextuais; efeitos aleatórios de intercepto e de inclinação entre contextos; vantagens dos modelos multinível e incremento real de desempenho preditivo; modelos hierárquicos lineares (HLM); inserção correta de variáveis individuais e contextuais em modelos multinível; aplicações de bancos de dados reais de mercado em Python.

ALCALDE, A.; FÁVERO, L. P.; TAKAMATSU, R. T. EBITDA margin in Brazilian companies: variance decomposition and hierarchical effects. Contaduría y Administración, v. 58, n. 2, p. 197-220, 2013.

DEMIDENKO, E. Mixed models: theory and applications. New York: John Wiley & Sons, 2005.

FÁVERO, LUIZ PAULO; BELFIORE, PATRÍCIA. Manual de análise de dados: estatística e modelagem multivariada com Excel®, SPSS® e Stata®. Rio de Janeiro: Elsevier, 2017.

XIE, F. C.; WEI, B. C.; LIN, J. G. Assessing influence for pharmaceutical data in zero-inflated generalized Poisson mixed models. Statistics in Medicine, v. 27, n. 18, p. 3656-3673, 2008.

SANTOS, M. A.; FÁVERO, L. P.; DISTADIO, L. F. Adoption of the International Financial Reporting Standards (IFRS) on companies' financing structure in emerging economies. Finance Research Letters, v. 16, n. 1, p. 179-189, 2016.


Séries Temporais
Leitura de dados em série temporal; Plotagem e decomposição de séries temporais; Método de Holt-Winters; Alisamento exponencial (exponential smoothing); Decomposição de séries sazonais e ajustamento sazonal; Modelos ARIMA; Diferenciação de séries temporais; Seleção de modelos ARIMA; Forecast para modelos ARIMA; Exemplos e exercícios adicionais dos modelos estudados.

ALBUQUERQUE, J. P. A.; FORTES, J. M. P.; FINAMORE, W. A. Probabilidade, variáveis aleatórias e processos estocásticos. Rio de Janeiro: Interciência, 2008.

BUENO, R. L. S. Econometria De Séries Temporais. 2 ed. Cengage Learning, 2011.

MORETTIN, P. A.; TOLOI, M. C. Análise de Séries Temporais: Modelos Lineares Univariados (Volume 1). São Paulo: Blucher, 2018.

MORETTIN, P. A. Econometria Financeira: um Curso em Séries Temporais Financeiras. São Paulo: Blucher, 2017.

NIELSEN, Aileen. Análise Prática de Séries Temporais: Predição com Estatística e Aprendizado de Máquina. Rio de Janeiro: Alta Books, 2021.


Big Data e Deployment de Modelos
Processamento distribuído de big data; estimação de modelos; encapsulamento e deploy de modelo para produção; utilização prática de modelo em produção.

CHEN, H., CHIANG, R. H. L.; STOREY, V. C. Business Intelligence and Analytics: from Big Data to Big Impact. Journal MIS Quarterly, vol. 36, no. 4. p. 1165-1188, 2012.

CHEN, Y. et al. Big data analytics and big data science: a survey. Journal of Management Analytics, v. 3, n. 1, p. 1-42. fev. 2016.

LINOFF, G. S.; BERRY, M. J. A. Data mining techniques: for marketing, sales, and customer relationship management. 3. ed. Indianapolis: John Wiley & Sons, 2011.

MARQUESONE, R. Big Data/Técnicas e tecnologias para extração de valor dos dados. São Paulo: Casa do Código, 2017.

NESELLO, P; FACHINELLI, A. C. Big Data: O novo desafio para a gestão. Revista Inteligência Competitiva, v. 4, p. 18-38, 2014.

TAURION, C. Big Data. Rio Janeiro: Editora Brasport, 2013.

Tópicos Especiais
Temas que estão sendo debatidos no momento do módulo trazidos para discussão e aprendizado no nosso curso.
Avaliações, atividades complementares, trabalhos em grupo e interação.
Realização das Provas EaD: as provas são disponibilizadas no dia seguinte a aula ao vivo.
Atividades complementares: slides das aulas, material de leitura pré e pós-aula, bibliografia indicada, eventos, reportagens, artigos, entre outros.
Esclarecimento de dúvidas via e-mail após as aulas ao vivo: caso os alunos ainda tenham dúvidas após a aula ministrada, estas serão encaminhadas para o professor e as respostas serão compartilhadas com os alunos pela intranet.
Interação em aula (trabalhos em grupo): durante a aula ao vivo serão utilizadas as ferramentas TalkShow, Zoom, Wooclap e outros de interação, para desenvolvimento e apresentação de trabalhos em grupo, sanar dúvidas com professor, compartilhar experiências com a turma, responder a enquetes que ajudam na fixação do conteúdo, entre outros.
Chat: ferramenta do sistema acadêmico utilizada durante as aulas ao vivo para que os alunos enviem as dúvidas ao professor.
O histórico do chat fica disponível nos materiais da aula após o término da aula ao vivo. Conteúdo de Intervalo: programa exibido nos intervalos das aulas (2 intervalos de 15 minutos), com temas relacionados ao curso.


*Disciplinas e ementas sujeitas a alteração.

Carga Horária:

113 horas
Tipo: Obrigatória
Vagas oferecidas: 1000
 
Ministrantes: Fabiano Guasti Lima
Helder Prado Santos
Henrique Rozenfeld
Luiz Paulo Lopes Favero
Wilson Tarantin Júnior


 
 voltar

Créditos
© 1999 - 2024 - Superintendência de Tecnologia da Informação/USP