Apolo

Atividade

114809 - Análise de Dados com Python

Período da turma:

20/03/2024 a 20/08/2024

Selecione um horário para exibir no calendário:

Descrição:

Estruturas de Bancos de Dados, Tipos de Variáveis e Escalas de Mensuração

Introdução ao Software Python

Manuseio do Python e Plataforma Gráfica

Clustering e Análise de Agrupamentos
Definição de Medidas de Dissimilaridade em Análise de Clusters; Esquemas de Aglomeração; Análise de Clusters com Esquemas de Aglomeração Hierárquicos; Análise de Clusters K-means; Elaboração de Exercícios e Aplicação de Scripts em Bases de Dados Reais.

Análise Fatorial e PCA - Principal Component Analysis
Redução Dimensional e Conceito de Fator; Adequação Global da Análise; Cargas e Scores Fatoriais; Elaboração de Rankings e Mapas de Correlação para Variáveis; Elaboração de Exercícios e Aplicação de Scripts em Bases de Dados Reais.

Análise de Correspondência Simples e Múltipla
Associação entre Variáveis Qualitativas; Anacor e ACM; Definição de Scores e Elaboração de Mapas Perceptuais; Elaboração de Exercícios e Aplicação de Scripts em Bases de Dados Reais.

Exercícios de Exploratory Analytics (Unsupervised Machine Learning)

GLM - Regressão Simples e Múltipla
Estimação do Modelo de Regressão Linear por MQO; Poder Explicativo do Modelo de Regressão; A Significância Geral do Modelo e dos Parâmetros; Intervalos de Confiança dos Parâmetros e Previsão; Variáveis Dummy em Modelos de Regressão; Elaboração de Exercícios e Aplicação de Scripts em Bases de Dados Reais.

GLM - Modelos Logísticos Binários e Multinomiais
Estimação por Maximum Likelihood; Significância Geral do Modelo e dos Parâmetros; Cutoff e Análise de Sensibilidade; Métricas de Desempenho (Matriz de Confusão, Sensitividade, Especificidade, Curva de Sensibilidade, ROC e GINI); Construção de Gráficos Multinomiais; Elaboração de Exercícios e Aplicação de Scripts em Bases de Dados Reais.

GLM - Modelos para Dados de Contagem
Conceito de Exposição; Modelo Poisson; Modelo Binomial Negativo e Existência de Superdispersão nos Dados; Elaboração de Exercícios e Aplicação de Scripts em Bases de Dados Reais.

Exercícios de GLM

Modelagem Multinível
Identificação de Hierarquia e Contextualização nos Dados; Fundamentação Teórica da Modelagem Multinível; Modelos Hierárquicos com Dois Níveis (HLM2); Modelos Hierárquicos com Três Níveis e Medidas Repetidas (HLM3); Elaboração de Exercícios e Aplicação de Scripts em Bases de Dados Reais.

BIBLIOGRAFIA

Agresti, A. (2013). Categorical Data Analysis. Hoboken, NJ: John Wiley & Sons.
doi:10.1016/j.isprsjprs.2016.01.011
Bickel, R. Multilevel analysis for applied research: it’s just regression! New York: The Guilford Press, 2007.
Blackburn, M. L. (2014). The Relative Performance of Poisson and Negative Binomial Regression Estimators. Oxford Bulletin of Economics & Statistic, 77(4), 605-616. doi:10.1111/obes.12074
Cameron, A. C., & Trivedi, P. K. (1990). Regression-Based Tests for Overdispersion in the Poisson Model. Journal of Econometrics, 46(3), 347-364. doi:10.1016/0304-4076(90)90014-K
Cameron, A. C., & Trivedi, P. K. (2005). Microeconomics: Methods and applications. Cambridge, UK: Cambridge University Press.
Cameron, A. C., & Trivedi, P. K. (2013). Regression Analysis of Count Data. Cambridge, UK: Cambridge University Press.
Courgeau, D. Methodology and epistemology of multilevel analysis. London: Kluwer Academic Publishers, 2003.
Desmarais, B. A., & Harden, J. J. (2013). Testing for Zero Inflation in Count Models: Bias correction for the Vuong Test. Stata Journal, 13(4), 810-835. doi:10.1177/1536867X1301300408
Dupuy, J. -F. (2018). Statistical Methods for Overdispersed Count Data. London: ISTE Press - Elsevier.
Edwards, M. R., & Edwards, K. (2019). Predictive HR analytics: Mastering the HR metric. Londres, Reino Unido: Kogan Page.
Everitt, B., & Hothorn, T. (2011). An Introduction to Applied Multivariate Analysis with R. Baltimore, MD, USA: Springer.
Falletta, S. (2014). In search of HR intelligence: Evidence-based HR Analytics practices in high performing companies. People & Strategy, 36(4), 28-37.
Fávero, L. P. The Sao Paulo Stock Exchange: a multilevel analysis of firm and industry effects on profitability evolution and hedge strategies. International Journal of Financial Markets and Derivatives, v. 1, p. 307-325, 2010.
Fávero, L. P. The zero-inflated negative binomial multilevel model: demonstrated by a Brazilian dataset. International Journal of Mathematics in Operational Research, v. 11, p. 90-106, 2017.
Fávero, L. P. Time, firm and country effects on performance: an analysis under the perspective of hierarchical modeling with repeated measures. BBR (Brazilian Business Review), v. 5, p. 163-180, 2008.
Fávero, L. P.; Almeida, J. E. F. O comportamento dos índices de ações em países emergentes: uma análise com dados em painel e modelos hierárquicos. Revista Brasileira de Estatística, v. 72, p. 97-137, 2011.
Fávero, L. P., & Belfiore, P. (2019). "Data Science for Business and Decision Making". Cambridge, MA: Academic Press Elsevier.
Fávero, L. P. & Belfiore, P. (2017). “Manual de Análise de Dados: Estatística e Modelagem Multivariada”. Rio de Janeiro: Elsevier.
Fávero, L. P.; Confortini, D. Modelos multinível de coeficientes aleatórios e os efeitos firma, setor e tempo no mercado acionário Brasileiro. Pesquisa Operacional, v. 30, p. 703-727, 2010.
Fávero, L. P.; Santos, M. A.; Serra, R. G. Cross-border branching in the Latin American banking sector. International Journal of Bank Marketing, v. 36, p. 496-528, 2018.
Fávero, L. P.; Serra, R. G.; Santos, M. A.; Brunaldi, E. Cross-classified multilevel determinants of firm’s sales growth in Latin America. International Journal of Emerging Markets, v. 13, p. 902-924, 2018.
Garson, G. D. (2016). Logistic Regression: binary & multinomial. Asheboro, NC: Statistical Associates Publishing.
Goldstein, H. Multilevel statistical models. 4. ed. Chichester: John Wiley & Sons, 2011.
Greenacre, M. (2017). Correspondence Analysis in Practice. Barcelona, Espanha: CRC Press.
Greene, W. H. (2019). "Econometric Analysis". Harlow, UK: Pearson.
Gujarati, D. N., & Porter, D. C. (2012). "Econometria Básica". Nova Iorque, NY: McGraw-Hill.
Hair, J. F., Black, W. C., Babin, B. J., Anderson, R. E., & Tatham, R. L. (2009). Análise Multivariada de Dados. Porto Alegre: Bookman.
Hair Jr., J. F.; Fávero, L. P. Multilevel modeling for longitudinal data: concepts and applications. RAUSP Management Journal, v. 54, p. 459-489, 2019.
Heumann, C., & Shalabh, M. S. (2016). Introduction to Statistics and Data Analysis. Cham, Switzerland: Springer.
Hilbe, J. M. (2011). Negative-Binomial Regression. Cambridge, UK: Cambridge University Press.
Hilbe, J. M. (2014). Logistic Regression Models. Boca Raton, FL: CRC Press.
Hosmer, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied Logistic Regression. Nova Iorque, NY: John Wiley & Sons.
Johnson, R. A., & Wichern, D. W. (2007). Applied Multivariate Statistical Analysis. Upper Saddle River, NJ, EUA: Pearson Education.
Kelleher, J. D., Namee, B. M., & D'Arcy, A. (2015). Fundamentals of Machine Learning for Predictive Data Analysis. Massachusetts, EUA: MIT Press.
Klakattawi, H. S., Vinciotti, V., & Yu, K. (2018). A Simple and Adaptive Dispersion Regression Model for Count Data. Entropy, 20(2), 141-156. doi:10.3390/e20020142
Lambert, D. (1992). Zero-Inflated Poisson Regression, with an Application to Defects in Manufacturing. Technometrics, 34(1), 1-14. doi:10.1080/00401706.1992.10485228
Lazega, E.; Snijders, T. Multilevel network analysis for the social sciences: theory, methods and applications. New York: Springer, 2016.
Mortensen, M., Doherty, N., & Robinson, S. (2015). Operational Research from Taylorism to Terabytes: a research agenda for the analytics age. European Journal of Operational Research, 241(3), 583-595. doi:10.1016/j.ejor.2014.08.029
Oliveira, P. F., Guerra, S., & McDonell, R. (2018). Ciência de Dados com R. Brasília, DF, Brazil: IBPAD.
Park, I. -U., Peacey, M. W., & Munafò, M. R. (2014). Modelling the Effects of Subjective and Objective Decision Making in Scientific Peer Review. Nature, 506(7486), 93-96. doi:10.1038/nature12786
Payne, E. H., Gebregziabher, M., Hardin, J., Ramakrishnan, V., & Egede, L. E. (2018). An Empirical Approach to Determine a Threshold for Assessing Overdispersion in Poisson and Negative Binomial Models for Count Data. Communications in Statistics - Simulation and Computation, 47(6), 1722-1738. doi:10.1080/03610918.2017.1323223
Payne, E. H., Hardin, J., Egede, L. E., Ramakrishnan, V., Selassie, A. W., & Gebregziabher, M. (2015). Approaches for Dealing with Various Sources of Overdispersion in Modeling Count Data: Scale adjustment versus modeling. Statistical Methods in Medical Research, 26(4), 1802-1823. doi:10.1177/0962280215588569
Rabe-Hesketh, S.; Skrondal, A. Multilevel and longitudinal modeling: continuous responses (Vol. I). 3. ed. College Station: Stata Press, 2012.
Ramsey, J. B. (1969). "Tests for Specification Error in Classical Linear Least Squares Regression Analysis". Journal of the Royal Statistical Society, 31(2), 350-371.
Raudenbush, S. W.; Bryk, A. S. Hierarchical linear models: applications and data analysis methods. 2. ed. Thousand Oaks: Sage Publications, 2002.
Salcedo, J. (2019). Machine Learning for Data Mining. Birmingham, UK: Packt.
Santos, M. A.; Fávero, L. P.; Distadio, L. F. Adoption of the International Financial Reporting Standards (IFRS) on companies’ financing structure in emerging economies. Finance Research Letters, v. 16, p. 179-189, 2016.
Sharpe, N. R., De Veaux, R. D., & Velleman, P. F. (2011). Estatística Aplicada: Administração, Economia e Negócios. Porto Alegre, RS: Bookman.
Silberzahn, R., & Uhlmann, E. L. (2013). It Pays to Be Herr Kaiser: Germans with noble-sounding surnames more often work as managers than as employees. Psychological Science, 24(12), 2437-2444. doi:10.1177/0956797613494851
Silberzahn, R., & Uhlmann, E. L. (2015). Crowdsourced research: Many hands make tight work. Nature, 526(7572), 189-191. doi:10.1038/526189a
Silberzahn, R., Simonsohn, U., & Uhlmann, E. L. (2014). Matched-Names Analysis Reveals No Evidence of Name-Meaning Effects: A collaborative commentary on Silberzahn and Uhlmann (2013). Psychological Science, 25(7), 1504-1505. doi:10.1177/0956797614533802
Smith, D. M., & Faddy, M. J. (2016). Mean and Variance Modeling of Under and Overdispersed Count Data. Journal of statistical Software, 69(6), 1-23. doi:10.18637/jss.v069.i06
Steele, F. Multilevel models for longitudinal data. Centre of Multilevel Modelling, University of Bristol, 2017. Acesso em 01/08/2021 em https://www.bristol.ac.uk/media-library/sites/cmm/migrated/documents/longitudinal.pdf
Sullivan, J. (26 de Fevereiro de 2013). How Google Is Using People Analytics to Completely Reinvent HR. Fonte: https://www.tlnt.com/how-google-is-using-people-analytics-to-completely-reinvent-hr/
Sun, H. (2013). A Longitudinal Study of Herd Behavior in the Adoption and Continued Use of Technology. Management Information Systems Quarterly, 37(4), 1013-1041. doi:10.25300/MISQ/2013/37.4.02
Tabachnick, B. G.; Fidell, L. S. Using multivariate statistics. 6. ed. Boston: Pearson, 2013.
Taddy, M. (2013). Distributed Multinomial Regression. The Annals of Applied Statistics, 9(3), 1394-1414. doi:10.1214/15-AOAS831
Vuong, Q. (1989). Likelihood Ratio Tests for Model Selection and Non-Nested Hypotheses. Econometrica, 57(2), 307-333. doi:10.2307/1912557
West, B. T.; Welch, K. B.; Gałecki, A. T. Linear mixed models: a pratical guide using statistical software. 2. ed. Boca Raton: Chapman & Hall / CRC Press, 2015.
Wooldridge, J. M. (2010). Econometric Analysis of Cross Section and Panel Data. Cambridge, MA, USA: MIT Press.
Zeviani, W. M., Ribeiro Jr, P. J., Bonat, W. H., Shimakura, S., & Muniz, J. A. (2013). The Gamma-Count Distribution in the Analysis of Experimental Underdispersed Data. Journal of Applied Statistics, 41(12), 2616-2626. doi:10.1080/02664763.2014.922168

Carga Horária:

73 horas

Tipo:

Obrigatória

Vagas oferecidas:

300

Ministrantes:

Helder Prado Santos
Luiz Paulo Lopes Favero
Wilson Tarantin Júnior

voltar