Atividade

124633 - Análise de Dados com Software R

Período da turma: 13/09/2024 a 07/02/2025

Selecione um horário para exibir no calendário:
 
 
Descrição: Estruturas de Bancos de Dados, Tipos de Variáveis e Escalas de Mensuração

Introdução ao Software R

Manuseio do R e Plataforma Gráfica

Clustering e Análise de Agrupamentos
Definição de Medidas de Dissimilaridade em Análise de Clusters; Esquemas de Aglomeração; Análise de Clusters com Esquemas de Aglomeração Hierárquicos; Análise de Clusters K-means; Elaboração de Exercícios e Aplicação de Scripts em Bases de Dados Reais.

Análise Fatorial e PCA - Principal Component Analysis
Redução Dimensional e Conceito de Fator; Adequação Global da Análise; Cargas e Scores Fatoriais; Elaboração de Rankings e Mapas de Correlação para Variáveis; Elaboração de Exercícios e Aplicação de Scripts em Bases de Dados Reais.

Análise de Correspondência Simples e Múltipla
Associação entre Variáveis Qualitativas; Anacor e ACM; Definição de Scores e Elaboração de Mapas Perceptuais; Elaboração de Exercícios e Aplicação de Scripts em Bases de Dados Reais.

Exercícios de Exploratory Analytics

Regressão Simples e Múltipla
Estimação do Modelo de Regressão Linear por MQO; Poder Explicativo do Modelo de Regressão; A Significância Geral do Modelo e dos Parâmetros; Intervalos de Confiança dos Parâmetros e Previsão; Variáveis Dummy em Modelos de Regressão; Elaboração de Exercícios e Aplicação de Scripts em Bases de Dados Reais.

Modelos Logísticos Binários e Multinomiais
Estimação por ML; Significância Geral do Modelo e dos Parâmetros; Cutoff e Análise de Sensibilidade; Métricas de Desempenho (Matriz de Confusão, Sensitividade, Especificidade, Curva de Sensibilidade, ROC e GINI); Construção de Gráficos Multinomiais; Elaboração de Exercícios e Aplicação de Scripts em Bases de Dados Reais.

Modelos para Dados de Contagem
Conceito de Exposição; Modelo Poisson; Modelo Binomial Negativo e Existência de Superdispersão nos Dados; Elaboração de Exercícios e Aplicação de Scripts em Bases de Dados Reais.

Exercícios de Predictive Analytics

Outros Modelos de Machine Learning
Árvores de Decisão; Bagging; Boosting; Random Forest; Redes Neurais; Overfitting; Elaboração de Exercícios e Aplicação de Scripts em Bases de Dados Reais.
BIBLIOGRAFIA

Agresti, A. (2013). Categorical Data Analysis. Hoboken, NJ: John Wiley & Sons.
Belgiu, M., & Dragut, L. (2016). Random forest in remote sensing: A review of applications and future directions. ISPRS Journal of Photogrammetry and Remote Sensing, 114, 24-31. doi:10.1016/j.isprsjprs.2016.01.011
Bell, R. M., Koren, Y., & Volinsky, C. (2010). All Together Now: A perspective on the Netflix Prize. Chance, 23(1), 24-29. doi:10.1080/09332480.2010.10739787
Billor, N., Hadi, A. S., & Velleman, P. F. (2000). BACON: Blocked adaptative computationally efficient outlier nominator. Computational Statistics & Data Analysis, 34(3), 279-298. doi:10.1016/S0167-9473(99)00101-2
Blackburn, M. L. (2014). The Relative Performance of Poisson and Negative Binomial Regression Estimators. Oxford Bulletin of Economics & Statistic, 77(4), 605-616. doi:10.1111/obes.12074
Cameron, A. C., & Trivedi, P. K. (1990). Regression-Based Tests for Overdispersion in the Poisson Model. Journal of Econometrics, 46(3), 347-364. doi:10.1016/0304-4076(90)90014-K
Cameron, A. C., & Trivedi, P. K. (2005). Microeconomics: Methods and applications. Cambridge, UK: Cambridge University Press.
Cameron, A. C., & Trivedi, P. K. (2013). Regression Analysis of Count Data. Cambridge, UK: Cambridge University Press.
Desmarais, B. A., & Harden, J. J. (2013). Testing for Zero Inflation in Count Models: Bias correction for the Vuong Test. Stata Journal, 13(4), 810-835. doi:10.1177/1536867X1301300408
Du, P., Samat, A., Waske, B., Liu, S., & Li, Z. (2015). Random forest and rotation forest for fully polarized SAR image classification using polarimetric and spatial features. ISPRS Journal of Photogrammetry and Remote Sensing, 105, 38-53. doi:10.1016/j.isprsjprs.2015.03.002
Dupuy, J. -F. (2018). Statistical Methods for Overdispersed Count Data. London: ISTE Press - Elsevier.
Edwards, M. R., & Edwards, K. (2019). Predictive HR analytics: Mastering the HR metric. Londres, Reino Unido: Kogan Page.
Everitt, B., & Hothorn, T. (2011). An Introduction to Applied Multivariate Analysis with R. Baltimore, MD, USA: Springer.
Falletta, S. (2014). In search of HR intelligence: Evidence-based HR Analytics practices in high performing companies. People & Strategy, 36(4), 28-37.
Fávero, L. P. & Belfiore, P. (2017). “Manual de Análise de Dados: Estatística e Modelagem Multivariada”. Rio de Janeiro: Elsevier.
Fávero, L. P., & Belfiore, P. (2019). "Data Science for Business and Decision Making". Cambridge, MA: Academic Press Elsevier.
Garson, G. D. (2016). Logistic Regression: binary & multinomial. Asheboro, NC: Statistical Associates Publishing.
Gislason, P. O., Benediktsson, J. A., & Sveinsson, J. R. (2006). Random Forests for land cover classification. Pattern Recognition Letters, 27(4), 294-300. doi:10.1016/j.patrec.2005.08.011
Greenacre, M. (2017). Correspondence Analysis in Practice. Barcelona, Espanha: CRC Press.
Greene, W. H. (2019). "Econometric Analysis". Harlow, UK: Pearson.
Grolemund, G., & Wickham, H. (2014). Hands-On Programming with R: Write your own functions and simulations. Sebastopol, CA, USA: O'Reilly Media.
Grolemund, G., & Wickham, H. (2016). R for Data Science. Sebastopol, CA, USA: O'Reilly Media.
Gujarati, D. N., & Porter, D. C. (2012). "Econometria Básica". Nova Iorque, NY: McGraw-Hill.
Hair, J. F., Black, W. C., Babin, B. J., Anderson, R. E., & Tatham, R. L. (2009). Análise Multivariada de Dados. Porto Alegre: Bookman.
Heumann, C., & Shalabh, M. S. (2016). Introduction to Statistics and Data Analysis. Cham, Switzerland: Springer.
Hilbe, J. M. (2011). Negative-Binomial Regression. Cambridge, UK: Cambridge University Press.
Hilbe, J. M. (2014). Logistic Regression Models. Boca Raton, FL: CRC Press.
Hosmer, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied Logistic Regression. Nova Iorque, NY: John Wiley & Sons.
Johnson, R. A., & Wichern, D. W. (2007). Applied Multivariate Statistical Analysis. Upper Saddle River, NJ, EUA: Pearson Education.
Kelleher, J. D., Namee, B. M., & D'Arcy, A. (2015). Fundamentals of Machine Learning for Predictive Data Analysis. Massachusetts, EUA: MIT Press.
Klakattawi, H. S., Vinciotti, V., & Yu, K. (2018). A Simple and Adaptive Dispersion Regression Model for Count Data. Entropy, 20(2), 141-156. doi:10.3390/e20020142
Lambert, D. (1992). Zero-Inflated Poisson Regression, with an Application to Defects in Manufacturing. Technometrics, 34(1), 1-14. doi:10.1080/00401706.1992.10485228
Lander, J. P. (2014). R for Everyone: Advanced Analytics and Graphics. Boston, MA, USA: Addison Wesley.
Lantz, B. (2019). Machine Learning with R. Birmingham, UK: Packt.
Lesmeister, C., & Chinnamgari, S. (2019). Advanced Machine Learning with R. Birmingham, UK: Packt.
Mortensen, M., Doherty, N., & Robinson, S. (2015). Operational Research from Taylorism to Terabytes: a research agenda for the analytics age. European Journal of Operational Research, 241(3), 583-595. doi:10.1016/j.ejor.2014.08.029
Oliveira, P. F., Guerra, S., & McDonell, R. (2018). Ciência de Dados com R. Brasília, DF, Brazil: IBPAD.
Park, I. -U., Peacey, M. W., & Munafò, M. R. (2014). Modelling the Effects of Subjective and Objective Decision Making in Scientific Peer Review. Nature, 506(7486), 93-96. doi:10.1038/nature12786
Payne, E. H., Gebregziabher, M., Hardin, J., Ramakrishnan, V., & Egede, L. E. (2018). An Empirical Approach to Determine a Threshold for Assessing Overdispersion in Poisson and Negative Binomial Models for Count Data. Communications in Statistics - Simulation and Computation, 47(6), 1722-1738. doi:10.1080/03610918.2017.1323223
Payne, E. H., Hardin, J., Egede, L. E., Ramakrishnan, V., Selassie, A. W., & Gebregziabher, M. (2015). Approaches for Dealing with Various Sources of Overdispersion in Modeling Count Data: Scale adjustment versus modeling. Statistical Methods in Medical Research, 26(4), 1802-1823. doi:10.1177/0962280215588569
Ramsey, J. B. (1969). "Tests for Specification Error in Classical Linear Least Squares Regression Analysis". Journal of the Royal Statistical Society, 31(2), 350-371.
Salcedo, J. (2019). Machine Learning for Data Mining. Birmingham, UK: Packt.
Shannon, C. E. (1948). A Mathematical Theory of Communication. The Bell System Technical Journal, 27(3), 379-423. doi:10.1002/j.1538-7305.1948.tb01338.x
Sharpe, N. R., De Veaux, R. D., & Velleman, P. F. (2011). Estatística Aplicada: Administração, Economia e Negócios. Porto Alegre, RS: Bookman.
Shmueli, G., Bruce, P. C., Yahav, I., Patel, N. R., & Lichtendanl, K. C. (2018). Data Mining for Business Analytics. Nova Jérsei, NY: John Wiley & Sons.
Silberzahn, R., & Uhlmann, E. L. (2013). It Pays to Be Herr Kaiser: Germans with noble-sounding surnames more often work as managers than as employees. Psychological Science, 24(12), 2437-2444. doi:10.1177/0956797613494851
Silberzahn, R., & Uhlmann, E. L. (2015). Crowdsourced research: Many hands make tight work. Nature, 526(7572), 189-191. doi:10.1038/526189a
Silberzahn, R., Simonsohn, U., & Uhlmann, E. L. (2014). Matched-Names Analysis Reveals No Evidence of Name-Meaning Effects: A collaborative commentary on Silberzahn and Uhlmann (2013). Psychological Science, 25(7), 1504-1505. doi:10.1177/0956797614533802
Smith, D. M., & Faddy, M. J. (2016). Mean and Variance Modeling of Under and Overdispersed Count Data. Journal of statistical Software, 69(6), 1-23. doi:10.18637/jss.v069.i06
Strickland, J. (2014). Predictive Analytics Using R. Colorado Springs, CO, USA: Simulation Educators.
Sullivan, J. (26 de Fevereiro de 2013). How Google Is Using People Analytics to Completely Reinvent HR. Fonte: https://www.tlnt.com/how-google-is-using-people-analytics-to-completely-reinvent-hr/
Sun, H. (2013). A Longitudinal Study of Herd Behavior in the Adoption and Continued Use of Technology. Management Information Systems Quarterly, 37(4), 1013-1041. doi:10.25300/MISQ/2013/37.4.02
Surowiecki, J. (2005). The Wisdom of Crowds. New York, NY, USA: Anchor Books.
Taddy, M. (2013). Distributed Multinomial Regression. The Annals of Applied Statistics, 9(3), 1394-1414. doi:10.1214/15-AOAS831
Teetor, P. (2011). R Cookbook. Sebastopol, CA, USA: O'Reilly.
Vuong, Q. (1989). Likelihood Ratio Tests for Model Selection and Non-Nested Hypotheses. Econometrica, 57(2), 307-333. doi:10.2307/1912557
Weber, S. (2010). BACON: an effective way to detect outliers in multivariate data using Stata (and Mata). Stata Journal, 10(3), 331-338. doi:10.1177/1536867X1001000302
Wooldridge, J. M. (2010). Econometric Analysis of Cross Section and Panel Data. Cambridge, MA, USA: MIT Press.
Zeviani, W. M., Ribeiro Jr, P. J., Bonat, W. H., Shimakura, S., & Muniz, J. A. (2013). The Gamma-Count Distribution in the Analysis of Experimental Underdispersed Data. Journal of Applied Statistics, 41(12), 2616-2626. doi:10.1080/02664763.2014.922168

Carga Horária:

73 horas
Tipo: Obrigatória
Vagas oferecidas: 300
 
Ministrantes: Helder Prado Santos
Luiz Paulo Lopes Favero
Wilson Tarantin Júnior


 
 voltar

Créditos
© 1999 - 2025 - Superintendência de Tecnologia da Informação/USP