124633 - Análise de Dados com Software R |
Período da turma: | 13/09/2024 a 07/02/2025
|
||||
|
|||||
Descrição: | Estruturas de Bancos de Dados, Tipos de Variáveis e Escalas de Mensuração
Introdução ao Software R Manuseio do R e Plataforma Gráfica Clustering e Análise de Agrupamentos Definição de Medidas de Dissimilaridade em Análise de Clusters; Esquemas de Aglomeração; Análise de Clusters com Esquemas de Aglomeração Hierárquicos; Análise de Clusters K-means; Elaboração de Exercícios e Aplicação de Scripts em Bases de Dados Reais. Análise Fatorial e PCA - Principal Component Analysis Redução Dimensional e Conceito de Fator; Adequação Global da Análise; Cargas e Scores Fatoriais; Elaboração de Rankings e Mapas de Correlação para Variáveis; Elaboração de Exercícios e Aplicação de Scripts em Bases de Dados Reais. Análise de Correspondência Simples e Múltipla Associação entre Variáveis Qualitativas; Anacor e ACM; Definição de Scores e Elaboração de Mapas Perceptuais; Elaboração de Exercícios e Aplicação de Scripts em Bases de Dados Reais. Exercícios de Exploratory Analytics Regressão Simples e Múltipla Estimação do Modelo de Regressão Linear por MQO; Poder Explicativo do Modelo de Regressão; A Significância Geral do Modelo e dos Parâmetros; Intervalos de Confiança dos Parâmetros e Previsão; Variáveis Dummy em Modelos de Regressão; Elaboração de Exercícios e Aplicação de Scripts em Bases de Dados Reais. Modelos Logísticos Binários e Multinomiais Estimação por ML; Significância Geral do Modelo e dos Parâmetros; Cutoff e Análise de Sensibilidade; Métricas de Desempenho (Matriz de Confusão, Sensitividade, Especificidade, Curva de Sensibilidade, ROC e GINI); Construção de Gráficos Multinomiais; Elaboração de Exercícios e Aplicação de Scripts em Bases de Dados Reais. Modelos para Dados de Contagem Conceito de Exposição; Modelo Poisson; Modelo Binomial Negativo e Existência de Superdispersão nos Dados; Elaboração de Exercícios e Aplicação de Scripts em Bases de Dados Reais. Exercícios de Predictive Analytics Outros Modelos de Machine Learning Árvores de Decisão; Bagging; Boosting; Random Forest; Redes Neurais; Overfitting; Elaboração de Exercícios e Aplicação de Scripts em Bases de Dados Reais. BIBLIOGRAFIA Agresti, A. (2013). Categorical Data Analysis. Hoboken, NJ: John Wiley & Sons. Belgiu, M., & Dragut, L. (2016). Random forest in remote sensing: A review of applications and future directions. ISPRS Journal of Photogrammetry and Remote Sensing, 114, 24-31. doi:10.1016/j.isprsjprs.2016.01.011 Bell, R. M., Koren, Y., & Volinsky, C. (2010). All Together Now: A perspective on the Netflix Prize. Chance, 23(1), 24-29. doi:10.1080/09332480.2010.10739787 Billor, N., Hadi, A. S., & Velleman, P. F. (2000). BACON: Blocked adaptative computationally efficient outlier nominator. Computational Statistics & Data Analysis, 34(3), 279-298. doi:10.1016/S0167-9473(99)00101-2 Blackburn, M. L. (2014). The Relative Performance of Poisson and Negative Binomial Regression Estimators. Oxford Bulletin of Economics & Statistic, 77(4), 605-616. doi:10.1111/obes.12074 Cameron, A. C., & Trivedi, P. K. (1990). Regression-Based Tests for Overdispersion in the Poisson Model. Journal of Econometrics, 46(3), 347-364. doi:10.1016/0304-4076(90)90014-K Cameron, A. C., & Trivedi, P. K. (2005). Microeconomics: Methods and applications. Cambridge, UK: Cambridge University Press. Cameron, A. C., & Trivedi, P. K. (2013). Regression Analysis of Count Data. Cambridge, UK: Cambridge University Press. Desmarais, B. A., & Harden, J. J. (2013). Testing for Zero Inflation in Count Models: Bias correction for the Vuong Test. Stata Journal, 13(4), 810-835. doi:10.1177/1536867X1301300408 Du, P., Samat, A., Waske, B., Liu, S., & Li, Z. (2015). Random forest and rotation forest for fully polarized SAR image classification using polarimetric and spatial features. ISPRS Journal of Photogrammetry and Remote Sensing, 105, 38-53. doi:10.1016/j.isprsjprs.2015.03.002 Dupuy, J. -F. (2018). Statistical Methods for Overdispersed Count Data. London: ISTE Press - Elsevier. Edwards, M. R., & Edwards, K. (2019). Predictive HR analytics: Mastering the HR metric. Londres, Reino Unido: Kogan Page. Everitt, B., & Hothorn, T. (2011). An Introduction to Applied Multivariate Analysis with R. Baltimore, MD, USA: Springer. Falletta, S. (2014). In search of HR intelligence: Evidence-based HR Analytics practices in high performing companies. People & Strategy, 36(4), 28-37. Fávero, L. P. & Belfiore, P. (2017). “Manual de Análise de Dados: Estatística e Modelagem Multivariada”. Rio de Janeiro: Elsevier. Fávero, L. P., & Belfiore, P. (2019). "Data Science for Business and Decision Making". Cambridge, MA: Academic Press Elsevier. Garson, G. D. (2016). Logistic Regression: binary & multinomial. Asheboro, NC: Statistical Associates Publishing. Gislason, P. O., Benediktsson, J. A., & Sveinsson, J. R. (2006). Random Forests for land cover classification. Pattern Recognition Letters, 27(4), 294-300. doi:10.1016/j.patrec.2005.08.011 Greenacre, M. (2017). Correspondence Analysis in Practice. Barcelona, Espanha: CRC Press. Greene, W. H. (2019). "Econometric Analysis". Harlow, UK: Pearson. Grolemund, G., & Wickham, H. (2014). Hands-On Programming with R: Write your own functions and simulations. Sebastopol, CA, USA: O'Reilly Media. Grolemund, G., & Wickham, H. (2016). R for Data Science. Sebastopol, CA, USA: O'Reilly Media. Gujarati, D. N., & Porter, D. C. (2012). "Econometria Básica". Nova Iorque, NY: McGraw-Hill. Hair, J. F., Black, W. C., Babin, B. J., Anderson, R. E., & Tatham, R. L. (2009). Análise Multivariada de Dados. Porto Alegre: Bookman. Heumann, C., & Shalabh, M. S. (2016). Introduction to Statistics and Data Analysis. Cham, Switzerland: Springer. Hilbe, J. M. (2011). Negative-Binomial Regression. Cambridge, UK: Cambridge University Press. Hilbe, J. M. (2014). Logistic Regression Models. Boca Raton, FL: CRC Press. Hosmer, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied Logistic Regression. Nova Iorque, NY: John Wiley & Sons. Johnson, R. A., & Wichern, D. W. (2007). Applied Multivariate Statistical Analysis. Upper Saddle River, NJ, EUA: Pearson Education. Kelleher, J. D., Namee, B. M., & D'Arcy, A. (2015). Fundamentals of Machine Learning for Predictive Data Analysis. Massachusetts, EUA: MIT Press. Klakattawi, H. S., Vinciotti, V., & Yu, K. (2018). A Simple and Adaptive Dispersion Regression Model for Count Data. Entropy, 20(2), 141-156. doi:10.3390/e20020142 Lambert, D. (1992). Zero-Inflated Poisson Regression, with an Application to Defects in Manufacturing. Technometrics, 34(1), 1-14. doi:10.1080/00401706.1992.10485228 Lander, J. P. (2014). R for Everyone: Advanced Analytics and Graphics. Boston, MA, USA: Addison Wesley. Lantz, B. (2019). Machine Learning with R. Birmingham, UK: Packt. Lesmeister, C., & Chinnamgari, S. (2019). Advanced Machine Learning with R. Birmingham, UK: Packt. Mortensen, M., Doherty, N., & Robinson, S. (2015). Operational Research from Taylorism to Terabytes: a research agenda for the analytics age. European Journal of Operational Research, 241(3), 583-595. doi:10.1016/j.ejor.2014.08.029 Oliveira, P. F., Guerra, S., & McDonell, R. (2018). Ciência de Dados com R. Brasília, DF, Brazil: IBPAD. Park, I. -U., Peacey, M. W., & Munafò, M. R. (2014). Modelling the Effects of Subjective and Objective Decision Making in Scientific Peer Review. Nature, 506(7486), 93-96. doi:10.1038/nature12786 Payne, E. H., Gebregziabher, M., Hardin, J., Ramakrishnan, V., & Egede, L. E. (2018). An Empirical Approach to Determine a Threshold for Assessing Overdispersion in Poisson and Negative Binomial Models for Count Data. Communications in Statistics - Simulation and Computation, 47(6), 1722-1738. doi:10.1080/03610918.2017.1323223 Payne, E. H., Hardin, J., Egede, L. E., Ramakrishnan, V., Selassie, A. W., & Gebregziabher, M. (2015). Approaches for Dealing with Various Sources of Overdispersion in Modeling Count Data: Scale adjustment versus modeling. Statistical Methods in Medical Research, 26(4), 1802-1823. doi:10.1177/0962280215588569 Ramsey, J. B. (1969). "Tests for Specification Error in Classical Linear Least Squares Regression Analysis". Journal of the Royal Statistical Society, 31(2), 350-371. Salcedo, J. (2019). Machine Learning for Data Mining. Birmingham, UK: Packt. Shannon, C. E. (1948). A Mathematical Theory of Communication. The Bell System Technical Journal, 27(3), 379-423. doi:10.1002/j.1538-7305.1948.tb01338.x Sharpe, N. R., De Veaux, R. D., & Velleman, P. F. (2011). Estatística Aplicada: Administração, Economia e Negócios. Porto Alegre, RS: Bookman. Shmueli, G., Bruce, P. C., Yahav, I., Patel, N. R., & Lichtendanl, K. C. (2018). Data Mining for Business Analytics. Nova Jérsei, NY: John Wiley & Sons. Silberzahn, R., & Uhlmann, E. L. (2013). It Pays to Be Herr Kaiser: Germans with noble-sounding surnames more often work as managers than as employees. Psychological Science, 24(12), 2437-2444. doi:10.1177/0956797613494851 Silberzahn, R., & Uhlmann, E. L. (2015). Crowdsourced research: Many hands make tight work. Nature, 526(7572), 189-191. doi:10.1038/526189a Silberzahn, R., Simonsohn, U., & Uhlmann, E. L. (2014). Matched-Names Analysis Reveals No Evidence of Name-Meaning Effects: A collaborative commentary on Silberzahn and Uhlmann (2013). Psychological Science, 25(7), 1504-1505. doi:10.1177/0956797614533802 Smith, D. M., & Faddy, M. J. (2016). Mean and Variance Modeling of Under and Overdispersed Count Data. Journal of statistical Software, 69(6), 1-23. doi:10.18637/jss.v069.i06 Strickland, J. (2014). Predictive Analytics Using R. Colorado Springs, CO, USA: Simulation Educators. Sullivan, J. (26 de Fevereiro de 2013). How Google Is Using People Analytics to Completely Reinvent HR. Fonte: https://www.tlnt.com/how-google-is-using-people-analytics-to-completely-reinvent-hr/ Sun, H. (2013). A Longitudinal Study of Herd Behavior in the Adoption and Continued Use of Technology. Management Information Systems Quarterly, 37(4), 1013-1041. doi:10.25300/MISQ/2013/37.4.02 Surowiecki, J. (2005). The Wisdom of Crowds. New York, NY, USA: Anchor Books. Taddy, M. (2013). Distributed Multinomial Regression. The Annals of Applied Statistics, 9(3), 1394-1414. doi:10.1214/15-AOAS831 Teetor, P. (2011). R Cookbook. Sebastopol, CA, USA: O'Reilly. Vuong, Q. (1989). Likelihood Ratio Tests for Model Selection and Non-Nested Hypotheses. Econometrica, 57(2), 307-333. doi:10.2307/1912557 Weber, S. (2010). BACON: an effective way to detect outliers in multivariate data using Stata (and Mata). Stata Journal, 10(3), 331-338. doi:10.1177/1536867X1001000302 Wooldridge, J. M. (2010). Econometric Analysis of Cross Section and Panel Data. Cambridge, MA, USA: MIT Press. Zeviani, W. M., Ribeiro Jr, P. J., Bonat, W. H., Shimakura, S., & Muniz, J. A. (2013). The Gamma-Count Distribution in the Analysis of Experimental Underdispersed Data. Journal of Applied Statistics, 41(12), 2616-2626. doi:10.1080/02664763.2014.922168 |
||||
Carga Horária: |
73 horas |
||||
Tipo: | Obrigatória | ||||
Vagas oferecidas: | 300 | ||||
Ministrantes: |
Helder Prado Santos Luiz Paulo Lopes Favero Wilson Tarantin Júnior |
![]() |
Créditos © 1999 - 2025 - Superintendência de Tecnologia da Informação/USP |