Capítulo 1 Introdução
Você pode ter se perguntado por que as pessoas se comportam da maneira que fazem (psicologia), por que os comportamentos diferem entre as culturas (antropologia), como as empresas maximizam seu lucro (negócios), como os dinossauros morreram (paleontologia), comer tomates protegem contra o câncer (medicina, biologia), é possível construir um computador quântico (física, química), o planeta está mais quente do que costumava ser e em que regiões (geografia, estudos ambientais)? Seja o que for que você esteja estudando ou pesquisando, o motivo pelo qual você está estudando é provavelmente porque está interessado em responder perguntas. Os cientistas são pessoas curiosas e você provavelmente também (Field, Miles, and Field 2012).
No entanto, você pode não ter ainda atentado para o fato de que, para responder essas perguntas interessantes, você precisa de duas coisas: dados e uma explicação sobre esses dados. Portanto, para tarefa dessa natureza, você precisa de dados, eles são vitais no processo de pesquisa. Claro que existem outras formas de dados além de números que podem ser usados para testar e gerar teorias. No entanto, quando os números estão envolvidos, a pesquisa envolve métodos quantitativos (Field, Miles, and Field 2012). Nesse tutorial, com base na obra de (Field, Miles, and Field 2012), revisaremos de forma aplicado no R alguns dos conceitos fundamentais sobre métodos quantitativos para análise de dados.
1.1 Software R
R é uma ferramenta para análise de dados e visualização de dados. É uma ferramenta open-source disponível sob a licença GNU (GNU is Not Unix) GPL3. Por meio dessa linguagem de programação o cientista de dados pode criar suas próprias funções para análise de dados ou pode utilizar-se de um vasto arcabouço de pacotes com a finalidade de processar determinados tipos de análises que são desenvolvidos por outros profissionais e que são validados pela R Foundation e disponilizados oficialmente no repositório The Comprehensive R Archive Network - CRAN. Em 2024-07-03 havia NA pacotes oficiais disponíveis. Esse arcabouço é constantemente incrementado pela comunidade de programadores em R ao redor do mundo, o que permite uma crescente robustez da linguegem R ao longo do tempo.
Para realizar o download o posterior instalação do software R em seu computador, utilize o link seguir:
1.2 RStudio
O RStudio é um ambiente de desenvolvimento integrado ao R. Por meio do RStudio tem-se uma interface potente para explorar de forma intuitiva e ágil todos os recursos do R, bem como até integrá-los com recursos de outras linguagens de programação. Diante disso, recomenda-se que o o uso do software R seja realizado por meio do RSutdio. Para realizar o download o posterior instalação do RStudio em seu computador, utilize o link seguir:
Exercício 1.1 Para uma introdução aos conceitos básicos de R, assita aos vídeos disponíveis na playlist Ciência de Dados em software livre desenvolvida pelo Professor Filipe Zabala da Escola Politécnica da Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS).
1.3 Instalando pacotes
Além dos pacotes que são instalados por padrão quando você instala o software R, alguns pacotes adicionais que serão utilizados neste curso podem ser instalados e atualizados (sempre que necessário, quando uma nova versão estiver disponível no CRAN) utilizando-se o código abaixo.
# pacotes adicionais utilizados no curso
chooseCRANmirror(ind = 11) # Brazil
install.packages('DescTools')
install.packages('tidyverse')
install.packages('pracma')
install.packages('car')
install.packages('corrplot')
install.packages('psych')
install.packages("corpcor")
install.packages("GPArotation")
Cada pacote precisa ser instalado apenas uma vez utilizando o código acima. Uma vez instalado, a cada vez que você abrir uma nova sessão trabalho no R bastará apenas carregar os pacotes já intalados utilizando o código abaixo.
1.4 Materiais de apoio
1.4.1 Livros digitais sobre estatística básica e estatística avançada aplicadas no R
Além do livro de (Field, Miles, and Field 2012), recomenda-se também os livros digitais aplicados no R sobre estatística básica e sobre estatística avançada escritos pelo Professor Filipe Zabala.
1.4.2 Khan Academy
A Khan Academy[^khan] é uma organização sem fins lucrativos com a missão de oferecer uma educação gratuita de alta qualidade para qualquer pessoa, em qualquer lugar. Nessa plataforma online é possível realizar uma série de cursos de qualificação sobre métodos quantitativos e programação e R.
1.4.3 UFPR
Departamento de Estatística (DEST) da UFPR disponibiliza vídeos de estatística básica para seus cursos. Os vídeos podem ser acessados em http://www.leg.ufpr.br/estbas. Dentro do programa de disciplinas transversais da PRPPG-Pró-Reitoria de Pesquisa e Pós-Graduação são também disponibilizados alguns vídeos em http://www.leg.ufpr.br/~paulojus/transversal2021/ sob a coordenação do Prof. Paulo Justiniano Ribeiro Junior.
1.4.4 UFSCAR
https://www.youtube.com/@rafaelstern https://www.rafaelstern.science http://www.rizbicki.ufscar.br
1.4.5 USP
https://www.youtube.com/@juliomichaelstern4668 https://www.youtube.com/@ACienciadaEstatistica
1.4.6 Seeing theory
Seeing Theory é um site criado com o intuito de tornar a Estatística mais acessível por meio de visualizações interativas. Foi criado por Daniel Kunin durante sua graduação na Brown University.
1.4.7 UCI Machine Learning Repository
O Repositório de Aprendizado de Máquina da Universidade da Califórnia Irvine mantém mais de 600 conjuntos de dados como um serviço para a comunidade de aprendizado de máquina. É possível visualizar todos os conjuntos de dados por meio de uma interface pesquisável, bastando referenciar o material utilizado de acordo com a política de citações.
References
A Licença Pública Geral GNU é um tipo de licença utilizada para software livre, que garante aos usuários finais (indivíduos, organizações ou empresas) a liberdade de usar, estudar, compartilhar e modificar o software.↩︎