Explorar

Quan tenim al davant un marc de dades el primer que ens hem de preguntar són qüestions generals sobre la seva estructura. Per exemple:

  • Quina és la unitat d’anàlisi?
  • Quantes observacions té?
  • Quantes columnes/variables té? Quines són aquestes variables? De quin tipus són?

En aquest apartat explorarem el marc de dades gapminder que es troba dins el paquet que porta el mateix nom.

#recordeu que els paquets han d'estar prèviament instal·lats 
library(gapminder)
library(dplyr)

Exploració del marc de dades

Podem imprimir el marc de dades simplement teclejant el nom gapminder o bé visualitzar les sis primeres files amb head(gapminder). Amb tail(gapminder) visualitzarem les darreres sis files.

head(gapminder)
countrycontinentyearlifeExppopgdpPercap
AfghanistanAsia195228.8018425333779.4453
AfghanistanAsia195730.3329240934820.8530
AfghanistanAsia196231.99710267083853.1007
AfghanistanAsia196734.02011537966836.1971
AfghanistanAsia197236.08813079460739.9811
AfghanistanAsia197738.43814880372786.1134

En marc de dades de dimensions considerables podrem veure més informació si els visualitzem de forma horitzontal, amb les columnes a l’esquerra i les files a dalt. Podem fer-ho amb el paquet str() o bé, preferiblement, amb el paquet glimpse():

glimpse(gapminder)
## Rows: 1,704
## Columns: 6
## $ country   <fct> "Afghanistan", "Afghanistan", "Afghanistan", "Afghanistan", …
## $ continent <fct> Asia, Asia, Asia, Asia, Asia, Asia, Asia, Asia, Asia, Asia, …
## $ year      <int> 1952, 1957, 1962, 1967, 1972, 1977, 1982, 1987, 1992, 1997, …
## $ lifeExp   <dbl> 28.801, 30.332, 31.997, 34.020, 36.088, 38.438, 39.854, 40.8…
## $ pop       <int> 8425333, 9240934, 10267083, 11537966, 13079460, 14880372, 12…
## $ gdpPercap <dbl> 779.4453, 820.8530, 853.1007, 836.1971, 739.9811, 786.1134, …

En qualsevol cas, per a l’exploració de marcs de dades sempre ens serà útil acompanyar-nos del seu llibre de codis, que ens aportarà informació detallada de les seves característiques.

  • En els marcs de dades procedents de paquets, com és el cas de gapminder, porten incorporats en algunes ocasions un petit llibre de codis. L’obtindrem teclejant ?gapminder.
  • En els marcs de dades procedents d’altres bases de dades, normalment haurem de descarregar el llibre de codis de la mateixa web.

Exploració de les variables

Per observar el contingut d’una variable hem d’introduir nom de la base de dades, seguit del símbol $ i del nom de la variable en qüestió:

gapminder$country

Amb gapminder$country obtindrem un vector amb totes les observacions de la variable. Normalment preferirem informació simplificada, de manera que aplicarem alguna funció com les següents:

  • Mirem els valors únics d’una variable amb unique() (retorna un vector).
  • Mirem la longitud d’un vector amb length()
  • Mirem el nombre de categories diferents d’una variable amb distinct() (retorna un marc de dades).
  • Mirem el nombre de valors únics d’una variable amb n_distinct().
  • Mirem la freqüència de valors per cada categoria d’una variable amb count().

Proveu els següents codis:

unique(gapminder$year)
length(gapminder$year)
n_distinct(gapminder$continent)
distinct(gapminder, continent)
count(gapminder, continent)

Una funció que ens pot resultar molt útil és summary(), que ens retorna els estadístics descriptius de tot el marc de dades o bé d’una variable en concret. Si demanem el sumari de tot el marc de dades amb summary(), ens retorna el sumari de totes les variables.

summary(gapminder)
##         country        continent        year         lifeExp     
##  Afghanistan:  12   Africa  :624   Min.   :1952   Min.   :23.60  
##  Albania    :  12   Americas:300   1st Qu.:1966   1st Qu.:48.20  
##  Algeria    :  12   Asia    :396   Median :1980   Median :60.71  
##  Angola     :  12   Europe  :360   Mean   :1980   Mean   :59.47  
##  Argentina  :  12   Oceania : 24   3rd Qu.:1993   3rd Qu.:70.85  
##  Australia  :  12                  Max.   :2007   Max.   :82.60  
##  (Other)    :1632                                                
##       pop              gdpPercap       
##  Min.   :6.001e+04   Min.   :   241.2  
##  1st Qu.:2.794e+06   1st Qu.:  1202.1  
##  Median :7.024e+06   Median :  3531.8  
##  Mean   :2.960e+07   Mean   :  7215.3  
##  3rd Qu.:1.959e+07   3rd Qu.:  9325.5  
##  Max.   :1.319e+09   Max.   :113523.1  
## 

Finalment, una eina exploratòria que també podem considerar és la de crear visualitzacions ràpides de cada variable. Podem utilitzar les funcions hist(), plot() o boxplot(). A continuació podeu veure’n alguns exemples:

hist(gapminder$lifeExp)

plot(gapminder$continent)

plot(gapminder$gdpPercap, gapminder$lifeExp)

boxplot(gapminder$continent, gapminder$lifeExp)

Next