Explorar
Quan tenim al davant un marc de dades el primer que ens hem de preguntar són qüestions generals sobre la seva estructura. Per exemple:
- Quina és la unitat d’anàlisi?
- Quantes observacions té?
- Quantes columnes/variables té? Quines són aquestes variables? De quin tipus són?
En aquest apartat explorarem el marc de dades gapminder
que es troba dins el paquet que porta el mateix nom.
#recordeu que els paquets han d'estar prèviament instal·lats
library(gapminder)
library(dplyr)
Exploració del marc de dades
Podem imprimir el marc de dades simplement teclejant el nom gapminder
o bé visualitzar les sis primeres files amb head(gapminder)
. Amb tail(gapminder)
visualitzarem les darreres sis files.
head(gapminder)
country | continent | year | lifeExp | pop | gdpPercap |
---|---|---|---|---|---|
Afghanistan | Asia | 1952 | 28.801 | 8425333 | 779.4453 |
Afghanistan | Asia | 1957 | 30.332 | 9240934 | 820.8530 |
Afghanistan | Asia | 1962 | 31.997 | 10267083 | 853.1007 |
Afghanistan | Asia | 1967 | 34.020 | 11537966 | 836.1971 |
Afghanistan | Asia | 1972 | 36.088 | 13079460 | 739.9811 |
Afghanistan | Asia | 1977 | 38.438 | 14880372 | 786.1134 |
En marc de dades de dimensions considerables podrem veure més informació si els visualitzem de forma horitzontal, amb les columnes a l’esquerra i les files a dalt. Podem fer-ho amb el paquet str()
o bé, preferiblement, amb el paquet glimpse()
:
glimpse(gapminder)
## Rows: 1,704
## Columns: 6
## $ country <fct> "Afghanistan", "Afghanistan", "Afghanistan", "Afghanistan", …
## $ continent <fct> Asia, Asia, Asia, Asia, Asia, Asia, Asia, Asia, Asia, Asia, …
## $ year <int> 1952, 1957, 1962, 1967, 1972, 1977, 1982, 1987, 1992, 1997, …
## $ lifeExp <dbl> 28.801, 30.332, 31.997, 34.020, 36.088, 38.438, 39.854, 40.8…
## $ pop <int> 8425333, 9240934, 10267083, 11537966, 13079460, 14880372, 12…
## $ gdpPercap <dbl> 779.4453, 820.8530, 853.1007, 836.1971, 739.9811, 786.1134, …
En qualsevol cas, per a l’exploració de marcs de dades sempre ens serà útil acompanyar-nos del seu llibre de codis, que ens aportarà informació detallada de les seves característiques.
- En els marcs de dades procedents de paquets, com és el cas de
gapminder
, porten incorporats en algunes ocasions un petit llibre de codis. L’obtindrem teclejant?gapminder
. - En els marcs de dades procedents d’altres bases de dades, normalment haurem de descarregar el llibre de codis de la mateixa web.
Exploració de les variables
Per observar el contingut d’una variable hem d’introduir nom de la base de dades, seguit del símbol $
i del nom de la variable en qüestió:
gapminder$country
Amb gapminder$country
obtindrem un vector amb totes les observacions de la variable. Normalment preferirem informació simplificada, de manera que aplicarem alguna funció com les següents:
- Mirem els valors únics d’una variable amb
unique()
(retorna un vector). - Mirem la longitud d’un vector amb
length()
- Mirem el nombre de categories diferents d’una variable amb
distinct()
(retorna un marc de dades). - Mirem el nombre de valors únics d’una variable amb
n_distinct()
. - Mirem la freqüència de valors per cada categoria d’una variable amb
count()
.
Proveu els següents codis:
unique(gapminder$year)
length(gapminder$year)
n_distinct(gapminder$continent)
distinct(gapminder, continent)
count(gapminder, continent)
Una funció que ens pot resultar molt útil és summary()
, que ens retorna els estadístics descriptius de tot el marc de dades o bé d’una variable en concret. Si demanem el sumari de tot el marc de dades amb summary()
, ens retorna el sumari de totes les variables.
summary(gapminder)
## country continent year lifeExp
## Afghanistan: 12 Africa :624 Min. :1952 Min. :23.60
## Albania : 12 Americas:300 1st Qu.:1966 1st Qu.:48.20
## Algeria : 12 Asia :396 Median :1980 Median :60.71
## Angola : 12 Europe :360 Mean :1980 Mean :59.47
## Argentina : 12 Oceania : 24 3rd Qu.:1993 3rd Qu.:70.85
## Australia : 12 Max. :2007 Max. :82.60
## (Other) :1632
## pop gdpPercap
## Min. :6.001e+04 Min. : 241.2
## 1st Qu.:2.794e+06 1st Qu.: 1202.1
## Median :7.024e+06 Median : 3531.8
## Mean :2.960e+07 Mean : 7215.3
## 3rd Qu.:1.959e+07 3rd Qu.: 9325.5
## Max. :1.319e+09 Max. :113523.1
##
Finalment, una eina exploratòria que també podem considerar és la de crear visualitzacions ràpides de cada variable. Podem utilitzar les funcions hist()
, plot()
o boxplot()
. A continuació podeu veure’n alguns exemples:
hist(gapminder$lifeExp)
plot(gapminder$continent)
plot(gapminder$gdpPercap, gapminder$lifeExp)
boxplot(gapminder$continent, gapminder$lifeExp)