2. Exploració
Els continguts d’aquesta obra formen part d’un encàrrec d’autoria de la Universitat Oberta de Catalunya (Mas 2020) i estan subjectes a la llicència de Creative Commons CC BY-SA 3.0.
Per explicar tots els passos a seguir a l’hora de construir un índex utilitzarem d’exemple l’IDH, creat per Nacions Unides i que ha esdevingut un dels índexs més utilitzats i coneguts en l’àmbit del desenvolupament. Els orígens de l’IDH es remunten als anys 80, quan economistes com Mahbub ul Haq i Amartya Sen van començar a qüestionar el Producte Interior Brut (PIB) com a mesura del desenvolupament (Sen 1981, 1985; UNDP 1990). Defensaven que el desenvolupament havia d’anar més enllà de qüestions estrictament econòmiques i havia de tenir en compte altres aspectes fonamentals de les capacitats d’una persona com l’educació o la salut. D’aquesta nova manera de pensar el desenvolupament d’una forma més ‘humana’ en va sortir l’IDH, que va afegir dues altres dimensions a la dimensió econòmica: l’accés a l’educació i una vida llarga i saludable. En aquest apartat farem una exploració de l’índex. Aquests són els paquets d’R que farem servir:
#recordeu que els paquets han d'estar prèviament instal·lats
library(dplyr)
library(tidyr)
library(ggplot2)
library(countrycode)
library(readxl)
library(janitor)
Les dimensions de l’IDH
L’IDH, doncs, consta de tres dimensions conceptuals. La seva operacionalització es troba resumida a la Figura 1, que trobareu també a les notes tècniques de la web del Programa de Nacions Unides per al Desenvolupament (PNUD, conegut com a UNDP en anglès).
- Per mesurar la dimensió econòmica utilitzen la Renda Nacional Bruta (RNB, GNI en anglès), una mesura molt semblant al PIB.
- L’accés a l’educació es mesura a través de dos indicadors: la mitjana d’anys a l’escola per adults de 25 anys o més i els anys esperats d’educació per a nens en edat d’entrada a l’escola.
- Finalment, la vida llarga i saludable es mesura a través de l’esperança de vida al néixer.
Les dades que es recullen per crear l’IDH les trobareu a la pàgina web del PNUD (UNDP 2018). Al llarg d’aquest mòdul utilitzarem les dades de 2018 que es poden descarregar en format Excel, encara que és possible que a la web del PNUD hi pogueu trobar dades més recents. En el següent codi hem descarregat l’arxiu i hem creat un objecte d’R mitjançant la funció read_xlsx()
del paquet readxl. Li hem donat el nom de hddata
, que podem veure a la Taula 1 amb les seves primeres observacions.
DESCÀRREGA: Per descarregar l’arxiu que necessites, tens dues opcions:
- Descarrega’l amb R amb la funció
download.file()
i tot seguit crea l’objectehhdata
.
download.file("https://www.jordimas.cat/files/2018_all_indicators.xlsx",
"2018_all_indicators.xlsx")
hddata <- read_xlsx("2018_all_indicators.xlsx")
- És possible que la funció
download.file()
no funcioni en alguns ordinadors. Si és el teu cas, descarrega l’arxiu manualment i ubica’l al teu directori de treball. A continuació, només caldrà que el transformis en objectehhdata
:
hddata <- read_xlsx("2018_all_indicators.xlsx")
Recorda carregar els paquets prèviament abans d’executar el codi.
dimension | indicator_id | indicator_name | iso3 | country_name | 1990 | 1991 | 1992 | 1993 | 1994 | 1995 | 1996 | 1997 | 1998 | 1999 | 2000 | 2001 | 2002 | 2003 | 2004 | 2005 | 2006 | 2007 | 2008 | 2009 | 2010 | 2011 | 2012 | 2013 | 2014 | 2015 | 2016 | 2017 | 9999 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Composite indices | 146206 | HDI rank | AFG | Afghanistan | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 168 | 168 | NA |
Composite indices | 146206 | HDI rank | ALB | Albania | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 69 | 68 | NA |
Composite indices | 146206 | HDI rank | DZA | Algeria | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 83 | 85 | NA |
Composite indices | 146206 | HDI rank | AND | Andorra | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 35 | 35 | NA |
Composite indices | 146206 | HDI rank | AGO | Angola | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 145 | 147 | NA |
Composite indices | 146206 | HDI rank | ATG | Antigua and Barbuda | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 70 | 70 | NA |
Composite indices | 146206 | HDI rank | ARG | Argentina | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 47 | 47 | NA |
Composite indices | 146206 | HDI rank | ARM | Armenia | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 84 | 83 | NA |
Practica 1. Dades brutes: Fes una primera visualització del marc de dades teclejant View(hddata)
. Respon a les següents preguntes:
- Utilitza
glimpse(hddata)
per esbrinar quantes observacions i quantes variables té el marc de dadeshddata
. - Diries que, segons els criteris de Wickham (2014),
hddata
és una taula neta o una taula bruta? Per què? - Interpreta les dades perdudes (
NA
) que observes a la taula.
Exercici 4. Notes tècniques de l’IDH: Consulta la web del PNUD i les notes tècniques de l’IDH i respon a les següents preguntes:
- Quants índexs ha creat el PNUD, a part de l’IDH? Quins són els quatre conceptes/temes principals que pretenen mesurar? Relaciona aquests temes/conceptes amb el moment que sorgeixen: ens expliquen alguna cosa dels debats centrals de cada època en l’agenda internacional?
- Quina és la principal distinció entre l’IDH i l’Índex de Desenvolupament de Gènere?
Exploració inicial del marc de dades
El marc de dades hddata
conté una columna per cada any de dades des de 1990 fins a 2017. Quan treballem amb R ens és molt més còmode que cada columna sigui una variable, ja que així podem manipular més fàcilment les dades. Com sabeu, els anys (1990, 1991…) no són una variable, sinó que són els valors que pot prendre la variable any. Tots els anys, doncs, haurien de formar part d’una sola columna year
que representi la variable any. També observem que la variable indicator_name
no conté valors, sinó noms de variables. En el codi següent hem netejat el marc de dades de manera que totes les columnes siguin variables i totes les files observacions. D’aquest procés n’ha sortit l’objecte hddata_tidy
, que observem a la Taula 2.
hddata_tidy <- hddata %>%
select(indicator_name:last_col()) %>% #eliminem les primeres dues columnes
pivot_longer(`1990`:`9999`, "year", "value", values_drop_na = TRUE) %>% #creem la variable year
filter(year != 9999) %>% #eliminem el valor 9999
spread(indicator_name, value) %>% #posem els valors de 'indicator_name' com a variables
clean_names("snake") %>% #simplifiquem els noms de variables
mutate(year = as.numeric(year)) #passem els anys a vector numèric
iso3 | country_name | year | adjusted_net_savings_percent_of_gni | adolescent_birth_rate_births_per_1_000_women_ages_15_19 | antenatal_care_coverage_at_least_one_visit_percent | carbon_dioxide_emissions_kg_per_2011_ppp_of_gdp | carbon_dioxide_emissions_per_capita_tonnes | coefficient_of_human_inequality | concentration_index_exports_value | contraceptive_prevalence_any_method_percent_of_married_or_in_union_women_of_reproductive_age_15_49_years | current_health_expenditure_percent_of_gdp | domestic_credit_provided_by_financial_sector_percent_of_gdp | education_index | employment_in_agriculture_percent_of_total_employment | employment_in_services_percent_of_total_employment | employment_to_population_ratio_percent_ages_15_and_older | estimated_gross_national_income_per_capita_female_2011_ppp | estimated_gross_national_income_per_capita_male_2011_ppp | expected_years_of_schooling_years | expected_years_of_schooling_female_years | expected_years_of_schooling_male_years | exports_and_imports_percent_of_gdp | female_share_of_employment_in_senior_and_middle_management_percent | foreign_direct_investment_net_inflows_percent_of_gdp | forest_area_percent_of_total_land_area | fossil_fuel_energy_consumption_percent_of_total_energy_consumption | fresh_water_withdrawals_percent_of_total_renewable_water_resources | gdp_per_capita_2011_ppp | gender_development_index_gdi | gender_inequality_index_gii | government_expenditure_on_education_percent_of_gdp | gross_capital_formation_percent_of_gdp | gross_domestic_product_gdp_total_2011_ppp_billions | gross_enrolment_ratio_pre_primary_percent_of_preschool_age_children | gross_enrolment_ratio_primary_percent_of_primary_school_age_population | gross_enrolment_ratio_secondary_percent_of_secondary_school_age_population | gross_enrolment_ratio_tertiary_percent_of_tertiary_school_age_population | gross_fixed_capital_formation_percent_of_gdp | gross_national_income_gni_per_capita_2011_ppp | hdi_rank | hiv_prevalence_adult_percent_ages_15_49 | homicide_rate_per_100_000_people | human_development_index_hdi | human_development_index_hdi_female | human_development_index_hdi_male | income_index | inequality_in_education_percent | inequality_in_income_percent | inequality_in_life_expectancy_percent | inequality_adjusted_education_index | inequality_adjusted_hdi_ihdi | inequality_adjusted_income_index | inequality_adjusted_life_expectancy_index | infants_lacking_immunization_dpt_percent_of_one_year_olds | infants_lacking_immunization_measles_percent_of_one_year_olds | international_inbound_tourists_thousands | international_student_mobility_percent_of_total_tertiary_enrolment | internet_users_total_percent_of_population | labour_force_participation_rate_percent_ages_15_and_older | labour_force_participation_rate_percent_ages_15_and_older_female | labour_force_participation_rate_percent_ages_15_and_older_male | life_expectancy_at_birth_years | life_expectancy_at_birth_female_years | life_expectancy_at_birth_male_years | life_expectancy_index | literacy_rate_adult_percent_ages_15_and_older | malaria_incidence_per_1_000_people_at_risk | mandatory_paid_maternity_leave_days | maternal_mortality_ratio_deaths_per_100_000_live_births | mean_years_of_schooling_years | mean_years_of_schooling_female_years | mean_years_of_schooling_male_years | median_age_years | mobile_phone_subscriptions_per_100_people | mortality_rate_attributed_to_household_and_ambient_air_pollution_per_100_000_population | mortality_rate_attributed_to_unsafe_water_sanitation_and_hygiene_services_per_100_000_population | mortality_rate_female_adult_per_1_000_people | mortality_rate_infant_per_1_000_live_births | mortality_rate_male_adult_per_1_000_people | mortality_rate_under_five_per_1_000_live_births | mpi_2018_contribution_of_education | mpi_2018_contribution_of_health | mpi_2018_contribution_of_standard_of_living | multidimensional_poverty_index_mpi | net_migration_rate_per_1_000_people | net_official_development_assistance_received_percent_of_gni | old_age_65_and_older_dependency_ratio_per_100_people_ages_15_64 | overall_loss_in_hdi_due_to_inequality_percent | population_ages_15_64_millions | population_ages_65_and_older_millions | population_in_multidimensional_poverty_headcount_percent | population_in_multidimensional_poverty_headcount_thousands_for_the_year_of_the_survey | population_in_multidimensional_poverty_headcount_thousands_projection_for_2016 | population_in_multidimensional_poverty_intensity_of_deprivation_percent | population_in_severe_multidimensional_poverty_percent | population_under_age_5_millions | population_using_improved_drinking_water_sources_percent | population_using_improved_sanitation_facilities_percent | population_vulnerable_to_multidimensional_poverty_percent | population_with_at_least_some_secondary_education_percent_ages_25_and_older | population_with_at_least_some_secondary_education_female_percent_ages_25_and_older | population_with_at_least_some_secondary_education_male_percent_ages_25_and_older | primary_school_dropout_rate_percent_of_primary_school_cohort | primary_school_teachers_trained_to_teach_percent | private_capital_flows_percent_of_gdp | programme_for_international_student_assessment_pisa_score_in_mathematics | programme_for_international_student_assessment_pisa_score_in_reading | programme_for_international_student_assessment_pisa_score_in_science | proportion_of_births_attended_by_skilled_health_personnel_percent | pupil_teacher_ratio_primary_school_pupils_per_teacher | ratio_of_education_and_health_expenditure_to_military_expenditure | red_list_index_value | refugees_by_country_of_origin_thousands | remittances_inflows_percent_of_gdp | renewable_energy_consumption_percent_of_total_final_energy_consumption | research_and_development_expenditure_percent_of_gdp | rural_population_with_access_to_electricity_percent | sex_ratio_at_birth_male_to_female_births | share_of_employment_in_nonagriculture_female_percent_of_total_employment_in_nonagriculture | share_of_seats_in_parliament_percent_held_by_women | skilled_labour_force_percent_of_labour_force | suicide_rate_female_per_100_000_people | suicide_rate_male_per_100_000_people | survival_rate_to_the_last_grade_of_lower_secondary_general_education_percent | total_debt_service_percent_of_exports_of_goods_services_and_primary_income | total_population_millions | total_unemployment_rate_female_to_male_ratio | tuberculosis_incidence_per_100_000_people | unemployment_total_percent_of_labour_force | unemployment_youth_percent_ages_15_24 | unmet_need_for_family_planning_percent_of_married_or_in_union_women_of_reproductive_age_15_49_years | urban_population_percent | vulnerable_employment_percent_of_total_employment | women_with_account_at_financial_institution_or_with_mobile_money_service_provider_percent_of_female_population_ages_15_and_older | working_poor_at_ppp_3_10_a_day_percent_of_total_employment | young_age_0_14_dependency_ratio_per_100_people_ages_15_64 | youth_not_in_school_or_employment_percent_ages_15_24 | youth_unemployment_rate_female_to_male_ratio |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
AFG | Afghanistan | 1990 | NA | 161.2 | NA | NA | 0.2 | NA | NA | NA | NA | NA | 0.122 | NA | NA | NA | NA | NA | 2.6 | NA | NA | NA | NA | NA | 2.1 | NA | NA | NA | NA | NA | NA | NA | NA | NA | 30 | 11 | 2 | NA | NA | NA | 0.1 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 50 | 80 | NA | NA | NA | 51.4 | 14.8 | 86.7 | 49.9 | 50.9 | 48.9 | 0.459 | NA | NA | NA | 1340 | 1.5 | 0.4 | 2.5 | 15.9 | NA | NA | NA | 348 | 120.2 | 396 | 177.3 | NA | NA | NA | NA | -24.7 | NA | 4.4 | NA | 6.1 | 0.3 | NA | NA | NA | NA | NA | 2.4 | NA | NA | NA | 8.2 | 2.3 | 13.6 | NA | NA | NA | NA | NA | NA | NA | 41 | NA | NA | NA | NA | 15.9 | NA | NA | 1.06 | NA | NA | NA | NA | NA | NA | NA | 12.2 | NA | NA | NA | NA | NA | 21.2 | NA | NA | NA | 96.6 | NA | NA |
AFG | Afghanistan | 1991 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 0.133 | 71.3 | 22.2 | 45.3 | NA | NA | 2.9 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 0.1 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 53 | 81 | NA | NA | NA | NA | NA | NA | 50.6 | 51.7 | 49.6 | 0.471 | NA | NA | NA | NA | 1.6 | 0.5 | 2.6 | NA | NA | NA | NA | 340 | 116.4 | 387 | 171.1 | NA | NA | NA | NA | NA | NA | 4.5 | NA | 6.5 | 0.3 | NA | NA | NA | NA | NA | 2.5 | NA | NA | NA | NA | 2.5 | 14.0 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 9.3 | NA | NA | NA | NA | NA | NA | 13.0 | 1.26 | NA | 12.0 | 25.6 | NA | 21.3 | 62.0 | NA | 98.9 | 96.5 | NA | 1.01 |
AFG | Afghanistan | 1992 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 0.145 | NA | NA | NA | NA | NA | 3.2 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 0.1 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 55 | 78 | NA | NA | NA | NA | NA | NA | 51.3 | 52.4 | 50.3 | 0.482 | NA | NA | NA | NA | 1.6 | 0.5 | 2.8 | NA | NA | NA | NA | 331 | 112.9 | 379 | 165.2 | NA | NA | NA | NA | NA | NA | 4.5 | NA | 7.0 | 0.3 | NA | NA | NA | NA | NA | 2.7 | NA | NA | NA | NA | 2.8 | 14.4 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 14.0 | NA | NA | NA | NA | NA | 21.4 | NA | NA | NA | 96.4 | NA | NA |
AFG | Afghanistan | 1993 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 0.156 | NA | NA | NA | NA | NA | 3.6 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 0.1 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 59 | 75 | NA | NA | NA | NA | NA | NA | 52.0 | 53.1 | 50.9 | 0.492 | NA | NA | NA | NA | 1.7 | 0.5 | 2.9 | NA | NA | NA | NA | 326 | 109.5 | 373 | 159.6 | NA | NA | NA | NA | NA | NA | 4.5 | NA | 7.5 | 0.3 | NA | NA | NA | NA | NA | 2.9 | NA | NA | NA | NA | 3.0 | 14.9 | NA | NA | NA | NA | NA | NA | NA | NA | NA | 0.841 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 15.1 | NA | NA | NA | NA | NA | 21.4 | NA | NA | NA | 96.4 | NA | NA |
AFG | Afghanistan | 1994 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 0.168 | NA | NA | NA | NA | NA | 3.9 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 0.1 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 67 | 60 | NA | NA | NA | NA | NA | NA | 52.5 | 53.6 | 51.5 | 0.501 | NA | NA | NA | NA | 1.8 | 0.6 | 3.1 | NA | NA | NA | NA | 321 | 106.3 | 368 | 154.5 | NA | NA | NA | NA | NA | NA | 4.6 | NA | 8.1 | 0.4 | NA | NA | NA | NA | NA | 3.2 | NA | NA | NA | NA | 3.2 | 15.3 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 16.2 | NA | NA | NA | NA | NA | 21.5 | NA | NA | NA | 96.3 | NA | NA |
AFG | Afghanistan | 1995 | NA | 163.9 | NA | NA | 0.1 | NA | 0.34 | NA | NA | NA | 0.179 | 78.7 | 17.2 | 47.4 | NA | NA | 4.2 | NA | NA | NA | NA | NA | 2.1 | NA | NA | NA | NA | NA | NA | NA | NA | NA | 45 | 22 | NA | NA | NA | NA | 0.1 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 56 | 59 | NA | NA | NA | 51.9 | 15.0 | 86.4 | 53.1 | 54.2 | 52.0 | 0.509 | NA | NA | NA | 1270 | 1.9 | 0.6 | 3.2 | 16.0 | NA | NA | NA | 316 | 103.3 | 363 | 149.6 | NA | NA | NA | NA | 31.7 | NA | 4.7 | NA | 8.5 | 0.4 | NA | NA | NA | NA | NA | 3.3 | NA | NA | NA | 9.8 | 3.5 | 15.7 | NA | NA | NA | NA | NA | NA | NA | NA | NA | 0.840 | NA | NA | 35.1 | NA | NA | 1.06 | 7.0 | NA | NA | NA | NA | NA | NA | 17.1 | 2.04 | NA | 8.7 | 17.8 | NA | 21.6 | 73.7 | NA | 99.2 | 95.8 | NA | 1.11 |
AFG | Afghanistan | 1996 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 0.190 | NA | NA | NA | NA | NA | 4.6 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 0.1 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 44 | 58 | NA | NA | NA | NA | NA | NA | 53.5 | 54.7 | 52.5 | 0.516 | NA | NA | NA | NA | 1.9 | 0.6 | 3.3 | NA | NA | NA | NA | 310 | 100.5 | 358 | 145.1 | NA | NA | NA | NA | NA | NA | 4.7 | NA | 8.9 | 0.4 | NA | NA | NA | NA | NA | 3.5 | NA | NA | NA | NA | 3.7 | 15.9 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 17.8 | NA | NA | NA | NA | NA | 21.7 | NA | NA | NA | 96.6 | NA | NA |
AFG | Afghanistan | 1997 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 0.202 | NA | NA | NA | NA | NA | 4.9 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 0.1 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 52 | 62 | NA | NA | NA | NA | NA | NA | 54.0 | 55.2 | 52.9 | 0.523 | NA | NA | NA | NA | 2.0 | 0.7 | 3.4 | NA | NA | NA | NA | 305 | 97.9 | 352 | 141.0 | NA | NA | NA | NA | NA | NA | 4.7 | NA | 9.1 | 0.4 | NA | NA | NA | NA | NA | 3.6 | NA | NA | NA | NA | 3.9 | 16.2 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 18.4 | NA | NA | NA | NA | NA | 21.8 | NA | NA | NA | 97.4 | NA | NA |
Practica 2. Exploració inicial: Examineu el marc de dades teclejant hddata_tidy
i visualitzeu-ne l’estructura amb glimpse(hddata_tidy)
.
- Quantes variables i quantes observacions conté el marc de dades?
- Quina és la unitat d’anàlisi?
- Visualitzeu la llista de variables amb la funció
names(hddata_tidy)
. Sabríeu intuir quines d’aquestes variables conformen l’IDH? - Observeu la resta de variables. Quines altres podrien també il·lustrar el concepte de desenvolupament humà?
- De quins països tenim més dades perdudes? Utilitza el següent codi per esbrinar-ho.
hddata %>%
pivot_longer(`1990`:`9999`, "year", "value") %>%
group_by(country_name) %>% #agrupem les dades per país
summarize(na = sum(is.na(value))) %>%
arrange(desc(na))
- De quins indicadors tenim més dades perdudes? Utilitza el següent codi per esbrinar-ho.
hddata %>%
pivot_longer(`1990`:`9999`, "year", "value") %>%
group_by(indicator_name) %>% #agrupem les dades per indicador
summarize(na = sum(is.na(value))) %>%
arrange(desc(na))
- Com creus que podrien influir les dades que tenim disponibles en la selecció d’indicadors per construir una mesura com l’IDH?
Ja podeu veure que el marc de dades hddata_tidy
conté moltes variables que no necessitem. Una de les primeres coses que hem de fer és simplificar-lo per tal tingui unes dimensions més reduides que ens permeti treballar-lo millor a l’hora de construir l’IDH. Per a tal propòsit, hem creat el nou marc de dades hdi
, que filtra les dades per l’any més actual, manté només algunes variables i ordena els països segons el seu IDH el 2017, el darrer any de què tenim dades disponibles. Hi hem deixat dues variables principals: països (country
) i IDH (IDH
). I a continuació també hem conservat les variables que conformen l’IDH. A totes els hi hem donat un nom més simple:
- A l’ingrés nacional brut per càpita (
gross_national_income_gni_per_capita_2011_ppp
) en diremGNI
. - Als anys d’escolarització esperats (
expected_years_of_schooling_years
) en diremE1
. - A la mitjana d’anys d’escolarització (
mean_years_of_schooling_years
) en diremE2
. - I a l’esperança de vida al néixer (
life_expectancy_at_birth_years
) en diremLE
.
A més, hem utilitzat el paquet countrycode per posar els noms del marc de dades en català (veure Normes ISO).
#canvieu hdi per hdi_prova quan feu les modificacions
#Nota: No us preocupeu pels warnings que apareixen a la consola
hdi <- hddata_tidy %>% #marc de dades
filter(year == max(year)) %>% #filtrem per l'any més alt
arrange(desc(human_development_index_hdi)) %>% #ordenem per la variable idh
transmute(P = 1:n(), #creem una variable amb la posició del país
country = countrycode(country_name, "country.name.en", "cldr.name.ca"),
IDH = human_development_index_hdi,
GNI = gross_national_income_gni_per_capita_2011_ppp,
E1 = expected_years_of_schooling_years,
E2 = mean_years_of_schooling_years,
LE = life_expectancy_at_birth_years) %>%
filter(IDH != is.na(IDH)) #eliminem les observacions amb NA
#Omplim els NA. A partir de l'1 de juny de 2018 Swazilàndia passa a dir-se Regne d'Eswatini.
hdi$country[which(is.na(hdi$country))] <- c("Micronèsia", "Regne d'Eswatini")
Practica 3. Crear un nou marc de dades: Fixeu-vos en el codi que hem utilitzat per crear l’objecte hdi
i proveu de fer-hi algunes modificacions. Abans de tot, substituiu al codi hdi
per hdi_prova
per guardar els canvis amb el nom d’un altre objecte.
- Filtreu per algun altre any enlloc de 2017. Caldrà substituir
max(year)
per l’any en qüestió. - Ordeneu les dades per alguna altra columna que no sigui de la columna IDH dins de la funció
arrange()
. - Conserveu la variable
country
i seleccioneu variables diferents a les que hem escollit, indicant un nom nou per a cada una d’elles.
L’IDH: vista prèvia
A la Taula 3 observem el resultat de head(hdi, 10)
, que mostra els països més ben classificats en el rànking de l’IDH l’any 2017. En primer lloc hi trobem Noruega amb un IDH de 0.953, seguit de Suïssa, Austràlia i Irlanda Tots aquests països tenen xifres molt altes en els seus indicadors: un GNI per càpita alt (columna GNI), uns anys d’educació esperada elevats (columna E1), una mitjana d’anys a l’escola elevada (columna E2) i una esperança de vida alta (columna LE).
P | country | IDH | GNI | E1 | E2 | LE |
---|---|---|---|---|---|---|
1 | Noruega | 0.953 | 68012 | 17.9 | 12.6 | 82.3 |
2 | Suïssa | 0.944 | 57625 | 16.2 | 13.4 | 83.5 |
3 | Austràlia | 0.939 | 43560 | 22.9 | 12.9 | 83.1 |
4 | Irlanda | 0.938 | 53754 | 19.6 | 12.5 | 81.6 |
5 | Alemanya | 0.936 | 46136 | 17.0 | 14.1 | 81.2 |
6 | Islàndia | 0.935 | 45810 | 19.3 | 12.4 | 82.9 |
7 | Hong Kong (RAE Xina) | 0.933 | 58420 | 16.3 | 12.0 | 84.1 |
8 | Suècia | 0.933 | 47766 | 17.6 | 12.4 | 82.6 |
9 | Singapur | 0.932 | 82503 | 16.2 | 11.5 | 83.2 |
10 | Països Baixos | 0.931 | 47900 | 18.0 | 12.2 | 82.0 |
En canvi, a la part inferior de la taula ens trobem el contrari, com veiem a la Taula 4 mitjançant el codi tail(hdi, 10)
. Tots els països amb valors baixos en el seu IDH tenen un GNI baix, uns nivells d’eduació baixos i una esperança de vida baixa. Níger és l’últim país de la llista. Té un GNI inferior als 1000 dòlars l’any, els joves del país passen molts pocs anys a l’escola i la població viu de mitjana poc més de 60 anys.
P | country | IDH | GNI | E1 | E2 | LE |
---|---|---|---|---|---|---|
180 | Moçambic | 0.437 | 1093 | 9.7 | 3.5 | 58.9 |
181 | Libèria | 0.435 | 667 | 10.0 | 4.7 | 63.0 |
182 | Mali | 0.427 | 1953 | 7.7 | 2.3 | 58.5 |
183 | Burkina Faso | 0.423 | 1650 | 8.5 | 1.5 | 60.8 |
184 | Sierra Leone | 0.419 | 1240 | 9.8 | 3.5 | 52.2 |
185 | Burundi | 0.417 | 702 | 11.7 | 3.0 | 57.9 |
186 | Txad | 0.404 | 1750 | 8.0 | 2.3 | 53.2 |
187 | Sudan del Sud | 0.388 | 963 | 4.9 | 4.8 | 57.3 |
188 | República Centreafricana | 0.367 | 663 | 7.2 | 4.3 | 52.9 |
189 | Níger | 0.354 | 906 | 5.4 | 2.0 | 60.4 |
Practica 4. Cerca de països: Visualitzeu el principi de la taula amb head()
, el final de la taula amb tail()
o qualsevol fragment de la taula amb la funció slice()
. Per exemple, teclejant slice(hdi, 30:40)
visualitzarem de la trentena a la quarantena observació del rànquing. Responeu a les següents preguntes:
- Quin és el país amb major esperança de vida?
- Quin és el país amb menor mitjana d’anys d’escolarització?
- Quin és el país amb l’ingrés nacional brut per càpita més baix?
- Busca la posició d’Espanya, Japó i Palestina. També ho pots buscar amb:
hdi[which(hdi$country == "Nom del país"),]
- Observa la distribució de l’esperança de vida amb un histograma mitjançant
hist(hdi$LE)
. En quina franja hi ha més països? Fes el mateix amb el GNI. En quina franja d’ingressos es troben més països?