2. Exploración
Los contenidos de esta obra forman parte de un encargo de autoría de la Universitat Oberta de Catalunya (Mas 2020) y están sujetos a la licencia de Creative Commons CC BY-SA 3.0.
Para explicar todos los pasos que hay que seguir a la hora de construir un índice, utilizaremos de ejemplo el IDH, creado por las Naciones Unidas y que se ha convertido en uno de los índices más utilizados y conocidos en el ámbito del desarrollo. Los orígenes del IDH se remontan a los años ochenta, cuando economistas como Mahbub ul Haq y Amartya Sen empezaron a cuestionar el producto interior bruto (PIB) como medida del desarrollo (Sen 1981, 1985; UNDP 1990). Defendían que el desarrollo tenía que ir más allá de cuestiones estrictamente económicas y debía tener en cuenta otros aspectos fundamentales de las capacidades de una persona como la educación o la salud. De esta nueva manera de pensar el desarrollo de una forma más «humana», salió el IDH, que añadió otras dos dimensiones a la dimensión económica: el acceso a la educación y una vida larga y saludable. En este apartado haremos una exploración del índice. Estos son los paquetes de R que utilizaremos:
#recordad que los paquetes tienen que estar previamente instalados
library(dplyr)
library(tidyr)
library(ggplot2)
library(countrycode)
library(readxl)
library(janitor)
Las dimensiones del IDH
El IDH, pues, consta de tres dimensiones conceptuales. Su operacionalización se encuentra resumida en la figura 1, que encontraréis también en las notas técnicas de la web del Programa de las Naciones Unidas para el Desarrollo (PNUD, conocido como UNDP en inglés).
Para medir la dimensión económica, utilizan la renta nacional bruta (RNB, GNI en inglés), una medida muy parecida al PIB.
El acceso a la educación se mide con dos indicadores: la media de años en la escuela para adultos de 25 años o más y los años esperados de educación para niños en edad de entrada a la escuela.
Finalmente, la vida larga y saludable se mide con la esperanza de vida al nacer.
Los datos que se recogen para crear el IDH los encontraréis en la página web del PNUD (UNDP 2018). A lo largo de este módulo utilizaremos los datos de 2018, que pueden descargarse en formato Excel, aunque es posible que en la web del PNUD podáis encontrar datos más recientes. En el siguiente código hemos descargado el archivo y hemos creado un objeto de R mediante la función read_xlsx()
del paquete readxl. Le hemos dado el nombre de hddata
, cuyas primeras observaciones podemos ver en la Tabla ??.
DESCARGA: Para descargar el archivo que necesitas, tienes dos opciones:
- Descargarlo con R mediante la función
download.file()
y acto seguido crear el objetohhdata
.
download.file("https://www.jordimas.cat/files/2018_all_indicators.xlsx",
"2018_all_indicators.xlsx")
hddata <- read_xlsx("2018_all_indicators.xlsx")
- Es possible que la función
download.file()
no funcione en algunos ordinadores. Si es tu caso, descarga el archivo manualmente y ubícalo en tu directorio de trabajo. A continuación, solo será necesario que transformes el archivo en objetohhdata
:
hddata <- read_xlsx("2018_all_indicators.xlsx")
Recuerda haber cargado los paquetes previamente antes de ejecutar el código.
dimension | indicator_id | indicator_name | iso3 | country_name | 1990 | 1991 | 1992 | 1993 | 1994 | 1995 | 1996 | 1997 | 1998 | 1999 | 2000 | 2001 | 2002 | 2003 | 2004 | 2005 | 2006 | 2007 | 2008 | 2009 | 2010 | 2011 | 2012 | 2013 | 2014 | 2015 | 2016 | 2017 | 9999 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Composite indices | 146206 | HDI rank | AFG | Afghanistan | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 168 | 168 | NA |
Composite indices | 146206 | HDI rank | ALB | Albania | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 69 | 68 | NA |
Composite indices | 146206 | HDI rank | DZA | Algeria | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 83 | 85 | NA |
Composite indices | 146206 | HDI rank | AND | Andorra | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 35 | 35 | NA |
Composite indices | 146206 | HDI rank | AGO | Angola | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 145 | 147 | NA |
Composite indices | 146206 | HDI rank | ATG | Antigua and Barbuda | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 70 | 70 | NA |
Composite indices | 146206 | HDI rank | ARG | Argentina | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 47 | 47 | NA |
Composite indices | 146206 | HDI rank | ARM | Armenia | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 84 | 83 | NA |
Practica 1. Datos brutos: haced una primera visualización del marco de datos tecleando View(hddata)
. Responded a las siguientes preguntas:
- Usad
glimpse(hddata)
para averiguar cuántas observaciones y cuántas variables tiene el marco de datoshddata
. - ¿Diríais que, según los criterios de Wickham (2014),
hddata
es una tabla limpia o una tabla sucia? ¿Por qué? - Interpretad los datos perdidos (
NA
) que observáis en la tabla.
Ejercicio 4. Notas técnicas del IDH: consultad la web del PNUD y las notas técnicas del IDH y responded a las siguientes preguntas:
- ¿Cuántos índices ha creado el PNUD, aparte del IDH? ¿Cuáles son los cuatro conceptos o temas principales que quieren medir? Relacionad estos temas o conceptos con el momento en el que surgen: ¿nos explican algo de los debates centrales de cada época en la agenda internacional?
- ¿Cuál es la principal distinción entre el IDH y el índice de desarrollo de género?
Exploración inicial del marco de datos
El marco de datos hddata
contiene una columna por cada año de datos desde 1990 hasta 2017. Cuando trabajamos con R, nos es mucho más cómodo que cada columna sea una variable, puesto que así podemos manipular más fácilmente los datos. Como sabéis, los años (1990, 1991…) no son una variable, sino que son los valores que puede tomar la variable año. Todos los años, pues, tendrían que formar parte de una sola columna year que represente la variable año. También observamos que la variable indicator_name no contiene valores, sino nombres de variables. En el siguiente código hemos limpiado el marco de datos de forma que todas las columnas sean variables, y todas las hileras observaciones. De este proceso, ha salido el objeto hddata_tidy
, que observamos en la Tabla 2.
hddata_tidy <- hddata %>%
select(indicator_name:last_col()) %>% #eliminamos les primeras dos columnas
pivot_longer(`1990`:`9999`, "year", "value", values_drop_na = TRUE) %>% #creamos la variable year
filter(year != 9999) %>% #eliminamos el valor 9999
spread(indicator_name, value) %>% #ponemos los valores de 'indicator_name' como variables
clean_names("snake") %>% #simplificamos los nombres de variables
mutate(year = as.numeric(year)) #pasamos los años a vector numérico
iso3 | country_name | year | adjusted_net_savings_percent_of_gni | adolescent_birth_rate_births_per_1_000_women_ages_15_19 | antenatal_care_coverage_at_least_one_visit_percent | carbon_dioxide_emissions_kg_per_2011_ppp_of_gdp | carbon_dioxide_emissions_per_capita_tonnes | coefficient_of_human_inequality | concentration_index_exports_value | contraceptive_prevalence_any_method_percent_of_married_or_in_union_women_of_reproductive_age_15_49_years | current_health_expenditure_percent_of_gdp | domestic_credit_provided_by_financial_sector_percent_of_gdp | education_index | employment_in_agriculture_percent_of_total_employment | employment_in_services_percent_of_total_employment | employment_to_population_ratio_percent_ages_15_and_older | estimated_gross_national_income_per_capita_female_2011_ppp | estimated_gross_national_income_per_capita_male_2011_ppp | expected_years_of_schooling_years | expected_years_of_schooling_female_years | expected_years_of_schooling_male_years | exports_and_imports_percent_of_gdp | female_share_of_employment_in_senior_and_middle_management_percent | foreign_direct_investment_net_inflows_percent_of_gdp | forest_area_percent_of_total_land_area | fossil_fuel_energy_consumption_percent_of_total_energy_consumption | fresh_water_withdrawals_percent_of_total_renewable_water_resources | gdp_per_capita_2011_ppp | gender_development_index_gdi | gender_inequality_index_gii | government_expenditure_on_education_percent_of_gdp | gross_capital_formation_percent_of_gdp | gross_domestic_product_gdp_total_2011_ppp_billions | gross_enrolment_ratio_pre_primary_percent_of_preschool_age_children | gross_enrolment_ratio_primary_percent_of_primary_school_age_population | gross_enrolment_ratio_secondary_percent_of_secondary_school_age_population | gross_enrolment_ratio_tertiary_percent_of_tertiary_school_age_population | gross_fixed_capital_formation_percent_of_gdp | gross_national_income_gni_per_capita_2011_ppp | hdi_rank | hiv_prevalence_adult_percent_ages_15_49 | homicide_rate_per_100_000_people | human_development_index_hdi | human_development_index_hdi_female | human_development_index_hdi_male | income_index | inequality_in_education_percent | inequality_in_income_percent | inequality_in_life_expectancy_percent | inequality_adjusted_education_index | inequality_adjusted_hdi_ihdi | inequality_adjusted_income_index | inequality_adjusted_life_expectancy_index | infants_lacking_immunization_dpt_percent_of_one_year_olds | infants_lacking_immunization_measles_percent_of_one_year_olds | international_inbound_tourists_thousands | international_student_mobility_percent_of_total_tertiary_enrolment | internet_users_total_percent_of_population | labour_force_participation_rate_percent_ages_15_and_older | labour_force_participation_rate_percent_ages_15_and_older_female | labour_force_participation_rate_percent_ages_15_and_older_male | life_expectancy_at_birth_years | life_expectancy_at_birth_female_years | life_expectancy_at_birth_male_years | life_expectancy_index | literacy_rate_adult_percent_ages_15_and_older | malaria_incidence_per_1_000_people_at_risk | mandatory_paid_maternity_leave_days | maternal_mortality_ratio_deaths_per_100_000_live_births | mean_years_of_schooling_years | mean_years_of_schooling_female_years | mean_years_of_schooling_male_years | median_age_years | mobile_phone_subscriptions_per_100_people | mortality_rate_attributed_to_household_and_ambient_air_pollution_per_100_000_population | mortality_rate_attributed_to_unsafe_water_sanitation_and_hygiene_services_per_100_000_population | mortality_rate_female_adult_per_1_000_people | mortality_rate_infant_per_1_000_live_births | mortality_rate_male_adult_per_1_000_people | mortality_rate_under_five_per_1_000_live_births | mpi_2018_contribution_of_education | mpi_2018_contribution_of_health | mpi_2018_contribution_of_standard_of_living | multidimensional_poverty_index_mpi | net_migration_rate_per_1_000_people | net_official_development_assistance_received_percent_of_gni | old_age_65_and_older_dependency_ratio_per_100_people_ages_15_64 | overall_loss_in_hdi_due_to_inequality_percent | population_ages_15_64_millions | population_ages_65_and_older_millions | population_in_multidimensional_poverty_headcount_percent | population_in_multidimensional_poverty_headcount_thousands_for_the_year_of_the_survey | population_in_multidimensional_poverty_headcount_thousands_projection_for_2016 | population_in_multidimensional_poverty_intensity_of_deprivation_percent | population_in_severe_multidimensional_poverty_percent | population_under_age_5_millions | population_using_improved_drinking_water_sources_percent | population_using_improved_sanitation_facilities_percent | population_vulnerable_to_multidimensional_poverty_percent | population_with_at_least_some_secondary_education_percent_ages_25_and_older | population_with_at_least_some_secondary_education_female_percent_ages_25_and_older | population_with_at_least_some_secondary_education_male_percent_ages_25_and_older | primary_school_dropout_rate_percent_of_primary_school_cohort | primary_school_teachers_trained_to_teach_percent | private_capital_flows_percent_of_gdp | programme_for_international_student_assessment_pisa_score_in_mathematics | programme_for_international_student_assessment_pisa_score_in_reading | programme_for_international_student_assessment_pisa_score_in_science | proportion_of_births_attended_by_skilled_health_personnel_percent | pupil_teacher_ratio_primary_school_pupils_per_teacher | ratio_of_education_and_health_expenditure_to_military_expenditure | red_list_index_value | refugees_by_country_of_origin_thousands | remittances_inflows_percent_of_gdp | renewable_energy_consumption_percent_of_total_final_energy_consumption | research_and_development_expenditure_percent_of_gdp | rural_population_with_access_to_electricity_percent | sex_ratio_at_birth_male_to_female_births | share_of_employment_in_nonagriculture_female_percent_of_total_employment_in_nonagriculture | share_of_seats_in_parliament_percent_held_by_women | skilled_labour_force_percent_of_labour_force | suicide_rate_female_per_100_000_people | suicide_rate_male_per_100_000_people | survival_rate_to_the_last_grade_of_lower_secondary_general_education_percent | total_debt_service_percent_of_exports_of_goods_services_and_primary_income | total_population_millions | total_unemployment_rate_female_to_male_ratio | tuberculosis_incidence_per_100_000_people | unemployment_total_percent_of_labour_force | unemployment_youth_percent_ages_15_24 | unmet_need_for_family_planning_percent_of_married_or_in_union_women_of_reproductive_age_15_49_years | urban_population_percent | vulnerable_employment_percent_of_total_employment | women_with_account_at_financial_institution_or_with_mobile_money_service_provider_percent_of_female_population_ages_15_and_older | working_poor_at_ppp_3_10_a_day_percent_of_total_employment | young_age_0_14_dependency_ratio_per_100_people_ages_15_64 | youth_not_in_school_or_employment_percent_ages_15_24 | youth_unemployment_rate_female_to_male_ratio |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
AFG | Afghanistan | 1990 | NA | 161.2 | NA | NA | 0.2 | NA | NA | NA | NA | NA | 0.122 | NA | NA | NA | NA | NA | 2.6 | NA | NA | NA | NA | NA | 2.1 | NA | NA | NA | NA | NA | NA | NA | NA | NA | 30 | 11 | 2 | NA | NA | NA | 0.1 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 50 | 80 | NA | NA | NA | 51.4 | 14.8 | 86.7 | 49.9 | 50.9 | 48.9 | 0.459 | NA | NA | NA | 1340 | 1.5 | 0.4 | 2.5 | 15.9 | NA | NA | NA | 348 | 120.2 | 396 | 177.3 | NA | NA | NA | NA | -24.7 | NA | 4.4 | NA | 6.1 | 0.3 | NA | NA | NA | NA | NA | 2.4 | NA | NA | NA | 8.2 | 2.3 | 13.6 | NA | NA | NA | NA | NA | NA | NA | 41 | NA | NA | NA | NA | 15.9 | NA | NA | 1.06 | NA | NA | NA | NA | NA | NA | NA | 12.2 | NA | NA | NA | NA | NA | 21.2 | NA | NA | NA | 96.6 | NA | NA |
AFG | Afghanistan | 1991 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 0.133 | 71.3 | 22.2 | 45.3 | NA | NA | 2.9 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 0.1 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 53 | 81 | NA | NA | NA | NA | NA | NA | 50.6 | 51.7 | 49.6 | 0.471 | NA | NA | NA | NA | 1.6 | 0.5 | 2.6 | NA | NA | NA | NA | 340 | 116.4 | 387 | 171.1 | NA | NA | NA | NA | NA | NA | 4.5 | NA | 6.5 | 0.3 | NA | NA | NA | NA | NA | 2.5 | NA | NA | NA | NA | 2.5 | 14.0 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 9.3 | NA | NA | NA | NA | NA | NA | 13.0 | 1.26 | NA | 12.0 | 25.6 | NA | 21.3 | 62.0 | NA | 98.9 | 96.5 | NA | 1.01 |
AFG | Afghanistan | 1992 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 0.145 | NA | NA | NA | NA | NA | 3.2 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 0.1 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 55 | 78 | NA | NA | NA | NA | NA | NA | 51.3 | 52.4 | 50.3 | 0.482 | NA | NA | NA | NA | 1.6 | 0.5 | 2.8 | NA | NA | NA | NA | 331 | 112.9 | 379 | 165.2 | NA | NA | NA | NA | NA | NA | 4.5 | NA | 7.0 | 0.3 | NA | NA | NA | NA | NA | 2.7 | NA | NA | NA | NA | 2.8 | 14.4 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 14.0 | NA | NA | NA | NA | NA | 21.4 | NA | NA | NA | 96.4 | NA | NA |
AFG | Afghanistan | 1993 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 0.156 | NA | NA | NA | NA | NA | 3.6 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 0.1 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 59 | 75 | NA | NA | NA | NA | NA | NA | 52.0 | 53.1 | 50.9 | 0.492 | NA | NA | NA | NA | 1.7 | 0.5 | 2.9 | NA | NA | NA | NA | 326 | 109.5 | 373 | 159.6 | NA | NA | NA | NA | NA | NA | 4.5 | NA | 7.5 | 0.3 | NA | NA | NA | NA | NA | 2.9 | NA | NA | NA | NA | 3.0 | 14.9 | NA | NA | NA | NA | NA | NA | NA | NA | NA | 0.841 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 15.1 | NA | NA | NA | NA | NA | 21.4 | NA | NA | NA | 96.4 | NA | NA |
AFG | Afghanistan | 1994 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 0.168 | NA | NA | NA | NA | NA | 3.9 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 0.1 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 67 | 60 | NA | NA | NA | NA | NA | NA | 52.5 | 53.6 | 51.5 | 0.501 | NA | NA | NA | NA | 1.8 | 0.6 | 3.1 | NA | NA | NA | NA | 321 | 106.3 | 368 | 154.5 | NA | NA | NA | NA | NA | NA | 4.6 | NA | 8.1 | 0.4 | NA | NA | NA | NA | NA | 3.2 | NA | NA | NA | NA | 3.2 | 15.3 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 16.2 | NA | NA | NA | NA | NA | 21.5 | NA | NA | NA | 96.3 | NA | NA |
AFG | Afghanistan | 1995 | NA | 163.9 | NA | NA | 0.1 | NA | 0.34 | NA | NA | NA | 0.179 | 78.7 | 17.2 | 47.4 | NA | NA | 4.2 | NA | NA | NA | NA | NA | 2.1 | NA | NA | NA | NA | NA | NA | NA | NA | NA | 45 | 22 | NA | NA | NA | NA | 0.1 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 56 | 59 | NA | NA | NA | 51.9 | 15.0 | 86.4 | 53.1 | 54.2 | 52.0 | 0.509 | NA | NA | NA | 1270 | 1.9 | 0.6 | 3.2 | 16.0 | NA | NA | NA | 316 | 103.3 | 363 | 149.6 | NA | NA | NA | NA | 31.7 | NA | 4.7 | NA | 8.5 | 0.4 | NA | NA | NA | NA | NA | 3.3 | NA | NA | NA | 9.8 | 3.5 | 15.7 | NA | NA | NA | NA | NA | NA | NA | NA | NA | 0.840 | NA | NA | 35.1 | NA | NA | 1.06 | 7.0 | NA | NA | NA | NA | NA | NA | 17.1 | 2.04 | NA | 8.7 | 17.8 | NA | 21.6 | 73.7 | NA | 99.2 | 95.8 | NA | 1.11 |
AFG | Afghanistan | 1996 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 0.190 | NA | NA | NA | NA | NA | 4.6 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 0.1 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 44 | 58 | NA | NA | NA | NA | NA | NA | 53.5 | 54.7 | 52.5 | 0.516 | NA | NA | NA | NA | 1.9 | 0.6 | 3.3 | NA | NA | NA | NA | 310 | 100.5 | 358 | 145.1 | NA | NA | NA | NA | NA | NA | 4.7 | NA | 8.9 | 0.4 | NA | NA | NA | NA | NA | 3.5 | NA | NA | NA | NA | 3.7 | 15.9 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 17.8 | NA | NA | NA | NA | NA | 21.7 | NA | NA | NA | 96.6 | NA | NA |
AFG | Afghanistan | 1997 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 0.202 | NA | NA | NA | NA | NA | 4.9 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 0.1 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 52 | 62 | NA | NA | NA | NA | NA | NA | 54.0 | 55.2 | 52.9 | 0.523 | NA | NA | NA | NA | 2.0 | 0.7 | 3.4 | NA | NA | NA | NA | 305 | 97.9 | 352 | 141.0 | NA | NA | NA | NA | NA | NA | 4.7 | NA | 9.1 | 0.4 | NA | NA | NA | NA | NA | 3.6 | NA | NA | NA | NA | 3.9 | 16.2 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 18.4 | NA | NA | NA | NA | NA | 21.8 | NA | NA | NA | 97.4 | NA | NA |
Practica 2. Exploración inicial: Examinad el marco de datos tecleando hddata_tidy y visualizad la estructura con glimpse(hddata_tidy)
.
- ¿Cuántas variables y cuántas observaciones contiene el marco de datos?
- ¿Cuál es la unidad de análisis?
- Visualizad la lista de variables con la función
names(hddata_tidy)
. ¿Sabríais intuir cuáles de estas variables conforman el IDH? - Observad el resto de variables. ¿Qué otras podrían ilustrar el concepto de desarrollo humano?
- ¿De qué países tenemos más datos perdidos? Utilizad el siguiente código para averiguarlo.
hddata %>%
pivot_longer(`1990`:`9999`, "year", "value") %>%
group_by(country_name) %>% #agrupamos los datos por país
summarize(na = sum(is.na(value))) %>%
arrange(desc(na))
- ¿De qué indicadores tenemos más datos perdidos? Utilizad el siguiente código para averiguarlo.
hddata %>%
pivot_longer(`1990`:`9999`, "year", "value") %>%
group_by(indicator_name) %>% #agrupamos los datos por indicador
summarize(na = sum(is.na(value))) %>%
arrange(desc(na))
- ¿Cómo creéis que podrían influir los datos que tenemos disponibles en la selección de indicadores para construir una medida como el IDH?
Podéis ver que el marco de datos hddata_tidy
contiene muchas variables que no necesitamos. Una de las primeras cosas que tenemos que hacer es simplificarlo para que tenga unas dimensiones más reducidas a fin de poder trabajarlo mejor a la hora de construir el IDH. Para tal propósito, hemos creado el nuevo marco de datos hdi, que filtra los datos por el año más actual, mantiene solo algunas variables y ordena los países según su IDH en 2017, el último año del que tenemos datos disponibles. Hemos dejado dos variables principales: países (country
) e IDH (IDH
). Y a continuación también hemos conservado las variables que conforman el IDH. A todas les hemos dado un nombre más simple:
- Al ingreso nacional bruto per cápita (
gross_national_income_gni_por_capita_2011_ppp
) lo llamaremosGNI
. - A los años de escolarización esperados (
expected_years_of_schooling_years
) los llamaremosE1
. - A la media de años de escolarización (
mean_years_of_schooling_years
) la llamaremosE2
. - Y a la esperanza de vida al nacer (
life_expectancy_at_birth_years
) la llamaremosLE
.
Además, hemos usado el paquete countrycode para poner los nombres del marco de datos en castellano (ver Normas ISO).
#cambiad hdi por hdi_prueba cuando hagáis las modificaciones
#Nota: No os preocupéis por los warnings que aparecen en la consola
hdi <- hddata_tidy %>% #marco de datos
filter(year == max(year)) %>% #filtramos por el año más alto
arrange(desc(human_development_index_hdi)) %>% #ordenamos por la variable idh
transmute(P = 1:n(), #creamos una variable con la posición del país
country = countrycode(country_name, "country.name.en", "cldr.name.es"),
IDH = human_development_index_hdi,
GNI = gross_national_income_gni_per_capita_2011_ppp,
E1 = expected_years_of_schooling_years,
E2 = mean_years_of_schooling_years,
LE = life_expectancy_at_birth_years) %>%
filter(IDH != is.na(IDH)) #eliminamos las observaciones con NA
#Llenamos los NA. A partir de 1 de junio de 2018 Suazilandia pasa a llamarse Reino de Esuatini.
hdi$country[which(is.na(hdi$country))] <- c("Micronesia", "Reino de Esuatini")
Practica 3. Creación de un nuevo marco de datos: fijaos en el código que hemos utilizado para crear el objeto hdi
y probad a hacerle algunas modificaciones. Antes que nada, sustituid el código hdi
por hdi_prueba
para guardar los cambios con el nombre de otro objeto.
- Filtrad por algún otro año en lugar de 2017. Habrá que sustituir
max(year)
por el año en cuestión. - Ordenad los datos por alguna otra columna que no sea la columna IDH dentro de la función
arrange()
. - Conservad la variable country y seleccionad variables diferentes a las que hemos escogido, indicando un nombre nuevo para cada una de ellas.
El IDH: vista previa
En la Tabla 3, observamos el resultado de head(hdi, 10)
, que muestra los países mejor clasificados en el ranking del IDH en 2017. En primer lugar, encontramos Noruega, con un IDH de 0.953, seguida de Suiza, Australia y Irlanda. Todos estos países tienen cifras muy altas en sus indicadores: un GNI per cápita alto (columna GNI), unos años de educación esperada elevados (columna E1), una media de años en la escuela elevada (columna E2) y una esperanza de vida alta (columna LE).
P | country | IDH | GNI | E1 | E2 | LE |
---|---|---|---|---|---|---|
1 | Noruega | 0.953 | 68012 | 17.9 | 12.6 | 82.3 |
2 | Suiza | 0.944 | 57625 | 16.2 | 13.4 | 83.5 |
3 | Australia | 0.939 | 43560 | 22.9 | 12.9 | 83.1 |
4 | Irlanda | 0.938 | 53754 | 19.6 | 12.5 | 81.6 |
5 | Alemania | 0.936 | 46136 | 17.0 | 14.1 | 81.2 |
6 | Islandia | 0.935 | 45810 | 19.3 | 12.4 | 82.9 |
7 | RAE de Hong Kong (China) | 0.933 | 58420 | 16.3 | 12.0 | 84.1 |
8 | Suecia | 0.933 | 47766 | 17.6 | 12.4 | 82.6 |
9 | Singapur | 0.932 | 82503 | 16.2 | 11.5 | 83.2 |
10 | Países Bajos | 0.931 | 47900 | 18.0 | 12.2 | 82.0 |
En cambio, en la parte inferior de la tabla nos encontramos lo contrario, como vemos en la Tabla 4, mediante el código tail(hdi, 10)
. Todos los países con valores bajos en su IDH tienen un GNI bajo, unos niveles de educación inferiores y una esperanza de vida baja. Níger es el último país de la lista. Tiene un GNI inferior a los 1.000 dólares/año, los jóvenes del país pasan muy pocos años en la escuela y la población vive de media poco más de sesenta años.
P | country | IDH | GNI | E1 | E2 | LE |
---|---|---|---|---|---|---|
180 | Mozambique | 0.437 | 1093 | 9.7 | 3.5 | 58.9 |
181 | Liberia | 0.435 | 667 | 10.0 | 4.7 | 63.0 |
182 | Mali | 0.427 | 1953 | 7.7 | 2.3 | 58.5 |
183 | Burkina Faso | 0.423 | 1650 | 8.5 | 1.5 | 60.8 |
184 | Sierra Leona | 0.419 | 1240 | 9.8 | 3.5 | 52.2 |
185 | Burundi | 0.417 | 702 | 11.7 | 3.0 | 57.9 |
186 | Chad | 0.404 | 1750 | 8.0 | 2.3 | 53.2 |
187 | Sudán del Sur | 0.388 | 963 | 4.9 | 4.8 | 57.3 |
188 | República Centroafricana | 0.367 | 663 | 7.2 | 4.3 | 52.9 |
189 | Níger | 0.354 | 906 | 5.4 | 2.0 | 60.4 |
Practica 4. Búsqueda de países: visualizad el principio de la tabla con head()
, el final de la tabla con tail()
o cualquier fragmento de la tabla con la función slice()
. Por ejemplo, tecleando slice(hdi, 30:40)
visualizaremos de la trigésima a la cuadragésima observación del ranking. Responded a las siguientes preguntas:
- ¿Cuál es el país con mayor esperanza de vida?
- ¿Cuál es el país con una media inferior de años de escolarización?
- ¿Cuál es el país con el ingreso nacional bruto per cápita más bajo?
- Buscad la posición de España, Japón y Palestina. También podéis buscarla con:
hdi[which(hdi$country == "Nombre del país"),]
- Observad la distribución de la esperanza de vida con un histograma mediante
hist(hdi$LE)
. ¿En qué franja hay más países? Haced lo mismo con el GNI. ¿En qué franja de ingresos se encuentran más países?