Random Forest to identify sociodemographic factors associated with the use of Internet in Perú
Jorge Brian Alarcón Flores y María Estela Ponce Aruneri
Facultad de Ciencias Matemáticas, Universidad Nacional Mayor de San Marcos, Lima, Perú.
E-mail: jbrianaf@gmail.com, mepa@unmsm.edu.pe
Recibido el 10 de julio del 2016; revisado el 14 de noviembre del 2016 y aceptado el 15 de diciembre del 2016
DOI: https://doi.org/10.33017/RevECIPeru2016.0008/
Resumen
La sociedad de hoy en día se encuentra viviendo una etapa de constantes cambios, debido en gran medida a la introducción de nuevas tecnologías en el quehacer de la vida cotidiana; es por ello, que diversos líderes mundiales afirman que el uso de las Tecnologías de la Información y Comunicación (TIC) tienen un rol fundamental en el desarrollo de las naciones. Pero es Internet con más de 200 millones de usuarios a nivel global, que ha llegado a posicionarse como una de las TIC con mayor crecimiento tecnológico en los últimos años, llegando incluso a ser considerado como el medio de comunicación más popular en toda la historia de la humanidad. El Perú es un país emergente, que puede encontrar en estas herramientas tecnológicas el camino para convertirse en una sociedad de la información, ayudando a conseguir mejores oportunidades económicas y sociales para todos sus habitantes. Nuestro objetivo en la presente investigación es identificar los factores sociodemográficos asociados al uso de Internet en el Perú. Aplicamos el modelo de minería de datos de clasificación supervisada random forest, a la base de datos de la Encuesta Residencial de Servicios de Telecomunicaciones (ERESTEL) 2014, realizada por el Organismo Superior de Inversión Privada en Telecomunicaciones (OSIPTEL). La muestra fue de 14 626 hogares en los 24 departamentos del Perú, la cual fue aplicada a 42 046 personas de dichos hogares. El modelo propuesto nos permite identificar la edad, nivel educativo, departamento de procedencia y nivel socioeconómico como los factores sociodemográficos prioritarios para el uso de internet en nuestro país. El modelo clasificó correctamente al 83% de las personas. Esperamos que estos resultados contribuyan a la formulación de las políticas sociales y económicas ligadas a la accesibilidad y manejo de tecnologías en nuestro país, particularmente al uso del internet.
Descriptores: random forest, factores, internet, tecnologías de la información y comunicación.
Abstract
Society today is experiencing a period of constant change, due largely to the introduction of new technologies in the work of everyday life; It is for this reason that many world leaders say the use of Information Technology and Communication (ICT) play a fundamental role in the development of nations. But it is the Internet with more than 200 million users globally, which has come to position itself as one of ICT more technological growth in recent years, even to be considered as the most popular means of communication throughout history humanity. Peru is an emerging country, which can be found in these technological tools the way to become an information society, helping to achieve better economic and social opportunities for all its inhabitants. Our goal in this research is to identify sociodemographic factors associated with the use of Internet in Peru. We apply the data mining model supervised classification random forest, to the database of the Residential Telecommunications Services Survey (Erestel) 2014, conducted by the Superior Agency for Private Investment in Telecommunications (Osiptel). The sample consisted of 14,626 households in the 24 departments of Peru, which was applied to 42,046 people in these households. The proposed model allows us to identify the age, level of education, department of origin and socio-economic level as the socio-demographic factors priority for the use of internet in our country. The model correctly classified 83% of people. We hope that these results will contribute to the formulation of economic and social policies related to accessibility and management of technologies in our country, particularly to the use of the internet.
Keywords: random forest, factors, internet, information and communication technologies.