Predicción de la deserción escolar en chile con machine learning

Autores: Jerome Smith y Cristián Gutiérrez, Universidad Católica Silva Henríquez.

La deserción escolar es un grave problema social que contribuye a generar mucha pobreza y sufrimiento. Las personas que no han terminado la enseñanza media o básica obviamente sufren las consecuencias directas, pero además extienden este problema al resto de la sociedad, ya que se convierten en una carga social debido a su falta de educación y capacitación laboral.

Por consiguiente, es de gran utilidad social detectar a tiempo los niños y niñas que están en riesgo de desertar. Si la detección es oportuna, es posible hacer una intervención psicosocial -a cargo de profesionales como psicólogos y asistentes sociales de los colegios- que pueda disminuir las probabilidades de deserción. Para que la labor de estos profesionales con recursos escasos sea efectiva, es crucial tener un sistema de alerta temprana que detecte los estudiantes que verdaderamente están en riesgo. Para lo anterior, son tan perjudiciales los falsos negativos (no detectar los estudiantes que sí están en riesgo) como los falsos positivos (dar la falsa alarma en estudiantes que no están en riesgo). Los primeros dejarán que varios niños se caigan del sistema escolar, y los segundos implicarán desperdiciar recursos que podrían ser aprovechados en los niños que realmente los necesitan.

Los sistemas tradicionales de alerta temprana de la deserción escolar utilizan umbrales de asistencia. El problema con estos métodos es que adolecen de muchos falsos negativos y positivos. No es de sorprender, ya que el fenómeno de la deserción escolar es complejo y multidimensional, y hay muchas otras variables que pueden ser buenas predictoras de la deserción.

En nuestra investigación, hemos usado una mayor variedad de variables, obtenidas de las bases de datos completas de matrículas, facilitadas por el Ministerio de Educación. Cada año tiene más de 3 millones de matrículas. Algunas de las variables que usamos incluyen la cantidad total de repitencias de cada estudiante, sus notas académicas, la diferencia de edad con respecto al nivel cursado, la cantidad de cambios de colegio de cada estudiante y el número de estudiantes por curso.

Además, sumado al mayor número de variables, empleamos técnicas estadísticas sofisticadas que permiten obtener mejores resultados. Para medir el desempeño de los modelos predictivos, se usan habitualmente dos métricas, a saber, la Especificidad, que en este caso es el porcentaje de no deserciones identificadas correctamente, y la Sensitividad, que en este caso es el porcentaje de deserciones identificadas correctamente. Claramente, estas métricas son la contraparte de los falsos negativos y positivos respectivamente.

Nuestro mejor modelo -basado en redes neuronales- tuvo un desempeño significativamente superior a métodos estadísticos más tradicionales con una Sensitividad de 41% versus 29%. Las Especificidades son similares y cercanas al 99%. El impacto de esta diferencia es significativa. La prevalencia de la deserción en el año 2013 era 8,93%, equivalente a un total de 305.186 niñas y niños que desertan de un universo de 3.417.535. Por lo tanto, por cada 1% de mejora en la Sensitividad del modelo, se detectan 3.052 estudiantes adicionales. Para los 12 puntos porcentuales de diferencia entre el mejor modelo y el tradicional, esto implica 36.622 niñas y niños adicionales que pueden ser encontrados a tiempo.

Pueden leer los detalles completos de esta investigación en nuestra publicación: https://journalmbr.net/index.php/mbr/article/view/2830

En conclusión, las técnicas de machine learning con grandes volúmenes de datos tienen aplicaciones sociales beneficiosas, y es de esperar que siga creciendo su implementación en las empresas y organismos públicos.

Compártelo en tu red social favorita

Get Curated Post Updates!

Sign up for my newsletter to see new photos, tips, and blog posts.