Skip to main content

Modernizar el acceso a los datos educativos podría mejorar el aprendizaje de los estudiantes

Para que la IA maximice sus beneficios para la educación, necesita una dieta de datos de calidad que las estadísticas nacionales puedan proporcionar.

A medida que la revolución de la inteligencia artificial se desarrolla a nuestro alrededor, muchos investigadores y profesionales de la educación creen que la IA pronto conducirá a intervenciones altamente personalizadas, como los tutores inteligentes. En teoría, estas herramientas deberían responder con mayor precisión a las necesidades de los estudiantes e involucrarlos con materiales de aprendizaje más relevantes, lo que conduciría a un mejor progreso educativo. Pero el desarrollo de aplicaciones de IA se basa en grandes conjuntos de datos de alta calidad, un estándar que con demasiada frecuencia no se cumple, ya que los modelos generativos de IA se entrenan en su mayoría con datos disponibles públicamente que son opacos, carecen de documentación y probablemente estén sesgados.

El Instituto de Ciencias de la Educación (IES), la agencia científica independiente del Departamento de Educación de EE. UU. que dirigí hasta marzo de este año, cuenta con una gran cantidad de datos que pueden y deben usarse para mejorar nuestra comprensión del aprendizaje de los estudiantes. Esto es especialmente cierto en el caso de la unidad estadística de IES, el Centro Nacional de Estadísticas Educativas (NCES), que administra la Evaluación Nacional del Progreso Educativo (NAEP).

A través de sus evaluaciones, el programa NAEP ha acumulado grandes cantidades de datos de alta calidad sobre lo que los estudiantes saben y pueden hacer. (Alrededor de medio millón de estudiantes toman las evaluaciones de lectura y matemáticas de cuarto y octavo grado cada dos años; las pruebas en otros grados y materias ocurren con menos frecuencia). Los datos de la NAEP son particularmente valiosos para propósitos de capacitación en IA, ya que todas las evaluaciones de la NAEP son representativas a nivel nacional (garantizando que los datos no reflejan sólo un segmento limitado de la población). Además, los datos están "etiquetados", lo que significa que las evaluaciones ya han sido calificadas por evaluadores humanos experimentados y, a menudo, incluyen información detallada sobre el concepto que se está probando. Durante los últimos cinco años, se han gastado más de 700 millones de dólares de ingresos federales de los contribuyentes estadounidenses (más de 100 millones de dólares sólo en el desarrollo de preguntas) para crear este tesoro de datos. Incluye cientos de miles de ensayos de estudiantes, ejercicios de matemáticas y respuestas a exámenes de educación cívica. Este gran conjunto de datos puede ayudar a investigadores, formuladores de políticas, padres y maestros a mejorar el aprendizaje y el desempeño de los estudiantes utilizando el poder de la IA.

Pero esto no está sucediendo al ritmo que debería. Actualmente, obtener acceso a datos con fines de investigación a través del NCES es demasiado difícil. Los engorrosos procedimientos de solicitud, los obstáculos burocráticos y los procesos lentos afectan tanto a los investigadores como a las organizaciones. Por ejemplo, un equipo de investigadores altamente calificados de la Universidad de Vanderbilt buscó acceso a tres conjuntos de datos matemáticos de la NAEP durante casi un año, enfrentándose a frustrantes ineficiencias administrativas como la pérdida de documentos y la negativa a aceptar firmas electrónicas que requerían que el equipo enviara documentos por correo a varias personas antes. incluso se podría presentar su solicitud de datos.

Estos problemas se deben a políticas de seguridad heredadas destinadas a proteger los registros en papel y los datos almacenados en discos compactos (¿los recuerda?). Este no es el mundo en el que vivimos hoy.

Muchas agencias gubernamentales, incluida IES, ahora brindan acceso remoto seguro a conjuntos de datos confidenciales. El Servicio de Investigación de Datos Administrativos (ADRF) creado por la Iniciativa Coleridge es una plataforma de investigación segura que facilita el acceso a microdatos confidenciales sensibles. Proporciona un modelo de cómo se pueden proteger los datos y al mismo tiempo facilita el acceso a la infraestructura de la nube contemporánea para mejorar la colaboración, el acceso a recursos informáticos compartidos y otros beneficios. Este enclave virtual ahora permite el acceso seguro a la NAEP y otros datos de los estudiantes de IES. Las agencias estatales de educación y fuerza laboral, instituciones postsecundarias y organizaciones sin fines de lucro también hacen uso de esta instalación.

A pesar de esta innovación, existe un cuello de botella para obtener acceso remoto a los datos de IES. Los solicitantes deben completar formularios anticuados que hacen referencia a “software antivirus”, archivadores cerrados con llave, computadoras desconectadas de Internet y otros elementos que claramente fueron creados en una era muy diferente de almacenamiento e investigación de datos. Es hora de eliminar estas barreras arcaicas y publicar los datos de NCES y NAEP más rápidamente para facilitar el desarrollo de la IA con fines educativos.

La primera tarea es un esfuerzo concertado para modernizar el proceso actual de solicitud de datos seguros, facilitando a los investigadores y desarrolladores la obtención de los datos que necesitan para sus proyectos. Se necesita un nuevo sistema de solicitud de propuestas para procesar solicitudes en línea en lugar de depender del envío en papel por correo. Los envíos digitales respaldarían revisiones más automatizadas, encontrando y corrigiendo errores de bajo nivel, como una firma faltante. Esto, a su vez, permitiría que el personal capacitado y altamente remunerado que revisa las solicitudes se centre en cuestiones más sustantivas. Además, se adaptaría a la prevalencia del trabajo remoto y las colaboraciones multiinstitucionales al permitir las firmas electrónicas y la colaboración en un espacio en línea en lugar de físico.

A largo plazo, aumentar el acceso también significará ampliar la perspectiva sobre los usos permitidos de los datos del NCES. NCES se centra apropiadamente en productos de datos de alta calidad que respaldan los usos estadísticos de los datos de los estudiantes, evitando usos de aplicación de la ley, vigilancia o marketing. En términos más generales, IES y sus centros trabajan principalmente con universidades y organizaciones sin fines de lucro. Sin embargo, muchas organizaciones del sector privado, especialmente empresas de tecnología, están interesadas en utilizar los datos para fines relacionados con la IA. Nuestro sistema actual rara vez permite esto, en parte debido a preocupaciones sobre la privacidad de los datos de los estudiantes, pero igualmente prohibitiva es una cultura burocrática que mira con recelo a las empresas comerciales. Sin embargo, los usos estadísticos pueden alinearse con los usos analíticos y de capacitación, y hay muchas tecnologías de mejora de la privacidad en desarrollo e implementación en otras agencias de las cuales IES y NCES pueden aprender.

Claramente, estos cambios deben ser consistentes con la Ley de Privacidad y Derechos Educativos de la Familia (FERPA), que rige el acceso a los datos educativos. Y, con la misma claridad, IES y NCES deben proteger la privacidad de los datos de los estudiantes dentro de esa ley. Pero ninguna de estas actualizaciones propuestas para el proceso de acceso a los datos afecta las protecciones vigentes en los sistemas (arcaicos) existentes. En términos más generales, FERPA ha actuado con demasiada frecuencia como un freno a los cambios necesarios en las formas en que se pueden utilizar datos valiosos. IES debe liderar un esfuerzo para equilibrar mejor la preocupación por proteger la privacidad de los estudiantes con la realidad de que la nación también necesita avances que sólo el acceso a datos representativos y libres de sesgos como los generados por la NAEP puede proporcionar.

Mark Schneider fue Director del Instituto de Ciencias de la Educación desde 2018 hasta marzo de 2024.

https://www.educationnext.org/modernizing-access-to-education-data-could-improve-student-learning/