Skip to main content

Tutoría Two-Sigma: Separando la ciencia ficción de la realidad científica

Una intervención experimental en la década de 1980 elevó ciertas puntuaciones de pruebas en dos desviaciones estándar. No fue solo una tutoría y nunca se ha replicado, pero continúa inspirando.

  • El ensayo de Benjamin Bloom “El problema 2 Sigma”, que presenta su famosa Figura 1 dibujada a mano que muestra el supuesto inmenso beneficio de la tutoría individual, ha creado creyentes y escépticos durante 40 años. Ahora, con el surgimiento de la inteligencia artificial generativa, los innovadores en educación como Sal Khan de Khan Academy ven el potencial de los tutores de IA para cumplir la promesa de Bloom.

En el otoño de 1945, cuando mi padre no tenía ni ocho años, su maestra le dijo a mi abuela que estaba reprobando segundo grado. Mi padre no recuerda sus razones, o tal vez mi abuela nunca se lo dijo, pero la maestra sintió que no estaba listo para el trabajo de segundo grado.

“Si no le va bien en segundo grado”, sugirió mi abuela, “¿por qué no intentarlo en tercero?” Y encontró un tutor, un profesor jubilado de otra escuela.

Durante siete semanas, mi padre se reunía una hora al día con el tutor, quien le asignaba deberes después de cada sesión. El encargo del tutor era asegurarse de que mi padre dominara el plan de estudios, no sólo para segundo grado, sino también para tercero, lo suficiente como para poder ingresar a un aula de tercer grado en enero de 1946, un año antes, sin necesitar más ayuda.

Pero el tutor se excedió. Mi padre no sólo no encontró nada en tercer grado que ella no le hubiera enseñado, sino que también pasó por cuarto y quinto grado.

Alrededor de 1960, mientras compraba en Filene's Basement en el centro de Boston, mi abuela se encontró con una antigua vecina: una madre que se había mudado cuando mi abuela buscaba un tutor para ayudar a su hijo a escapar del segundo grado. Después de alardear de su propia familia, la vecina preguntó si mi padre se encontraba bien.

"¡Él está bien!" dijo mi abuela triunfalmente. "Está en Oxford, con una beca Rhodes".

Historias como ésta dan la impresión de que los tutores pueden hacer milagros. Durante siglos después de que Aristóteles fuera tutor de Alejandro Magno, ciertos individuos afortunados (incluidos Albert Einstein, Félix Mendelssohn, Agatha Christie y prácticamente todos los monarcas británicos anteriores a Carlos III) fueron educados parcial o totalmente por tutores privados y miembros de su familia. Si bien ningún académico lamenta la difusión de la escolarización masiva, muchos sospechan que la instrucción que los estudiantes reciben de un maestro en un aula grande nunca podrá igualar la instrucción personalizada que proviene de un tutor centrado sólo en sus necesidades individuales.

En un ensayo de 1984 , Benjamin Bloom, psicólogo educativo de la Universidad de Chicago, afirmó que la tutoría ofrecía “las mejores condiciones de aprendizaje que podemos idear”. Los tutores, afirmó Bloom, podrían aumentar el rendimiento de los estudiantes en dos desviaciones estándar completas o, en el lenguaje estadístico, dos “sigmas”. En opinión de Bloom, este efecto extraordinario demostró que la mayoría de los estudiantes eran capaces de aprender mucho más de lo que normalmente lograban, pero la mayor parte de su potencial quedó sin explotar porque no era práctico asignar un tutor individual a cada estudiante. Bloom sostenía que el principal desafío al que se enfrentaba la educación era idear intervenciones más económicas que pudieran acercarse a los beneficios de la tutoría.

 

 

 
El ensayo de Benjamin Bloom “El problema 2 Sigma”, que presenta su famosa Figura 1 dibujada a mano que muestra el supuesto inmenso beneficio de la tutoría individual, ha creado creyentes y escépticos durante 40 años.  Ahora, con el surgimiento de la inteligencia artificial generativa, los innovadores en educación como Sal Khan de Khan Academy ven el potencial de los tutores de IA para cumplir la promesa de Bloom.
El ensayo de Benjamin Bloom “El problema 2 Sigma”, que presenta su famosa Figura 1 dibujada a mano que muestra el supuesto inmenso beneficio de la tutoría individual, ha creado creyentes y escépticos durante 40 años. Ahora, con el surgimiento de la inteligencia artificial generativa, los innovadores en educación como Sal Khan de Khan Academy ven el potencial de los tutores de IA para cumplir la promesa de Bloom.

En el otoño de 1945, cuando mi padre no tenía ni ocho años, su maestra le dijo a mi abuela que estaba reprobando segundo grado. Mi padre no recuerda sus razones, o tal vez mi abuela nunca se lo dijo, pero la maestra sintió que no estaba listo para el trabajo de segundo grado.

“Si no le va bien en segundo grado”, sugirió mi abuela, “¿por qué no intentarlo en tercero?” Y encontró un tutor, un profesor jubilado de otra escuela.

Durante siete semanas, mi padre se reunía una hora al día con el tutor, quien le asignaba deberes después de cada sesión. El encargo del tutor era asegurarse de que mi padre dominara el plan de estudios, no sólo para segundo grado, sino también para tercero, lo suficiente como para poder ingresar a un aula de tercer grado en enero de 1946, un año antes, sin necesitar más ayuda.

Pero el tutor se excedió. Mi padre no sólo no encontró nada en tercer grado que ella no le hubiera enseñado, sino que también pasó por cuarto y quinto grado.

Alrededor de 1960, mientras compraba en Filene's Basement en el centro de Boston, mi abuela se encontró con una antigua vecina: una madre que se había mudado cuando mi abuela buscaba un tutor para ayudar a su hijo a escapar del segundo grado. Después de alardear de su propia familia, la vecina preguntó si mi padre se encontraba bien.

"¡Él está bien!" dijo mi abuela triunfalmente. "Está en Oxford, con una beca Rhodes".

Historias como ésta dan la impresión de que los tutores pueden hacer milagros. Durante siglos después de que Aristóteles fuera tutor de Alejandro Magno, ciertos individuos afortunados (incluidos Albert Einstein, Félix Mendelssohn, Agatha Christie y prácticamente todos los monarcas británicos anteriores a Carlos III) fueron educados parcial o totalmente por tutores privados y miembros de su familia. Si bien ningún académico lamenta la difusión de la escolarización masiva, muchos sospechan que la instrucción que los estudiantes reciben de un maestro en un aula grande nunca podrá igualar la instrucción personalizada que proviene de un tutor centrado sólo en sus necesidades individuales.

En un ensayo de 1984 , Benjamin Bloom, psicólogo educativo de la Universidad de Chicago, afirmó que la tutoría ofrecía “las mejores condiciones de aprendizaje que podemos idear”. Los tutores, afirmó Bloom, podrían aumentar el rendimiento de los estudiantes en dos desviaciones estándar completas o, en el lenguaje estadístico, dos “sigmas”. En opinión de Bloom, este efecto extraordinario demostró que la mayoría de los estudiantes eran capaces de aprender mucho más de lo que normalmente lograban, pero la mayor parte de su potencial quedó sin explotar porque no era práctico asignar un tutor individual a cada estudiante. Bloom sostenía que el principal desafío al que se enfrentaba la educación era idear intervenciones más económicas que pudieran acercarse a los beneficios de la tutoría.

El artículo de Bloom, “El problema 2 Sigma”, rápidamente se convirtió en un clásico. Dos años después de su publicación, otros académicos lo citaban semanalmente (50 veces al año) y su influencia no ha hecho más que aumentar a lo largo de las décadas. En los últimos 10 años, el artículo ha sido citado más de 2000 veces (ver Figura 1).

Citas de "El problema 2 Sigma" de Bloom

La influencia del ensayo dos sigma de Bloom llegó mucho más allá de la literatura académica. A medida que avanzaban las revoluciones de la informática y las telecomunicaciones, los visionarios resaltaron repetidamente el potencial de la tecnología para responder al desafío de Bloom. A partir de la década de 1980, investigadores y tecnólogos desarrollaron y finalmente lanzaron al mercado “tutores informáticos cognitivos”, que Albert Corbett, de la Universidad Carnegie Mellon, afirmó en 2001 que estaban “ resolviendo el problema de dos sigma ”. En la década de 2010, las mejoras en las videoconferencias bidireccionales permitieron a los estudiantes ver tutores humanos fuera de horario y en ubicaciones remotas, acercando el sueño del acceso universal, aunque todavía no había suficientes tutores para todos.

Luego, a finales de 2022, mejoras sorprendentes en la inteligencia artificial ofrecieron a los estudiantes una forma de conversar con software en un lenguaje flexible e informal, sin necesidad de un tutor humano al otro lado de un teléfono o una conexión de vídeo. Sal Khan, fundador de Khan Academy, destacó esta promesa en una charla TedX de mayo de 2023, " La solución Two Sigma ", que promovió el lanzamiento de su software de tutoría Khanmigo impulsado por inteligencia artificial.

El entusiasmo por las tutorías ha aumentado desde la pandemia de Covid-19. Más de dos años después de la reapertura de las escuelas, los puntajes promedio en lectura siguen siendo 0,1 desviaciones estándar más bajos y los puntajes en matemáticas son 0,2 desviaciones estándar más bajos, en promedio, de lo que serían si las escuelas nunca hubieran cerrado. La persistencia de la pérdida de aprendizaje durante la pandemia puede hacer que parezca un problema insuperable, pero las pérdidas son solo una fracción del efecto dos sigma que, según Bloom, podría producir la tutoría. ¿Podría un poco de tutoría poner a los niños al día o incluso ayudarlos a salir adelante?

¿Son realistas los efectos Two-Sigma?

Pero, ¿qué tan realista es esperar que cualquier tipo de tutoría (humana o de inteligencia artificial) mejore el rendimiento de los estudiantes en dos desviaciones estándar?

Benjamin Bloom es considerado no sólo por su experimento de tutoría sino también por su rúbrica de aprendizaje "Taxonomía de Bloom".
Benjamin Bloom es considerado no sólo por su experimento de tutoría sino también por su rúbrica de aprendizaje “Taxonomía de Bloom”.

Dos sigmas tienen un tamaño de efecto enorme. Como explicó Bloom, una mejora de dos sigma llevaría a un estudiante del percentil 50 al 98 de la distribución de logros. Si un tutor pudiera aumentar, digamos, los puntajes del SAT en esa cantidad, podría convertir a un estudiante promedio en un potencial becario Rhodes.

Dos sigmas es más del doble de la brecha promedio en el puntaje de las pruebas entre los niños que son lo suficientemente pobres como para recibir almuerzos escolares gratuitos y los niños que pagan el precio completo. Si los tutores pudieran aumentar tanto las puntuaciones de los exámenes de los niños pobres, no sólo podrían cerrar la brecha de rendimiento sino también revertirla, haciendo que los niños pobres pasen de estar muy por detrás de sus compañeros más acomodados a saltar muy por delante.

Dos sigmas también representan una enorme cantidad de aprendizaje, especialmente para los estudiantes mayores. Representa más de un año de aprendizaje en la escuela primaria y algo así como cinco años de aprendizaje en la escuela media y secundaria .

Todo suena genial, pero si también te parece un poco descabellado, no estás solo. En 2020, Matthew Kraft, de la Universidad de Brown, sugirió que la afirmación de Bloom “ayudó a anclar las expectativas de los investigadores en educación sobre tamaños de efectos irrealmente grandes”. La revisión de Kraft encontró que la mayoría de las intervenciones educativas producen efectos de 0,1 desviaciones estándar o menos. La tutoría puede ser mucho más eficaz que eso, pero rara vez se aproxima a dos desviaciones estándar.

Un metaanálisis de 1982 realizado por Peter Cohen, James Kulik y Chen-Lin Kulik (publicado dos años antes del ensayo de Bloom pero citado sólo la mitad de veces) informó que el efecto promedio de la tutoría fue de aproximadamente 0,33 desviaciones estándar, o 13 puntos percentiles. Entre 65 estudios de tutoría revisados ​​por los autores, sólo uno (un estudio de disertación aleatorio de 1972 que dio tutoría a 32 estudiantes) informó un efecto dos sigma. Más recientemente, un metanálisis de estudios aleatorios realizado en 2020 por Andre Nickow, Philip Oreopoulos y Vincent Quan encontró que el efecto promedio de la tutoría fue de 0,37 desviaciones estándar, o 14 puntos percentiles, “impresionante”, como escribieron los autores, pero lejos de serlo. dos sigmas. Entre los 96 estudios de tutoría que revisaron los autores, ninguno produjo un efecto dos sigma.

Entonces, ¿de dónde sacó Bloom la idea de que el beneficio característico de la tutoría eran dos desviaciones estándar? ¿Había algo detrás de la afirmación de dos sigma de Bloom en 1984? ¿Por qué seguimos repitiéndolo 40 años después?

¿Qué evidencia tenía Bloom?

La Figura 1 de Bloom—reproducida en la charla TEDx de Khan, entre muchos otros lugares—aparentemente mostró la distribución de los puntajes de las pruebas posteriores para los estudiantes que recibieron tutoría, comparándolos con los estudiantes que recibieron instrucción convencional en grupo completo y con los estudiantes que recibieron una versión de lo que Bloom llamó “aprendizaje de dominio”, que combinaba instrucción de todo el grupo con retroalimentación individualizada. Pero el gráfico era sólo ilustrativo: dibujado a mano de forma suave y estilizada para mostrar cómo se vería un efecto dos sigma. No se ajustaba a los datos reales.

Más adelante en el ensayo, la Tabla 1 de Bloom comparó los efectos de diferentes intervenciones educativas. La tutoría apareció en la parte superior de la lista, con un efecto de 2,00 desviaciones estándar. Debajo de la tutoría, la tabla enumera el aprendizaje por refuerzo (1,20 desviaciones estándar), el aprendizaje de dominio (1,00 desviaciones estándar) y una variedad de otros efectos que parecen sorprendentemente grandes para los estándares modernos.

¿De dónde sacó Bloom estas estimaciones tan grandes y curiosamente redondas? Afirmó que los había adaptado de un artículo que resumía los primeros metanálisis publicado un mes antes por Herb Walberg , profesor de la Universidad de Illinois en Chicago. Pero las tablas de Walberg y Bloom no coinciden del todo (ver Tabla 1). Aunque varias de las estimaciones de Bloom se alinearon con las de Walberg, al menos cuando se redondearon, la mayoría de los efectos en la tabla de Bloom no aparecieron en la de Walberg, y la mayoría de los efectos en la tabla de Walberg no aparecieron en la de Bloom. Y los dos profesores definitivamente no estaban de acuerdo sobre el efecto de la tutoría.

Walberg no puso la tutoría en la parte superior de su lista y estimó que su efecto era de 0,40 desviaciones estándar, cerca de los efectos promedio informados en los metanálisis. Bloom repitió la estimación de Walberg de 0,40 desviaciones estándar, pero la describió de manera algo estricta como el efecto de la “tutoría de recuperación entre pares y entre edades”. La estimación de Walberg no estaba tan circunscrita; lo describió simplemente como el efecto de la tutoría.

Tabla 1: Las afirmaciones de Bloom sobre la tutoría difieren de su fuente clave

Bloom confió en dos estudiantes

¿Por qué Bloom volvió a etiquetar el efecto tutor de Walberg como 0,40 y de dónde sacó Bloom su propia estimación de 2,00? Parece que Bloom estaba depositando su fe en los estudios de tesis de dos de sus estudiantes de doctorado, Joanne Anania y Arthur J. Burke . Tanto Anania como Burke informaron efectos dos sigma al comparar la tutoría con la instrucción en el aula con todo el grupo, y efectos sustanciales, aunque no tan grandes, del aprendizaje de dominio.

Debido a que Anania y Burke proporcionaron esencialmente toda la evidencia empírica que respaldaba la afirmación de Bloom sobre la tutoría dos sigma, es un poco sorprendente que Bloom no los acreditara como coautores. Bloom citó las disertaciones de sus estudiantes, pero si Burke y Anania hubieran sido coautores de un clásico instantáneo como “El problema 2 Sigma”, podrían haber conseguido trabajos que les proporcionaran los recursos para realizar más investigaciones sobre tutoría y aprendizaje de dominio. En cambio, Anania publicó una versión en revista de su investigación de tesis, que ha sido citada sólo 77 veces hasta la fecha. Enseñó en tres universidades del área de Chicago, donde se especializó en lectura, literatura infantil y alfabetización de adultos. Su obituario de 2012 no menciona su trabajo en materia de tutoría. Burke nunca publicó la investigación de su tesis ni ningún otro tema sobre tutoría. Años más tarde, publicó media docena de informes para el Laboratorio Regional del Noroeste sobre suspensión, expulsión y graduación, no sobre tutoría.

Bloom también trabajó poco en tutorías después de 1984. Su siguiente y último gran proyecto fue un libro editado titulado Developing Talent in Young People . Publicado en 1985, el libro se basó en entrevistas con adultos consumados para reconstruir cómo habían desarrollado sus talentos para la música, la escultura, el atletismo, las matemáticas o las ciencias. Bloom, que sólo escribió la introducción, resumió su afirmación de dos sigma en un solo párrafo que no mencionaba a Anania ni a Burke. Bloom se jubiló en 1991 y murió en 1999.

Es un poco extraño, ¿no? Si estos tres individuos (dos de ellos recién comenzando sus carreras de investigación) realmente descubrieron una manera de aumentar las puntuaciones de los exámenes de los estudiantes en dos desviaciones estándar, ¿por qué no hicieron más con ella? ¿Por qué no realizaron más investigaciones? ¿Por qué no fundaron una empresa de tutorías?

 

El efecto dos sigma no se debió solo a la tutoría

¿Anania y Burke realmente encontraron efectos dos sigma en la tutoría? Debo admitir que me sentía escéptico cuando imprimí sus disertaciones. Pocos hallazgos sobre educación realizados hace 40 años se mantienen bien, y el trabajo de los estudiantes, la mitad de ellos inédito, cuyos efectos nunca han sido replicados, parecía especialmente poco prometedor.

Sin embargo, para mi sorpresa, encontré muchas cosas que me gustaron en las disertaciones de Anania y Burke. Ambos estudiantes realizaron experimentos pequeños pero muy bien diseñados para probar el efecto de una intervención educativa reflexiva. Asignaron aleatoriamente a estudiantes de cuarto, quinto y octavo grado para recibir instrucción de toda la clase, aprendizaje de dominio o tutoría. Los alumnos de 4º y 5º aprendieron probabilidad; Los alumnos de octavo grado aprendieron cartografía. En una prueba posterior realizada al final del experimento de tres semanas, el grupo tutelado realmente superó al grupo de toda la clase en dos desviaciones estándar en promedio.

Pero las pruebas que realizaron los estudiantes fueron muy específicas. Y la intervención de tutoría implicó mucho más que simplemente tutoría.

Los estudiantes tomaron una prueba estrecha. Burke y Anania eligieron los temas de probabilidad y cartografía por una razón específica: porque esos temas no eran familiares para los estudiantes participantes. No hay nada de malo en elegir un tema desconocido; los experimentos en la ciencia del aprendizaje comúnmente lo hacen. Pero es más fácil producir un gran efecto cuando los estudiantes empiezan desde cero. El metanálisis de Cohen, Kulik y Kulik de 1982 informó que los efectos de la tutoría promediaron 0,84 desviaciones estándar cuando se midieron en pruebas estrechas desarrolladas por los autores del estudio, versus sólo 0,27 desviaciones estándar cuando se midieron en pruebas estandarizadas más amplias. En 2020, Matt Kraft informó que los efectos de las intervenciones educativas en general (no solo de las tutorías) son aproximadamente el doble cuando se evalúan con base en pruebas restringidas en lugar de pruebas amplias.

Si bien la intervención de Anania y Burke logró efectos de dos sigma en las pruebas del material cubierto en su experimento de tres semanas, es dudoso que pudieran lograr efectos similares en una prueba amplia como el SAT, que mide años de habilidades y conocimientos acumulados. o en los exámenes estatales de matemáticas y lectura que tanto preocupan a padres y maestros desde la pandemia.

Ciertamente no en tres semanas.

Los estudiantes tutelados recibieron pruebas y comentarios adicionales. La intervención dos sigma de Burke y Anania implicó tutoría, pero también tenía otras características. Quizás lo más importante fue que los estudiantes tutelados recibieron pruebas y comentarios adicionales. Al final de cada unidad, todos los estudiantes tomaron una prueba, pero cualquier estudiante tutorizado que obtuvo una puntuación inferior al 80 por ciento (en el estudio de Anania) o al 90 por ciento (en el de Burke) recibió retroalimentación y corrección sobre conceptos que se habían perdido. Luego, los estudiantes tutorizados realizaron una segunda prueba con nuevas preguntas, una prueba que los estudiantes en la condición de toda la clase nunca recibieron. Si los estudiantes tutelados aún obtuvieron calificaciones inferiores al 80 o 90 por ciento, recibieron más comentarios y otra prueba.

Bloom reconoció que los experimentos de sus alumnos incluían pruebas y comentarios adicionales, pero afirmó que "la necesidad de trabajo correctivo bajo tutoría es muy pequeña". Esa afirmación era incorrecta. Claramente, los estudiantes tutelados se beneficiaron sustancialmente de la retroalimentación y de las nuevas pruebas (ver Figura 2). Por ejemplo, en la primera semana del experimento de Anania, los estudiantes tutelados obtuvieron 11 puntos porcentuales más en la nueva prueba que en la prueba inicial. En la segunda semana, los estudiantes tutelados obtuvieron 20 puntos porcentuales más en la nueva prueba que en la prueba inicial, y en la tercera semana, obtuvieron 30 puntos porcentuales más en la nueva prueba que en la prueba inicial.

El experimento de un estudiante de doctorado sobre tutoría

Estos aumentos del rendimiento y sus beneficios para el aprendizaje a largo plazo son ejemplos del efecto de las pruebas , un efecto que, aunque ampliamente apreciado en la psicología cognitiva actual , fue menos apreciado en la década de 1980. Los estudiantes aprenden de las pruebas y reevaluaciones, especialmente si reciben retroalimentación correctiva que se centra en procesos y conceptos en lugar de simplemente decirles si están en lo cierto o no. Los tutores de Burke y Anania recibieron capacitación sobre cómo brindar retroalimentación efectiva. De hecho, escribió Burke , "quizás la parte más importante de la formación de los tutores fue aprender a gestionar la retroalimentación y la corrección de forma eficaz". La retroalimentación y las nuevas pruebas también brindaron a los estudiantes tutelados más tiempo de instrucción que los estudiantes que recibieron instrucción con toda la clase: aproximadamente una hora más por semana, según Burke.

¿Qué parte del efecto dos sigma explicaron las pruebas y la retroalimentación adicionales? Casi la mitad. Se nota porque, además de los grupos con tutoría y de toda la clase, había un tercer grupo de estudiantes que participaban en un “aprendizaje de dominio”, que no incluía tutoría pero sí retroalimentación y pruebas después de la instrucción de toda la clase. En una prueba posterior realizada al final del experimento de tres semanas, los estudiantes que dominaban el aprendizaje obtuvieron aproximadamente 1,1 desviaciones estándar más que los estudiantes que recibieron instrucción con toda la clase. Esto es sólo un poco mayor que los efectos de 0,73 a 0,96 desviaciones estándar informados por los metanálisis que han estimado los efectos de las pruebas y la retroalimentación en pruebas limitadas.

Si la retroalimentación y las nuevas pruebas representaron 1,1 de los dos sigmas de Bloom, eso deja 0,9 sigmas que podemos atribuir a la tutoría. Eso no está muy lejos de los 0,84 sigmas que informa el metanálisis de Cohen, Kulik y Kulik para el efecto de la tutoría en pruebas estrechas.

Los tutores recibieron formación adicional. Las pruebas y la retroalimentación adicionales podrían haber sido los aspectos más importantes de la intervención de tutoría de Anania y Burke, pero no fueron los únicos.

Los tutores de Anania y Burke también recibieron capacitación, entrenamiento y práctica que otros instructores en sus experimentos no recibieron. Burke mencionó capacitar a los tutores para que brinden retroalimentación efectiva, pero los tutores también fueron capacitados “para desarrollar habilidades para brindar pautas de instrucción. . . resumir con frecuencia, adoptar un enfoque paso a paso y proporcionar suficientes ejemplos para cada nuevo concepto. . . . Para fomentar la participación activa de cada estudiante, se capacitó a los tutores para hacer preguntas capciosas, obtener respuestas adicionales de los estudiantes y pedirles ejemplos o respuestas alternativas”, todos ejemplos de práctica activa de aprendizaje y recuperación basada en la investigación. Finalmente, “se instó a los tutores a ser lo suficientemente generosos con elogios y aliento cada vez que un estudiante progresara. El propósito de esta capacitación fue ayudar al tutor a hacer del aprendizaje una experiencia gratificante para cada estudiante”.

Aunque estudios previos de tutoría no habían encontrado efectos mayores si los tutores estaban capacitados, la capacitación que recibieron estos tutores puede haber sido excepcional. Anania y Burke podrían haber aislado el efecto del entrenamiento si lo hubieran ofrecido a algunos de los instructores de toda la clase o del grupo de aprendizaje de dominio. Desafortunadamente, no hicieron eso, por lo que no podemos decir en qué medida su efecto de tutoría se debió a la capacitación de los tutores.

La tutoría fue integral. Muchos programas públicos y privados ofrecen tutoría como complemento a la instrucción en el aula. Los estudiantes asisten a clase con todos los demás y luego hacen un seguimiento con un tutor. Pero la tutoría en los experimentos de Burke y Anania no fue así. La tutoría no complementó la instrucción en el aula; la tutoría reemplazó la instrucción en el aula. Los estudiantes tutelados recibieron toda la instrucción de sus tutores; no asistieron a clase en absoluto. Esto es importante porque, según el metanálisis de Cohen, Kulik y Kulik , la tutoría es aproximadamente un 50 por ciento más efectiva cuando reemplaza, en lugar de sustituir, la instrucción en el aula.

Es fantástico, por supuesto, que los estudiantes de Burke y Anania hayan recibido la forma más eficaz de tutoría. Pero también significa que no era el tipo de tutoría que los estudiantes comúnmente reciben en un programa extraescolar o de retiro.

Todo lo que brilla

Es posible que mi padre haya tenido un tutor de dos sigma en 1945. Su tutor no podía prever los experimentos de Anania y Burke dentro de 40 años, pero su enfoque tenía varios componentes en común con el de ellos. Se reunía con su alumno con frecuencia. Estaba orientada a objetivos y se esforzaba por garantizar que mi padre dominara los planes de estudio de segundo y tercer grado en lugar de limitarse a dedicar tiempo. No se sometió al ritmo de la instrucción en el aula, sino que avanzó tan rápido como pensó que mi padre podía manejarlo. Y comprobaba su comprensión con regularidad, no con pruebas sino con tareas breves, que comprobaba y corregía para explicar sus errores.

Pero no todas las tutorías son así, y algunas de las que hoy se consideran tutorías son mucho peores que las que recibió mi padre en 1945.

En el otoño de 2020, me enteré de que las puntuaciones de matemáticas de mi hijo de quinto grado habían disminuido durante la pandemia. Sabía que no habían estado aprendiendo muchas matemáticas, pero el hecho de que sus habilidades hubieran retrocedido fue un poco impactante.

Para prepararlos para lo que vendría después, les conté la historia del tutor de segundo grado de mi padre.

“¿El abuelo recibió tutoría todos los días durante siete semanas?” ellos me preguntarón. “Eso parece excesivo”.

"¿Eso crees?" Yo pregunté.

"Sí, ¡son 47 horas!"

"¿Llegar de nuevo?" Yo pregunté.

Tomaron una calculadora.

Una vez a la semana los llevaba a un centro de tutoría con fines de lucro en un centro comercial cercano. Fue un gran momento para estar en el negocio de la tutoría, pero este centro no estaba haciendo grandes cosas con la oportunidad. Mi hija se sentaba con otros cuatro niños, completando hojas de trabajo mientras un tutor solitario se sentaba cerca, disponible para preguntas, pero sobre todo haciendo su propia tarea universitaria e intercambiando mensajes de texto con sus amigos. Un día mi hijo me dijo que había pasado toda la hora multiplicando diferentes números por ocho. No recibieron tarea. Desde una perspectiva de ciencia cognitiva, estaba bastante seguro de que practicar una sola microhabilidad durante una hora una vez a la semana no era lo óptimo. Todo el sistema parecía diseñado no para poner a los niños al día, sino para que los padres regresaran y pagaran por las sesiones.

Desafortunadamente, las tutorías caras y superficiales son comunes. En una evaluación de los servicios de tutoría privada adquiridos para estudiantes desfavorecidos por cuatro grandes distritos escolares entre 2008 y 2012, Carolyn Heinrich y sus colegas descubrieron que, aunque los distritos pagaban entre 1.100 y 2.000 dólares por estudiante elegible (un 40 por ciento más en dólares actuales), los estudiantes recibían sólo media hora por semana con un tutor, en promedio. Debido a que los distritos pagaban por estudiante en lugar de por tutor, la mayoría de los tutores trabajaban con varios niños a la vez, brindando poca instrucción individualizada, incluso para niños con necesidades especiales o inglés limitado. Los estudiantes se reunieron con tutores fuera del horario escolar regular y la participación y asistencia de los estudiantes fueron irregulares.

Sólo un distrito, Chicago, vio impactos positivos de la tutoría, y esos impactos promediaron sólo 0,06 desviaciones estándar, o 2 puntos percentiles.

Mi abuela nunca habría tolerado eso.

Después de que se publicaron estos resultados, algunas de las escuelas secundarias más desfavorecidas de Chicago comenzaron a trabajar con un nuevo proveedor, Saga Education. En comparación con los servicios de tutoría que evaluaron Heinrich y sus colegas, el enfoque de Saga fue mucho más estructurado e intenso. Los tutores fueron capacitados durante 100 horas antes de iniciar el año escolar. Trabajaron con sólo dos estudiantes a la vez. Las tutorías se programaban como una clase normal, de modo que los estudiantes se reunían con su tutor durante 45 minutos al día, y la forma en que el tutor manejaba ese tiempo estaba muy reglamentada. Cada sesión de tutoría comenzó con problemas de preparación, continuó con tutoría adaptada a las necesidades de cada estudiante y finalizó con una breve prueba.

El costo de las tutorías de Saga (entre 3.500 y 4.300 dólares por estudiante al año) era más alto que el de los programas que Heinrich y sus colegas habían evaluado, pero los resultados fueron mucho mejores. Según una evaluación de 2021 realizada por Jonathan Guryan y sus colegas, las tutorías de Saga aumentaron las puntuaciones de matemáticas entre 0,16 y 0,37 desviaciones estándar. El efecto fue “considerable”, concluyeron los autores: no fueron dos sigmas, pero duplicó o incluso triplicó los avances anuales de los estudiantes en matemáticas.

¿Es real la tutoría Two-Sigma?

La idea de que la tutoría aumenta consistentemente el rendimiento en dos desviaciones estándar es exagerada y demasiado simplificada. Los beneficios de la tutoría dependen de cuánta instrucción individualizada y retroalimentación reciben los estudiantes, cuánto practican las habilidades tuteladas y del tipo de prueba utilizada para medir los efectos de la tutoría. Los efectos de la tutoría, estimados mediante evaluaciones rigurosas, han oscilado desde dos desviaciones estándar completas hasta cero o peor. Alrededor de un tercio de una desviación estándar parece ser el efecto típico de un programa intenso y bien diseñado evaluado con pruebas amplias.

Los efectos dos sigma obtenidos en la década de 1980 por Anania y Burke eran reales y notables, pero se obtuvieron mediante una prueba estrecha y especializada, y no se obtuvieron sólo mediante tutoría. En cambio, Anania y Burke mezclaron un potente cóctel de intervenciones que incluían tutoría; capacitación y entrenamiento en prácticas de instrucción efectivas; tiempo extra; y pruebas, comentarios y reevaluaciones frecuentes.

En resumen, la afirmación de Bloom sobre dos sigma tenía cierta base real, pero también contenía elementos de ficción.

Sin embargo, como ocurre con cierta ciencia ficción, la afirmación de Bloom ha inspirado una gran cantidad de progreso real en investigación y tecnología. El software de tutoría cognitiva moderno, como ASSISTments o MATHia , se inspiró en parte en el desafío de Bloom, aunque lo que el software de tutoría explota aún más es la retroalimentación y las nuevas pruebas necesarias para dominar el aprendizaje. La tutoría por vídeo hace que los tutores humanos sean más accesibles, y los nuevos chatbots tienen el potencial de hacer que la tutoría mediante IA sea casi tan personal, atractiva y receptiva. Los chatbots también están mucho más disponibles y son menos costosos que los tutores humanos. Khanmigo, por ejemplo, cuesta 9 dólares al mes o 99 dólares al año.

Mi propia experiencia sugiere que los grandes modelos de lenguaje que sustentan la tutoría de IA, por sí solos, se pierden rápidamente cuando se intenta enseñar conceptos matemáticos comunes como el teorema de Pitágoras. Pero combinar las capacidades de lenguaje natural de los chatbots con una base de conocimiento formal confiable (como un tutor cognitivo, un motor matemático o un libro de texto de código abierto) ofrece una promesa sustancial.

También está la cuestión de qué tan bien interactuarán los estudiantes con un chatbot. Dado que los chatbots no son humanos, es fácil imaginar que los estudiantes no los tomarán en serio, que no se sentirán tan responsables ante ellos como mi padre se sentía ante su tutor y su madre. Sin embargo, los estudiantes se involucran e incluso se abren a los chatbots, tal vez porque saben que no serán juzgados. Los chatbots más populares entre los jóvenes son los que simulan la psicoterapia . ¿Qué tan diferente es realmente la tutoría?

Sin embargo, parece imprudente prometer efectos dos sigma de la IA cuando la tutoría humana rara vez ha producido efectos tan grandes, y aún no se ha publicado evidencia sobre los efectos de la tutoría con chatbot. Prometer demasiado puede llevar a la decepción, y alcanzar metas imposibles puede generar prácticas educativas cuestionables. Ya existen servicios tanto humanos como de inteligencia artificial que harán la tarea de los estudiantes por ellos, así como tutores más bien intencionados pero aún “ demasiado útiles ” que ayudan a los estudiantes a completar las tareas sin comprender completamente lo que están haciendo. Estos tutores pueden mejorar las calificaciones de los estudiantes a corto plazo, pero a la larga les privan de los beneficios de aprender por sí mismos.

Al principio, sería sensato simplemente aspirar a efectos que se aproximen a los beneficios de una tutoría humana bien diseñada. Producir beneficios de un tercio de una desviación estándar sería un gran triunfo si pudiera hacerse a bajo costo, a gran escala y con una prueba amplia, todo sin requerir un ejército de tutores humanos, algunos de los cuales pueden no ser expertos. que invirtió en el trabajo. Es probable que no se logren efectos de un tercio de desviación estándar simplemente colocando chatbots en el aula, sino que podrían estar a nuestro alcance si integramos hábilmente los nuevos chatbots con recursos y estrategias de la ciencia del aprendizaje. Una vez que se hayan producido y verificado efectos de un tercio de una desviación estándar, deberíamos poder mejorarlos mediante pruebas A/B incrementales y continuas, convirtiendo lentamente la ciencia ficción en un hecho científico.

Paul von Hippel es profesor y decano asociado de investigación en la Escuela de Asuntos Públicos LBJ de la Universidad de Texas, Austin.

https://www.educationnext.org/two-sigma-tutoring-separating-science-fiction-from-science-fact/