Por Pablo de los Campos y Matías Dodel
En el año 2023, ‘IA’ se convirtió en la palabra del año según el diccionario Collins , lo que refleja la fascinación colectiva que tenemos por la Inteligencia Artificial, un desarrollo que forma parte de nuestras vidas y de varias charlas de boliche. Y como si fuera una ley no escrita de la innovación, siempre las primeras voces en alzarse son las de los profetas que anuncian cómo la Inteligencia Artificial Generativa (IAG) —algo al estilo de Chat-GPT— va a destruir/salvar este mundo tan perfecto/terrible que tenemos.
En el terreno de la educación formal, estas voces sobre los efectos de la tecnología se repiten a lo largo de la -corta- historia moderna. Desde las primeras grabaciones de audio y video hasta las tecnologías actuales como Internet, Wikipedia y Chat-GPT, siempre ha habido alguien que asegura que “esto cambiará/acabará” con la educación, tal como lo señala Derek Muller (divulgador científico, creador del canal Veritasium) en 2014.
La breve reflexión que planteamos aquí,basada más en experiencia de los autores que en la escasa literatura existente, va a tratar de hacer el ejercicio de pensar cómo impactan Chat-GPT y sus amigos en la tarea de la evaluación docente.
Antes de profundizar en este análisis, es esencial contextualizar el origen de este artículo, pues este surge en respuesta a una petición de colaboración por parte de un departamento perteneciente a las autoridades educativas nacionales (ANEP), con la finalidad de examinar los potenciales efectos, que se presuponen negativos, de la IAG en las evaluaciones estandarizadas.
A partir de esta premisa, presentamos una reflexión concisa acerca del impacto de Chat-GPT y tecnologías similares en las evaluaciones de conocimientos, abarcando tanto la educación formal obligatoria como la universitaria
Pero, antes de entrar en la parte de miedos y efectos de Chat-GPT, creemos necesario abordar el problema más general de los efectos de las Tecnologías de la Información y la Comunicación (TIC) en educación y, luego, explicar en términos muy generales qué es la IA generativa.
Efectos de TIC en educación
La primera de las seis leyes de la tecnología de Melvin Kranzberg (1986) propone que “La tecnología no es ni mala ni buena, pero tampoco neutral”. En otras palabras, si bien debemos abandonar posturas apocalípticas o utópicas sobre los efectos de las innovaciones tecnológicas, tenemos que ser muy críticos sobre las consecuencias que estas puedan tener en nuestras prácticas cotidianas y, obviamente, educativas.
Por otra parte, la cuarta de las leyes de Kranzberg postula que “Aunque la tecnología puede ser un elemento primordial en muchos asuntos públicos, los factores no técnicos tienen prioridad en las decisiones de política tecnológica”. En otros términos, debemos entender que más allá de innovaciones en hardware y/o software, cómo utilizamos y cómo regulamos el uso de estas tecnologías es igual o más importante que la innovación en sí.
La creencia en que determinada tecnología va a revolucionar, destruir o disrumpir el regular funcionamiento de la educación -fuera en su acepción más cercana al aula o como un sistema todo- no es novedosa. Tal como sintetiza el divulgador científico Derek Muller (Veritasium, 2014), los discursos apocalípticos sobre el fin del rol docente o la finalidad educativa acompañaron la irrupción de prácticamente todas nuevas tecnologías de la información y comunicación (TIC) en los dos últimos siglos.
Algo similar sucede con los efectos de las nuevas tecnologías en la sociedad toda, tal como releva y sintetiza Amy Orben (2020). Orben presenta una visión más compleja sobre la temática, señalando que en general los efectos de la tecnología -de ser significativos- son siempre pequeños, fueran positivos o negativos. Muller agrega que, dado que la educación y vínculo docente-alumno es un proceso social que va mucho más allá de la transmisión de conocimientos, es poco probable que alguna innovación tecnológica en particular “revolucione la educación” (Veritaisum, 2014).
Inteligencia artificial y Modelos de Lenguaje de Gran Tamaño (LLM)
La Inteligencia Artificial (IA) se define como la capacidad de los sistemas informáticos para emular funciones cognitivas humanas (Rouhiainen, 2018). Cuando la IA se especializa en replicar una capacidad particular (por ejemplo de crear textos, imágenes o música digital), se le conoce como Inteligencia Artificial Específica, categoría en la que se sitúan los desarrollos actuales. Sin embargo, el desafío más grande en este campo de la ciencia es desarrollar una Inteligencia Artificial General que supere las capacidades humanas en todas las esferas del conocimiento, un objetivo que, por el momento, se considera parte de la ciencia ficción.
Entre las Inteligencias Artificiales Específicas se destacan los Modelos de Lenguaje de Gran Tamaño (LLM, por sus siglas en inglés). Estos modelos tienen la capacidad de realizar tareas relacionadas con el procesamiento del lenguaje natural y son altamente competentes en la creación de textos originales, la síntesis de información y la traducción de documentos.
Los LLM alcanzan esta capacidad mediante modelos estadísticos que “predicen” la relación entre palabras, tras haber sido entrenados, con o sin supervisión, con extensos volúmenes de texto, llegando a abarcar cien billones de parámetros, lo que equivale a recabar más de tres cuartas partes de toda la internet pública (Bowman, 2023; Wikipedia contributors, 2024).
Entre los LLM más destacados se encuentran GPT-3 y GPT-4 (OpenAI), Gemini (antes conocido como Bard; Google), Claude (Anthropic) y Copilot (antes conocido como Bing Chat; Microsoft).
Sin embargo, los LLM tienen, por ahora, una serie de importantes limitaciones. A modo de ejemplo, el uso indiscriminado de LLM para responder preguntas factuales implica un riesgo importante, algo que se conoce como el fenómeno de la alucinación (hallucination). Este se produce cuando un LLM identifica patrones que no existen o son imperceptibles para los humanos, generando así resultados inesperados o erróneos. En criollo: “inventan” datos, citas, hechos históricos, etc.
De manera similar, los algoritmos de IA a veces emiten resultados que no se originan en los datos de entrenamiento y los interpretan de forma incorrecta al no corresponderse con patrones reconocibles (E. Spinak, 2023), como queda demostrado claramente en el ejemplo de “¿cuántas ‘u’ tiene ‘uruguay’?” con el que comenzamos este artículo.
La inteligencia artificial en la evaluación educativa
Cuando Chat-GPT se lanzó al público en noviembre de 2022, la tendencia inicial fue restringir su uso, como ocurrió en las escuelas y universidades de Nueva York. Personalidades como Noam Chomsky hicieron declaraciones afirmando que “Chat-GPT es un plagio de alta tecnología y una forma de eludir el aprendizaje”. Además, una carta firmada por más de 1000 figuras destacadas del ámbito tecnológico, entre los que estaban Elon Musk y Yuval Noah Harari, advertía que la IA representaba “un peligro imprudente”, y solicitaba que se parara su desarrollo.
Fuente: Captura de pantalla de los autores
Estas posturas radicales no parecen haber prosperado, al menos masivamente: la popularidad de Chat-GPT fue tanta que logró obtener más de 100 millones de usuarios en los primeros dos meses de vida.
El éxito de los LLM se atribuye a una combinación de factores. En primer lugar, su uso gratuito los hace accesibles a una amplia gama de usuarios. En segundo lugar, la interfaz es sencilla y conocida, una página web con un chatbot, lo que facilita que las personas interactúen con la inteligencia artificial, incluso si no son expertas en tecnología. Y, por último y el más importante, es que pueden hacer cosas que nunca antes habían sido posibles para una tecnología, pues comprenden y responden a nuestras preguntas de forma eficiente de una manera que parece natural.
En cuanto a su capacidad para la resolución de exámenes estandarizados, los LLM actuales han demostrado ser extremadamente competentes. Por ejemplo, en pruebas como el SAT (ampliamente reconocido en los procesos de admisión universitaria en Estados Unidos) o el Exame Nacional do Ensino Médio (ENEM, utilizado por universidades en Brasil), los LLM han alcanzado un alto nivel de rendimiento, ubicándose en el percentil 90 (lo que equivale a decir que están entre el 10% de los “mejores de la clase”).
Fuente: GPT-4 Technical Report https://openai.com/research/gpt-4
En efecto, al abordar evaluaciones estandarizadas, que prueban la competencias en síntesis y producción de textos u otros conocimientos específicos, parece importante tomar ciertas precauciones durante el proceso de evaluación.
Por ejemplo, ANEP con el apoyo técnico de la DIEE (División de Investigación, Evaluación y Estadística) toma una serie de recaudos particulares para evitar el uso de los LLM -y otras variantes de tecnologías digitales- en la Prueba Nacional de Acreditación de la Educación Media Básica (Acreditacb) e Informa (prueba diagnóstica en CFE).
La propia DIEE ha comprobado que la versión más básica de Chat-GPT logra responder satisfactoriamente las evaluaciones. Entonces, los días y lugares donde se realiza la prueba presencial y sincrónica se utilizan filtros en el firewall de la red para prohibir cualquier tipo de acceso a Internet que no fuera a la propia plataforma de la evaluación. Es evidente que si la prueba fuera a distancia y asincrónica está estrategia resultaría inviable.
Otros mecanismos utilizados allí, y en varias otras evaluaciones, son la generación de mecanismos de autenticación que aseguren que quien contesta las pruebas es la persona frente al dispositivo, usando webcams, marcas de tiempo y/o IP como mecanismos adicionales.
¿Qué ocurre cuando los docentes proponen evaluaciones más abiertas? ¿Qué hacemos si un maestro asigna como tarea domiciliaria la creación de un póster sobre el ciclo del agua, o si un profesor de literatura de secundaria solicita un análisis de un poema de Gustavo Adolfo Bécquer? ¿O qué sucede si un profesor universitario pide investigar la última protesta social desde las teorías marxistas del conflicto, o emplear el enfoque desarrollista para explicar el éxito o fracaso de las economías del Cono Sur, o incluso redactar un breve ensayo sobre los distintos tipos de Estado de Bienestar?
Está claro que “cortar” Internet no es una solución viable, ni deseable, agregamos.
Abrimos paréntesis: Wikipedia
Pero no hay que ir hasta los LLM para evidenciar este problema. Aún hoy en día existen docentes -de secundaria y terciaria- que despotrican contra Wikipedia porque lo confunden con una versión moderna de “El Rincón del Vago”.
Estos docentes no parecen entender qué es Wikipedia ni cómo funciona. En otras palabras, Wikipedia es más parecido a una versión colaborativa de la Enciclopedia Británica o de la Encarta que al Rincón del Vago, como se puede profundizar en entrada de Wikipedia en Wikipedia. Asimismo, algunos mitos sobre la veracidad de Wikipedia y cómo se asocia falsamente a que todos puedan crear/editar contenido también pueden entenderse mejor en la propia entrada de Wikipedia sobre la veracidad de sus contenidos, donde se la compara con otras fuentes más legitimadas de conocimiento.
Si bien es evidencia anecdótica, uno de los autores de este artículo, del que no diremos el nombre para evitar que Pablo tenga problemas con la ley, realizó el ejercicio de editar información falsa en un artículo de Wikipedia con el fin de evaluar las reacciones de la comunidad. En menos de tres días, el artículo fue enmendado por un editor.
A modo de síntesis, Wikipedia puede considerarse una herramienta excepcional y alentamos fervientemente su uso, siempre y cuando se emplee de manera adecuada. Esto es aplicable tanto para estudiantes de secundaria y universitarios, como para académicos que se inician en un nuevo campo de estudio. Rheingold (2015) lo explica así: ‘A pesar de que los educadores recomiendan a los estudiantes no usar Wikipedia como fuente primaria o cita definitiva, frecuentemente constituye un punto de partida valioso para investigar un tema. Al restringir la búsqueda a términos específicos como “metacognición” o frases como “evolución de la cooperación”, Wikipedia suele ofrecer una colección de enlaces externos que sirven como excelentes puntos de inicio o ‘puertas de entrada’ para la exploración del tema.’
Cerramos paréntesis: volviendo sobre los LLM y la evaluación educativa
En forma análoga al planteo de Rheingold sobre Wikipedia, nuestra propuesta es que necesitamos pensar una estrategia similar para el uso de los LLM. Como describimos anteriormente, la integración de la IA en la evaluación educativa presenta tanto oportunidades como desafíos y por ello, más pronto que tarde, los sistemas educativos deberían adaptar sus prácticas para garantizar que la evaluación siga siendo válida, confiable y justa al mismo tiempo se aprovechan los beneficios de la IA. Para lograrlo, sugerimos la necesidad de superar las posturas radicales sobre los impactos de estas tecnologías en el sistema educativo, el aula y las evaluaciones de aprendizaje.
Siendo más explícitos sobre el problema: las evaluaciones que implican elaboración de texto por parte de los estudiantes van a ser muy afectadas por estas tecnologías, pero ello no significa que las anulemos por suponer que eliminan el componente humano en el proceso.
Es esencial reconocer que, entre un texto generado íntegramente por un LLM y uno creado por un ser humano, hay una variedad de matices que son igualmente válidos y todos pueden enriquecer de una forma u otra los procesos de aprendizaje. Aceptar y explorar estos matices es crucial para aprovechar al máximo las capacidades educativas de estas herramientas. Pues, será siempre y en última instancia el docente, según sus necesidades didácticas, quien determinará qué, cómo y cuándo se debe utilizar cada herramienta.
Para graficarlo, la figura que presentamos debajo propone una escala de diversas formas de utilizar IA generativa para responder consignas educativas. Consideramos que todos los usos que se anotan entre los extremos de no usar la IA o de usarla para copiar la respuesta permiten comprender por qué no podemos transformar esto en otro “Peñarol/Nacional - Nacional/Peñarol” educativo.
Fuente: de los Campos, P. (2023, elaboración propia)
Formulando preguntas, ensayando respuestas (sin hacer enojar a nadie)
Sabemos que ignorar la existencia de la IA no evitará que los estudiantes la usen. Y si ellos la usan, ¿qué les compete hacer a los educadores? La respuesta no es muy distinta de lo que han hecho siempre: educar para orientar usos provechosos y honestos. En consecuencia, ante la omnipresencia de la IA, resulta importante hacer avances hacia su incorporación segura, formativa y ética en los currículos educativos.
Las preguntas sobre cómo hacerlo son cada vez más pertinentes, pues hoy ya no se trata tanto de poseer todas las respuestas, sino de estar dispuestos a formular las preguntas adecuadas.
Si la IA puede resolver las tareas que el profesor le encomendó al estudiante, surge la pregunta: ¿se produce realmente el aprendizaje? El uso de atajos por parte de los estudiantes para completar rápidamente las tareas —un fenómeno que no es exclusivo del uso de la IA— puede desviarlos del objetivo principal: construir aprendizajes significativos. Es importante, entonces, que el profesor proporcione claridad sobre los objetivos de las actividades propuestas, comunicando las expectativas de aprendizaje y asegurando la relevancia de estas actividades para el proceso educativo de los estudiantes. Si todas estas condiciones se cumplen, será menos probable que los estudiantes recurran a la IA para evitar el esfuerzo de aprender, especialmente si su motivación principal es el aprendizaje en sí.
Entonces, para que las IA puedan ser utilizadas para enseñar, proponemos comenzar fomentando ambientes que permitan a los estudiantes emplear la IA como un copiloto en su trayectoria educativa, promoviendo así la conexión del conocimiento nuevo (el de la IA) con el previo (el del humano) para lograr conocimientos más sólidos y perdurables. Pues interactuar con un LLM implica un proceso iterativo de múltiples interacciones, donde es esencial refinar continuamente los “prompts” (pedidos al Chat-GPT en criollo) para alcanzar los resultados deseados de manera óptima.
¿Todas las actividades que diseñan los profesores buscan promover la construcción de aprendizajes o existen algunas que solo tienen finalidades de control? ¿Qué les preocupa más del uso de la IA: que los estudiantes no evadan las actividades de las que podrán aprender –y en consecuencia, no aprendan– o que no puedan controlar, como hacían antes, lo que leyó y lo que estudió el alumno?
Si pruebas y evaluaciones que hasta hace muy poco tiempo resultaban muy efectivas y proporcionaban a los profesores evidencias claras de los procesos de aprendizaje de sus alumnos, hoy pueden ser resueltas por los LLM. ¿Qué alternativas tienen los docentes? La respuesta vuelve a ser la misma, hacer lo que han hecho históricamente: adaptar sus prácticas y secuencias didácticas, aunque ello implique abandonar su zona de confort, para ajustarse a esta nueva realidad tecnológica.
Podemos escribir otras razones, igualmente válidas, para intervenir desde lo educativo en el uso de la IA. Por ejemplo, parece esencial promover entre los estudiantes una comprensión clara de la IA para prepararlos como ciudadanos conscientes y responsables en un mundo tecnológicamente avanzado. Esto incluye enseñarles a discernir entre la información generada por IA y la creada por humanos -especialmente en contextos de propaganda durante periodos electorales- y a utilizar estas herramientas para ampliar su conocimiento y creatividad. Además, los alumnos deberán tomar conciencia sobre sus riesgos y limitaciones -como las alucinaciones- y reforzar la importancia de la honestidad, asegurando que no solo adquieran conocimientos, sino que también desarrollen un sentido ético de responsabilidad ante sus procesos de aprendizaje.
Si promover el pensamiento crítico siempre fue algo importante, ahora se torna impostergable. En un mundo donde las tecnologías avanzan rápidamente y no son neutras, es importante enseñar a los estudiantes a navegar por estos territorios digitales con los cuidados y competencias necesarias. En otras palabras, las tecnologías son espacios de disputa de intereses y conflictos; por lo tanto, es esencial que los estudiantes sean capaces de identificar y analizar críticamente estas dinámicas para convertirse en ciudadanos digitales responsables y comprometidos (S. Livingstone, 2009).
Desde un optimismo crítico, creemos que la accesibilidad a herramientas potentes como los LLM a un clic de distancia tiene el potencial de democratizar el acceso a la información y, por ende, de transformar nuestra sociedad en una más justa y equitativa (UNESCO, 2021). Sin embargo, es crucial no dejar al azar los conocimientos y habilidades en el uso de la IA, evitando así efectos regresivos y la proliferación de sesgos.
Abordamos esta evolución confiando en que propiciará círculos virtuosos que enriquecerán las experiencias de aprendizaje. En este sentido, El marco de referencial para la enseñanza de la Inteligencia Artificial publicado recientemente por CEIBAL, representa un progreso significativo.
Para ir a una aplicación práctica, en la figura que se presenta a continuación, la UNESCO propone algunas guías para responder a la pregunta de cuándo “es seguro” utilizar LLM en educación superior; sobre todo asociado al fenómeno de la veracidad de la información. Obviamente no es perfecta, pero es un mojón importante en este camino.
Fuente: UNESCO. (2023). ChatGPT and artificial intelligence in higher education
Y por último y para despedirnos con algo menos serio…aún en las mejores versiones del uso de estas herramientas o en las peores, pero tratando de aparentar seriedad, hay que ser prolijo por lo menos. Existen varios artículos arbitrados en revistas académicas -que uno podría llamar de calidad- que dejan cosas muy lindas en las versiones publicadas, como estas:
Fuente: Captura de pantalla de los autores
Fuente: https://twitter.com/Ella_Maru/status/1768262888110580132/photo/1
Referencias
Bowman, Samuel R. (2023). "Eight Things to Know about Large Language Models".
arXiv:2304.00612 [cs.CL].
CEIBAL Marco referencial para la enseñanza de la Inteligencia Artificial (2023)
Orben, A. (2020). The Sisyphean cycle of technology panics. Perspectives on Psychological Science, 15(5), 1143-1157.
Veritasium (2014, Diciembre 1). The Most Persistent Myth [Video]. https://www.youtube.com/watch?v=GEmuEWjHr5c
Kranzberg, Melvin (July 1986). "Technology and History: "Kranzberg's Laws"". Technology and Culture. 27 (3): 544–560. doi:10.2307/3105385.
Wikipedia contributors. (2024, March 12). Large language model. In Wikipedia, The Free Encyclopedia. Retrieved 19:19, March 13, 2024, from https://en.wikipedia.org/w/index.php?title=Large_language_model&oldid=1213404057
Rouhiainen, L. (2018). Inteligencia artificial. Madrid: Alienta Editorial, 20-21.
Rheingold, H. (2015). Net Smart: How to Thrive Online
Nunes, D., et al. (2023). Evaluating GPT-3.5 and GPT-4 models on Brazilian university admission exams. arXiv preprint arXiv:2303.17003.
Spinak, E., & Spinak, E. (2023, 21 diciembre). ¿Es que la Inteligencia Artificial tiene alucinaciones? | SciELO en Perspectiva. SciELO En Perspectiva. https://blog.scielo.org/es/2023/12/20/es-que-la-inteligencia-artificial-tiene-alucinaciones/#:~:text=La%20alucinaci%C3%B3n%20(hallucination)%20en%20el,humanos%2C%20creando%20resultados%20inesperados%20o
Achiam, J., Adler, S., Agarwal, S., Ahmad, L., Akkaya, I., Aleman, F. L., ... & McGrew, B. (2023). Gpt-4 technical report. arXiv preprint arXiv:2303.08774.
UNESCO. (2021). Artificial intelligence and education: A roadmap for the future.
UNESCO. (2023). ChatGPT and artificial intelligence in higher education: quick start guide
Livingstone, S. (2009). Children and the Internet: Great Expectations, Challenging Realities
Ausubel, D. P. (2000). Adquisición y retención del conocimiento: Una perspectiva cognitiva.
CNN [Jack Guy]. (2023, November 1). Collins Dictionary picks ‘AI’ as its word of the year. CNN. Retrieved April 23, 2024, from https://edition.cnn.com/2023/11/01/world/11-01-2023-collins-dictionary-ai-word-of-the-year-scli-intl-scn/index.html