La inteligencia artificial suspende el examen del conocimiento experto (al menos por ahora)

Un estudio publicado en Nature con participación andaluza demuestra que los sistemas más avanzados aún tropiezan ante preguntas que requieren razonamiento profundo y no simple búsqueda en internet

Parálogos universales: Los genes que guardan memoria de un tiempo anterior al origen de la vida tal como la conocemos

Aplicaciones de inteligencia artificial
Aplicaciones de inteligencia artificial / Solen Feyissa, Unsplash

Más de 1.100 científicos de 50 países y 500 instituciones acaban de someter a los sistemas de inteligencia artificial más avanzados del mundo al examen más difícil hasta la fecha.

No se trataba de algoritmos matemáticos imposibles ni de acertijos sin solución. Las 2.500 preguntas del Humanity's Last Exam (HLE) -el Último Examen de la Humanidad- tenían todas una respuesta inequívoca y verificable.

Pero requerían algo más que una búsqueda en internet: exigían razonamiento conceptual profundo, comprensión real de los fundamentos científicos. Y los resultados, publicados en la revista Nature, han sido reveladores: incluso los modelos de inteligencia artificial más potentes obtuvieron tasas de acierto que apenas superaron el 8% en algunos casos y rondaron el 25% en los más avanzados.

Entre esos más de mil investigadores figura María Cruz Boscá Díaz-Pintado, profesora del Departamento de Física Atómica, Molecular y Nuclear de la Universidad de Granada.

Su participación en este ambicioso proyecto global nació de una convicción: "Como científicos y como sociedad, debemos hacer un esfuerzo colectivo para conseguir que el conocimiento generado por estas herramientas sea veraz y riguroso", explica. Boscá diseñó preguntas en el ámbito de la física cuántica que, sin recurrir a complejidad matemática extrema, ponían a prueba la capacidad de comprensión conceptual de las máquinas.

Más allá de la búsqueda: el reto del razonamiento

El proyecto HLE nació como respuesta a un problema evidente en la evaluación de los grandes modelos de lenguaje (LLM, por sus siglas en inglés). Benchmarks anteriores como el MMLU (Measuring Massive Multitask Language Understanding), que incluye más de 15.000 preguntas sobre 57 materias diferentes, habían quedado obsoletos: los sistemas de IA alcanzaban ya más del 90% de precisión en ellos.

"Las bases de referencia no estaban a la altura en cuanto a dificultad", señala el artículo publicado en Nature. Se había llegado a un punto de saturación que impedía medir con precisión las capacidades reales de estos sistemas en la frontera del conocimiento humano.

Para superar esa limitación, los investigadores diseñaron un tipo específico de pregunta: aquellas cuya respuesta es unambigua y fácilmente verificable, pero que no pueden resolverse mediante una simple consulta a bases de datos o recuperación de información textual.

El 41% de las cuestiones corresponden a matemáticas, seguidas por un 11% de biología y medicina, 10% de informática e inteligencia artificial, 9% de física, 9% de humanidades y ciencias sociales, 7% de química y 4% de ingeniería.

Cada pregunta pasó por un riguroso proceso de validación. Primero, los propios investigadores las probaban contra varios modelos de IA de última generación (GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, o1).

Solo si las máquinas fallaban -o si en las preguntas de opción múltiple rendían peor que el azar-, la cuestión avanzaba a una segunda fase de revisión por expertos humanos con titulaciones de posgrado. En total, de más de 70.000 intentos de formulación, solo 13.000 preguntas llegaron a la revisión humana, y de ellas, 2.500 conformaron el conjunto final del HLE.

Cuando la física cuántica desmonta a la máquina

Las preguntas de María Cruz Boscá ejemplifican el tipo de razonamiento que aún escapa a los algoritmos. En una de ellas, relacionada con la paradoja Einstein-Podolsky-Rosen -un experimento mental que Einstein diseñó en 1935 para cuestionar la interpretación cuántica de la realidad-, la inteligencia artificial falló sistemáticamente.

"La máquina asumió una realidad objetiva en la medición que contradice los principios cuánticos", explica la investigadora granadina. El sistema, entrenado con vastas cantidades de texto, reproducía un sesgo interpretativo clásico: la idea de que las partículas tienen propiedades definidas antes de ser medidas, algo que la mecánica cuántica niega.

Otro caso reveló un problema distinto pero igualmente preocupante. En una pregunta sobre el experimento de Stern-Gerlach -un experimento histórico de 1922 que demostró la cuantización del momento angular-, la IA reprodujo un error factual que aparece repetidamente en manuales científicos clásicos.

"Estos sistemas pueden perpetuar equivocaciones bibliográficas si no se les entrena para discernir la respuesta correcta", advierte Boscá. El hallazgo subraya un riesgo: los LLM no solo aprenden de información correcta, sino también de los errores acumulados en la literatura científica.

El abismo entre máquina y experto

Los resultados cuantitativos del estudio confirman la brecha. El modelo GPT-4o obtuvo un 2,7% de acierto, Claude 3.5 Sonnet un 4,1%, Gemini 1.5 Pro un 4,6%. Los modelos de razonamiento más avanzados, como o1 y DeepSeek R1, alcanzaron el 8% y 8,5% respectivamente.

Incluso los sistemas posteriores a la publicación del HLE -que teóricamente podrían haberse entrenado con parte de estos datos- apenas llegaron al 25,3% en el caso de GPT-5, lanzado después de que el benchmark se hiciera público.

Más preocupante aún es el problema de calibración: los modelos no solo fallan, sino que lo hacen con alta confianza. El estudio midió el "error de calibración RMS", que compara la confianza expresada por el sistema con su tasa real de acierto. Un modelo bien calibrado debería expresar 50% de confianza en preguntas donde acierta la mitad de las veces.

Sin embargo, todos los sistemas evaluados mostraron errores de calibración superiores al 70%, llegando al 89% en GPT-4o. En otras palabras: las máquinas ofrecen respuestas incorrectas con aplomo injustificado.

El horizonte: de la reproducción a la creación

A pesar de estos tropiezos, María Cruz Boscá mantiene una visión optimista sobre la evolución tecnológica. "Los LLM de última generación han llegado a un estadio de desarrollo en el que ya no se limitan a explorar inmensas bases de datos en la búsqueda de respuestas, sino que, además, son capaces de realizar análisis reflexivos complejos a partir de los datos disponibles", señala.

La investigadora recuerda como hito la victoria del sistema AlphaGo de Google DeepMind sobre los mejores jugadores profesionales de Go en 2016, demostrando capacidad de aprendizaje autónomo. "El hecho de que luego jugadores humanos lograran devolver el golpe no cambió mi opinión: quedó probada la similitud creciente entre cómo funciona la IA y cómo lo hacemos los humanos".

El verdadero desafío, concluye, está más allá de evitar errores: "El verdadero hito llegará cuando la IA no solo evite errar en el conocimiento establecido, sino que además sea capaz de plantear nuevas preguntas y ofrecer respuestas a incógnitas científicas que hoy en día los humanos aún no hemos logrado resolver".

El estudio, firmado por el Center for AI Safety, Scale AI y el consorcio HLE Contributors, está disponible en acceso abierto. Los investigadores mantendrán un conjunto privado de preguntas para evaluar futuros modelos y evitar el sobreajuste a los datos públicos, garantizando así que el benchmark sea útil conforme la tecnología avance.

Porque si algo demuestra este examen, es que la frontera entre la inteligencia humana y la artificial sigue siendo, por ahora, una línea nítida.

stats