By Víctor Saldaña — 30 de oct. de 2024

GSM Symbolic: Cómo Apple Expuso las Limitaciones del Razonamiento en IA

En un estudio revolucionario titulado "GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models", Apple ha puesto en duda una de las premisas fundamentales de la IA moderna: la capacidad de razonamiento de los modelos de lenguaje grandes (LLMs).

El Experimento que Cambió Todo

Apple comenzó su investigación con un conjunto de datos aparentemente simple: GSM8K (Grade School Math 8K), una colección de 8,000 problemas matemáticos de nivel primaria. Mientras la mayoría de los modelos actuales presumían de altos porcentajes de precisión en este conjunto de datos, Apple decidió ir más allá.

GSM Symbolic: Un Nuevo Paradigma de Evaluación

Los investigadores desarrollaron GSM Symbolic, una versión modificada de los problemas que mantiene la misma estructura matemática pero cambia elementos clave:

Cambios en Nombres y Cantidades:

CopyOriginal: "Sarah tiene 3 manzanas y compra 2 más."
Modificado: "Tom tiene 4 peras y compra 1 más."

Resultado: La precisión cayó un 10%

Adición de Información Irrelevante:

CopyOriginal: "Pedro tiene 5 manzanas y compra 11 más."
Modificado: "Pedro tiene 5 manzanas el jueves y 11 el sábado, algunas eran más grandes que otras."

Resultado: La precisión cayó hasta un 30%

Los Problemas Fundamentales

La investigación identificó dos problemas críticos que afectan a todos los modelos actuales:

1. Contaminación de Datos

Los investigadores descubrieron que muchos de los aparentes "éxitos" de los modelos se debían a que las preguntas de prueba ya estaban en sus datos de entrenamiento. Es el equivalente a:

Dar a un estudiante las respuestas del examen antes de tomarlo
Memorizar soluciones en lugar de comprender conceptos
Repetir patrones sin entender el razonamiento subyacente

2. Reconocimiento de Patrones vs Razonamiento Real

Los modelos no comprenden realmente los conceptos matemáticos. En su lugar:

Identifican patrones en los datos de entrenamiento
Replican estos patrones en situaciones similares
Se confunden cuando los patrones cambian ligeramente

Implicaciones para Diferentes Industrias

Medicina

Riesgo: Un modelo podría confundirse con información irrelevante en historiales médicos
Ejemplo: Si un informe menciona "el paciente llegó en un día lluvioso", el modelo podría incorporar erróneamente esta información en su diagnóstico

Desarrollo de Software

Limitación: Los modelos pueden generar código que parece funcional pero contiene errores sutiles
Ejemplo: Un modelo podría insertar vulnerabilidades de seguridad al confundirse con comentarios en el código

Finanzas

Peligro: Toma de decisiones basada en correlaciones espurias
Ejemplo: Un modelo podría recomendar inversiones basándose en patrones irrelevantes como el clima o días de la semana

El Estado Actual de los Modelos

Apple evaluó varios modelos de última generación, incluyendo:

GPT-4
- Precisión en GSM8K original: 95%
- Precisión en GSM Symbolic: 82.5%
- Caída en rendimiento con información irrelevante: 65%
Claude
- Resultados similares con variaciones significativas
- Mayor susceptibilidad a información irrelevante
Llama y otros modelos open source
- Rendimiento considerablemente menor
- Mayor variabilidad en resultados

El Camino Hacia Adelante

Nuevos Enfoques en Desarrollo

IA Simbólica
- Enfoque en reglas lógicas fundamentales
- Mejor capacidad de razonamiento abstracto
- Potencial para combinar con LLMs actuales
Entrenamiento Basado en Principios
- Enseñar conceptos básicos en lugar de ejemplos masivos
- Énfasis en comprensión sobre memorización
- Desarrollo de frameworks de validación más robustos

Recomendaciones Prácticas

Para Desarrolladores:

Implementar sistemas de verificación múltiple
No confiar ciegamente en las salidas de los modelos
Mantener supervisión humana en decisiones críticas

Para Empresas:

Establecer protocolos de validación rigurosos
Limitar el uso de IA en decisiones críticas
Invertir en sistemas híbridos humano-IA

Conclusión

El estudio de Apple no solo expone limitaciones críticas en la IA actual, sino que también marca un camino hacia el futuro. Los modelos de lenguaje grandes son herramientas poderosas, pero no son la inteligencia artificial que muchos imaginaban. Son más bien sistemas sofisticados de reconocimiento de patrones que, aunque útiles, están lejos de alcanzar un verdadero razonamiento.

La pregunta no es si los modelos actuales pueden razonar - claramente no pueden - sino cómo podemos desarrollar la próxima generación de IA que verdaderamente entienda y razone sobre el mundo que la rodea.

Link al estudio:

2410.05229v1

GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models

2410.05229v1.pdf

1 MB