Las investigaciones recientes realizadas por ingenieros de Apple ponen de relieve las fallas de los modelos de inteligencia artificial, especialmente los de tipo IA generativa, como ChatGPT. Aunque estos sistemas a menudo son percibidos como expertos en resolución de problemas, las pruebas muestran que son incapaces de demostrar un razonamiento lógico auténtico cuando se enfrentan a problemas matemáticos simples, lo que plantea dudas sobre su fiabilidad y su comprensión realmente lógica.
La investigación de Apple sobre los límites de las IA generativas
Un estudio realizado por un equipo de seis ingenieros de Apple examinó las capacidades de los grandes modelos de lenguaje en el ámbito de las matemáticas. Los investigadores decidieron poner a prueba estas inteligencias en problemas matemáticos comunes, donde, aparentemente, la IA no debería encontrar ninguna dificultad. Sin embargo, a pesar de las habilidades de estos sistemas en ciertas situaciones, los resultados revelaron una preocupación importante: su incapacidad para manejar variables contextuales que no siguen un patrón aprendido.
Pruebas sistemáticas y resultados inesperados
Durante las pruebas, las IA inicialmente demostraron ser eficaces al responder correctamente a preguntas como «Olivier recoge 44 kiwis el viernes, 58 kiwis el sábado, y el domingo recoge el doble que el viernes. ¿Cuántos kiwis ha recogido?». Sin embargo, cuando se agregaban elementos adicionales, aparentemente insignificantes, al enunciado, como «5 de los kiwis eran un poco más pequeños», los modelos rápidamente mostraron signos de debilidad, cometiendo errores en sus cálculos.
Una falta de comprensión lógica
Lo que es particularmente preocupante en estos resultados es que las IA tienden a interpretar esta nueva información como pistas para operaciones matemáticas, incluso si no eran relevantes para la pregunta formulada. Así, «leen» el enunciado como un conjunto de operaciones en lugar de comprender el contexto y las relaciones lógicas entre los diferentes elementos de la consulta. Este fenómeno ilustra la fragilidad del razonamiento de las IA generativas, que parece estar más construido sobre la memorización que sobre una verdadera comprensión.
Las implicaciones de estos resultados
La investigación destaca una falla crítica en la propia arquitectura de los modelos de lenguaje, que se basan principalmente en el aprendizaje estadístico en lugar de en una cognición profunda. Los ingenieros observaron una disminución de la precisión de las IA de hasta un 17.5 % para las mejores y un 65.7 % para los modelos menos efectivos cuando se sometieron a estas pruebas. Además, simples cambios en los parámetros de los problemas, como el reemplazo de un nombre propio, redujeron aún más su tasa de éxito, cuestionando su capacidad para adaptarse a situaciones variadas.
Conclusión del estudio y perspectivas
Los resultados de este estudio plantean un desafío importante a la visión generalmente optimista de la inteligencia artificial. Los autores concluyen afirmando que las perturbaciones menores dentro de los problemas matemáticos exponen una limitación fundamental de las IA para reconocer y evaluar críticamente la información. Estas conclusiones invitan a reflexionar sobre el futuro de la inteligencia artificial, especialmente en lo que respecta a su integración en sistemas donde el razonamiento lógico y la toma de decisiones son esenciales.







