Desafían a 5 Inteligencias Artificiales a leer como humanos: el ganador no fue ChatGPT

¿Qué tan bien puede entender un chatbot lo que lee? Para averiguarlo, un equipo del Washington Post puso a prueba a cinco de los principales bots de IA del mercado.

Analizaron desde novelas y papers científicos hasta discursos políticos y contratos legales. El resultado dejó sorpresas entre los asistentes virtuales más usados del mundo.

Las decisiones clave seguirán necesitando la aprobación humana

¿Puede una IA realmente entender lo que lee?

Los bots de IA prometen ser superpoderes de lectura: resumen contratos, libros o investigaciones con solo subir un archivo. Pero, ¿realmente entienden lo que están leyendo o solo imitan comprensión?

Para responder esa pregunta, el Washington Post organizó un test con los cinco chatbots más populares: ChatGPT, Claude, Copilot, Meta AI y Gemini.

Se usaron cuatro tipos de texto: literatura, ciencia médica, contratos legales y discursos políticos.
Los textos fueron evaluados por expertos en cada campo.
Se formularon 115 preguntas para analizar comprensión, análisis crítico y precisión.

Los riesgos del desarrollo acelerado de la IA

Literatura: muchos fallaron al leer una novela histórica

En el área literaria, los bots tuvieron un rendimiento pobre. Solo Claude acertó todos los datos clave del libro, mientras que ChatGPT hizo el mejor resumen general, aunque omitió personajes y temas como la esclavitud.

Gemini fue el peor. El autor del libro lo comparó con el personaje de “Seinfeld” que vio la película en lugar de leer la novela.

Contratos legales: Claude volvió a destacarse

Según Sterling Miller, abogado corporativo, Claude fue el único que entendió bien las cláusulas más importantes. Incluso propuso mejoras útiles y detectó detalles que otros bots ignoraron.

En cambio, ChatGPT y Meta AI resumieron partes claves en una sola línea, algo que Miller calificó como "inútil".

Investigación médica: alto desempeño

Los cinco bots mostraron un nivel aceptable al leer papers científicos, quizá porque los estudios tienen estructuras previsibles y resúmenes humanos.

Anthropic lanzó su nueva familia de modelos de inteligencia artificial

Claude se llevó el mejor puntaje (10/10) al explicar un paper sobre COVID persistente. Fue claro, técnico y útil para médicos. En contraste, Gemini dejó fuera partes esenciales del estudio sobre Parkinson.

Política: ChatGPT entendió mejor a Trump

Los discursos del Donald Trump fueron el mayor desafío en términos de análisis crítico. ChatGPT fue el que logró un mejor equilibrio entre contexto y veracidad.

Estados Unidos planea redoblar las exportaciones de armas del primer mandato de Trump

Copilot, aunque técnicamente correcto, no captó el tono de los discursos.

Claude fue el más consistente y se llevó el primer puesto

En el balance general, Claude logró el mejor desempeño. Fue el único que se destacó tanto en análisis científico como en redacción legal, y mantuvo respuestas consistentes.

A diferencia de otros bots que resumieron mal o ignoraron partes clave, Claude se mostró más completo y preciso. Según los jueces, fue el que más se acercó a ser un buen asistente real.

¿Podemos confiar en estos bots para leer por nosotros?

Claude y ChatGPT demostraron ser los más capaces, pero ningún bot superó el 70% de precisión general. Todos, en mayor o menor medida, omitieron datos clave o generaron respuestas engañosas.

Si bien pueden ser útiles como asistentes de lectura, todavía no reemplazan la comprensión humana. Y muchas veces se nota que “el robot se esconde detrás de una máscara humana”.