Forum AI presentó NewsBench, una evaluación independiente sobre cómo responden cuatro chatbots populares cuando reciben preguntas de noticias y actualidad.

El estudio revisó 3.135 prompts y cerca de 12.500 respuestas generadas por ChatGPT, Gemini, Claude y Grok, con foco en tres puntos: factualidad, neutralidad y calidad de las fuentes citadas.

El resultado no deja una lectura simple de “ganadores” y “perdedores”. Según el white paper, ChatGPT tuvo el mejor desempeño en factualidad, Gemini apareció como el modelo más equilibrado entre las tres dimensiones, Claude obtuvo la mejor nota promedio en calidad de fuentes y Grok quedó más rezagado en los indicadores principales.

La señal más práctica de NewsBench es otra: un chatbot puede citar fuentes aceptables y aun así incluir afirmaciones falsas.

NewsBench separa factualidad, neutralidad y fuentes

La evaluación se construyó sobre preguntas de política, asuntos internacionales, economía, salud, educación y temas de consumo. Forum AI explica que trabajó con una red bipartidista de expertos, entre ellos periodistas, exfuncionarios, economistas y especialistas en seguridad nacional, para definir criterios de evaluación. Luego calibró jueces automatizados para aplicar esos criterios a gran escala.

El estudio reporta que los resultados reflejan modelos disponibles al 10 de mayo de 2026: ChatGPT con GPT-5.5, Gemini 3.1 Pro, Claude Opus 4.7 y Grok 4.3. En factualidad, el indicador principal fue el porcentaje de respuestas sin afirmaciones verificables falsas. ChatGPT alcanzó 91%, Gemini 75%, Claude 59% y Grok 57%.

Es decir, las respuestas con al menos una afirmación falsa fueron 9% en ChatGPT, 25% en Gemini, 41% en Claude y 43% en Grok. Forum AI también midió una tasa de afirmaciones falsas dentro de cada respuesta: 0,8% para ChatGPT, 3,1% para Gemini, 4,3% para Claude y 3,6% para Grok.

Gráfico de NewsBench con resultados de factualidad, neutralidad, calidad de fuentes y errores por chatbot
NewsBench compara factualidad, neutralidad, calidad de fuentes y respuestas con errores en cuatro chatbots.

En neutralidad, Gemini y Claude quedaron por encima de ChatGPT y Grok: Gemini pasó el 83% de las respuestas. Forum AI también observó la dirección de los fallos: cuando las respuestas no neutrales tuvieron una inclinación identificable, ChatGPT, Claude y Gemini fallaron más hacia la izquierda en el marco político estadounidense, mientras que Grok falló más hacia la derecha.

En calidad de fuentes, Claude obtuvo el promedio más alto, con 82%. Le siguieron Gemini , ChatGPT y Grok. Ese contraste es relevante porque Claude combinó la mejor nota de fuentes con una factualidad mucho menor que ChatGPT. En simple: citar mejores fuentes no garantiza que el resumen final sea correcto.

Los errores aparecen en temas donde la actualidad cambia rápido

Forum AI dice que cerca del 30% de las respuestas evaluadas contenía al menos un error factual verificable. En preguntas relacionadas con temas electorales antes de las elecciones de Estados Unidos, la organización afirmó que había un 90% de probabilidad de que una respuesta tuviera algún problema material: error factual, sesgo claro, cita a un medio extranjero controlado por el Estado o una combinación de esos factores.

El estudio también detectó un problema en las fuentes. En el total de respuestas, alrededor del 15% citó al menos un medio extranjero controlado por algún Estado. En preguntas de política exterior, esa proporción subió a 35%. Forum AI menciona ejemplos con medios controlados por China, Rusia e Irán, y también advierte sobre el uso de fuentes comerciales en preguntas de política pública, como retailers, consultoras, bancos de inversión o proveedores de investigación de mercado.

Para quien usa estas herramientas en estudio, trabajo o seguimiento de noticias, el hallazgo aterriza en una regla sencilla: no basta con pedir una respuesta con citas. Conviene revisar si la fuente es primaria o confiable, confirmar fechas y cifras clave, y comparar temas sensibles con más de una fuente. Esto es especialmente cierto para política, economía, salud o cualquier asunto que cambie rápido.

En definitiva, NewsBench no muestra que los chatbots sean inútiles para noticias, pero muestra que su desempeño depende de varias capas: qué información recuperan, cómo la sintetizan, qué fuentes priorizan y si mantienen equilibrio cuando el tema es polémico. Así que, como sostenemos en este medio, siempre es aconsejable revisar la rigurosidad de nuestros resultados con IA.

Fuentes

Recommended Posts
0
NVIDIA Vera aparece en nuevos benchmarks y se perfila para la infraestructura de IA agénticadeepview-logra-autorizacion-sanitaria-para-evaluar-quemaduras