Alertan por fallas en chats de IA usados para consultas médicas

Un estudio internacional cuestiona la precisión de la IA en salud

Un trabajo internacional encendió una fuerte alarma sobre el uso de chats de inteligencia artificial (IA) para realizar consultas de salud. La investigación, liderada por especialistas del Instituto Lundquist para la Innovación Biomédica, en Estados Unidos, concluyó que la mitad de las respuestas brindadas por los principales modelos de IA resultan imprecisas o problemáticas cuando se las compara con la evidencia científica disponible.

El equipo evaluó cinco de los sistemas más populares: Gemini (Google), DeepSeek, Meta AI, ChatGPT (OpenAI) y Grok (xAI). Los científicos elaboraron 250 preguntas divididas en cinco áreas sensibles para la salud pública: cáncer, vacunas, células madre, nutrición y rendimiento deportivo. Las consultas fueron redactadas para imitar búsquedas reales de los usuarios e incluso para empujar a los modelos hacia mitos muy difundidos o recomendaciones potencialmente peligrosas.

– Publicidad –

Los resultados preocupan: de acuerdo con el trabajo citado por la Agencia Noticias Argentinas, el 50% de las respuestas fueron catalogadas como “algo” o “altamente” problemáticas. Más grave aún, el 20% de las contestaciones se consideró directamente riesgoso, con capacidad de orientar a tratamientos ineficaces o decisiones que podrían dañar la salud si se siguen sin supervisión profesional.

El espejismo de la neutralidad y la falsa credibilidad

Uno de los puntos centrales del estudio es la manera en que los chats de IA presentan la información: con tono seguro, frases contundentes y casi sin advertencias sobre sus límites. Esa apariencia de neutralidad y objetividad, señalan los autores y la agencia científica Sinc, termina ubicando en el mismo plano afirmaciones respaldadas por ciencia sólida y contenidos propios de la pseudociencia.

Esa falla no responde a una decisión editorial, sino a la forma en que están construidos estos modelos. Entrenados con enormes volúmenes de textos —que combinan artículos académicos con publicaciones en redes sociales, foros y blogs—, los sistemas no verifican datos ni jerarquizan fuentes. “No pueden aplicar evidencia ni ponderar qué fuentes son precisas y cuáles no. Por eso ese falso equilibrio es tan común”, explicó Nicholas Tiller, autor principal de la investigación.

El fenómeno se combina con otro aspecto psicológico relevante: las respuestas extensas, con lenguaje técnico y estilo académico, incrementan la confianza de los usuarios, aunque en muchos casos no sean más exactas. Esa complejidad, advierte el equipo, “promueve una falsa credibilidad” y puede llevar a tomar decisiones apresuradas sin consultar a un médico.

Qué chatbot falló más y por qué preocupa la accesibilidad

Al comparar el desempeño de los cinco modelos analizados, el estudio ubicó a Grok (de la compañía xAI) como el peor evaluado: el 58% de sus respuestas fue clasificado como altamente problemático. En el otro extremo, Gemini fue el sistema que mostró menos fallos críticos, aunque de todos modos estuvo lejos de un desempeño aceptable para fines médicos.

  • El 50% de las respuestas totales fueron problemáticas.
  • Una de cada cinco fue considerada de alto riesgo para la salud.
  • Grok concentró el mayor porcentaje de contestaciones críticas.
  • Ningún modelo ofreció información realmente accesible para el público general.

En este último punto, los investigadores utilizaron el índice de legibilidad de Flesch y determinaron que la mayoría de los textos produzcan una complejidad similar a la que usaría un graduado universitario. Esa barrera de comprensión, sostienen, constituye un riesgo adicional para la salud pública: muchas personas no logran entender por completo las advertencias o condiciones de uso que se mencionan.

Alucinaciones, citas inventadas y el rol de la regulación

Otro hallazgo crítico tuvo que ver con las referencias bibliográficas. Los científicos evaluaron la calidad y veracidad de las citas proporcionadas por los chats. La puntuación promedio de integridad apenas alcanzó el 40%, lo que indica un desempeño pobre. Ningún modelo consiguió aportar una lista de trabajos científicos completamente real: en muchos casos, los sistemas inventaron títulos de estudios, autores y revistas, pero con apariencia convincente.

“A medida que el uso de estos chatbots se expande, nuestros datos resaltan la necesidad de una educación pública, formación profesional y una supervisión regulatoria estricta”, concluyó el equipo de investigadores.

En ese sentido, los especialistas recomiendan considerar a la IA como una herramienta de apoyo y no como sustituto de la consulta médica. También insisten en que los sistemas de salud, las agencias regulatorias y las instituciones educativas desarrollen guías claras de uso responsable, de modo que pacientes y profesionales comprendan qué pueden —y qué no pueden— esperar de los chats de IA en materia de salud.

- Publicidad -
- Publicidad -
- Publicidad -