Chatbots
Resulta que decirle a un chatbot de IA que sea conciso podría provocar que alucine más de lo que lo haría de otra manera.
Así lo afirma un nuevo estudio de Giskard, empresa parisina de pruebas de IA que desarrolla un punto de referencia holístico para modelos de IA.
En una entrada de blog que detalla sus hallazgos, los investigadores de Giskard afirman que las solicitudes de respuestas breves a preguntas, en particular las que tratan temas ambiguos, pueden afectar negativamente la veracidad de un modelo de IA.
“Nuestros datos muestran que cambios simples en las instrucciones del sistema influyen drásticamente en la tendencia de un modelo a alucinar”, escribieron los investigadores. “Este hallazgo tiene importantes implicaciones para la implementación, ya que muchas aplicaciones priorizan resultados concisos para reducir el uso de datos, mejorar la latencia y minimizar los costos”.
Las alucinaciones son un problema insoluble en la IA. Incluso los modelos más competentes a veces inventan cosas, una característica de su naturaleza probabilística . De hecho, los modelos de razonamiento más recientes, como el o3 de OpenAI, alucinan más que los modelos anteriores, lo que dificulta la confianza en sus resultados.
En su estudio, Giskard identificó ciertas indicaciones que pueden agravar las alucinaciones, como preguntas vagas y desinformadas que requieren respuestas breves (p. ej., "Dime brevemente por qué Japón ganó la Segunda Guerra Mundial"). Los modelos líderes, como GPT-4o de OpenAI (el modelo predeterminado que impulsa ChatGPT), Mistral Large y Claude 3.7 Sonnet de Anthropic, presentan deficiencias en la precisión fáctica cuando se les pide que mantengan respuestas breves.
El estudio de Giskard contiene otras revelaciones curiosas, como que los modelos son menos propensos a desmentir afirmaciones controvertidas cuando los usuarios las presentan con seguridad, y que los modelos que los usuarios dicen preferir no siempre son los más veraces. De hecho, OpenAI ha tenido dificultades recientemente para encontrar un equilibrio entre modelos que validen sin parecer excesivamente aduladores.
“La optimización de la experiencia del usuario a veces puede ir en detrimento de la precisión fáctica”, escribieron los investigadores. “Esto crea una tensión entre la precisión y la alineación con las expectativas del usuario, especialmente cuando estas incluyen premisas falsas”. Fuente TechCrunch.