GenAI en seguros: cómo validar resultados de IA

Puntos clave

Un diseño de prompts preciso es fundamental para reducir la variabilidad en los resultados de los LLM y asegurar un desempeño más confiable y auditable en entornos de seguros regulados.
Los sistemas basados en LLM deben evaluarse tanto a nivel de salida del modelo como a nivel del sistema, utilizando prompts estructurados y métodos de similitud matemática o semántica.
Las pruebas regulares de variabilidad son críticas a medida que los modelos evolucionan, ya que ayudan a las aseguradoras a diferenciar la variabilidad causada por los prompts de los cambios reales en el modelo a lo largo del tiempo.

Conoce más leyendo nuestro artículo, que amplía este tema, y contáctanos.

Los modelos de lenguaje grande (LLM) se están convirtiendo cada vez más en componentes estándar de los sistemas de software empresarial modernos en las compañías de seguros.

Estos LLM se encuentran en sistemas agentes que operan dentro de entornos empresariales regulados, apoyando procesos de decisión sujetos a normativa y garantizando auditabilidad, explicabilidad y controles de riesgo. El software agéntico puede comprender una situación, decidir los siguientes pasos y ejecutar acciones para alcanzar un objetivo, a menudo con intervención humana limitada. Este tipo de sistemas se ha adoptado en suscripción, gestión de siniestros, detección de fraude, atención al cliente, administración de pólizas y monitoreo de cumplimiento.
Los LLM – incluidos Claude, Llama, GPT y otros – suelen ofrecer respuestas ligeramente diferentes a la misma pregunta cada vez, dependiendo de su configuración. Esto es similar a preguntar lo mismo a una persona varias veces en un mismo día; las respuestas pueden variar. Además, las empresas que desarrollan estos LLM suelen actualizar sus modelos periódicamente. Estos factores dificultan la evaluación de la precisión y consistencia de los sistemas informáticos que dependen de LLM a lo largo del tiempo, ya que comparar únicamente los resultados no siempre garantiza que el comportamiento del sistema no haya cambiado significativamente.
La actualización de IA de este trimestre, publicada originalmente en el Actuarial Intelligence Bulletin de la SOA, analiza cómo las aseguradoras auditan y prueban sistemas basados en LLM en constante cambio, que incluso sin una actualización de versión, ya pueden producir resultados inconsistentes.

Manejo de resultados inconsistentes

Los sistemas empresariales que usan LLM deben diseñarse para mitigar los efectos de resultados inconsistentes. Las compañías deberían probar estos sistemas en dos niveles: los resultados reales del LLM y la precisión general del sistema empresarial.
Comenzando con la precisión general, los prompts deben diseñarse para reducir la variabilidad en las respuestas tanto como sea posible. Por ejemplo, un prompt mal planteado podría ser:
“Produce un resumen de una frase sobre preocupaciones de suscripción de seguros de vida para el siguiente documento médico.”
Al ejecutar este prompt en un conjunto de datos médicos sintético, se obtuvieron las siguientes dos respuestas distintas ante dos consultas consecutivas:

“Un hombre de 50 años presenta un riesgo de suscripción moderadamente elevado debido a hipertensión no controlada, diabetes tipo 2 temprana (A1c 6.6%), sobrepeso y adherencia subóptima a la medicación, pero con función renal preservada, sin eventos cardiovasculares y con historial favorable de no fumador.”
“Un hombre de 50 años presenta preocupaciones de suscripción de seguros de vida debido a hipertensión no controlada con adherencia inconsistente a la medicación, diabetes tipo 2 temprana recién diagnosticada (A1c 6.6%), sobrepeso, dislipidemia, estilo de vida sedentario y antecedentes familiares de enfermedad cardiometabólica, aumentando colectivamente el riesgo cardiovascular a largo plazo pese a función renal actualmente normal y sin daño a órganos.”
Al hacer el prompt más preciso, los resultados se vuelven mucho más consistentes. Por ejemplo, el siguiente prompt solicita una lista de códigos médicos y las principales preocupaciones asociadas a ellos:

Extrae las preocupaciones más importantes de la suscripción de seguros de vida del documento médico. Salida solo en CSV con tres campos por fila: Preocupación, Capítulo ICD-10, Severidad (1–10). Usa términos médicos estandarizados, ordénalos por severidad (de mayor a menor) e incluye solo condiciones o factores de riesgo documentados.

Este prompt es considerablemente más sólido. Describe con exactitud lo que se busca y el formato preciso en que debe entregarse. El prompt preciso ofrece varios beneficios, incluyendo resultados más consistentes en forma de una lista simple con tres columnas: un código médico, el nombre y la evaluación de severidad realizada por el LLM.
Los puntajes de severidad probablemente sean los que muestran mayor variabilidad. En la práctica, las aseguradoras probablemente tendrían un prompt completo dedicado a esta clasificación de severidad, con expresiones muy detalladas, si es que confían en que los LLM puedan clasificar la severidad. Dicho esto, si se utiliza únicamente la información documentada y no la evaluación, los puntajes de severidad aún pueden ayudar a ordenar los datos extraídos por el LLM.
A partir de aquí, las pruebas del sistema para evaluar precisión pueden realizarse de manera más eficiente, enfocándose menos en la salida de consultas individuales del LLM.

¿Significan lo mismo dos respuestas diferentes?

Determinar la similitud entre dos respuestas requiere evaluar la salida real del LLM. A primera vista, las dos respuestas de la sección anterior – generadas por un prompt mal diseñado – parecen bastante similares. Sin embargo, al examinarlas con más detalle, surgen algunas diferencias importantes, aunque relativamente menores.
La clave es aplicar un método para comparar las respuestas del LLM y cuantificar sus diferencias. En lugar de comparar simplemente palabras individuales, se pueden usar varios enfoques matemáticos. Estos incluyen medir el grado de solapamiento semántico entre las dos respuestas mediante técnicas de similitud vectorial o verificar si una respuesta implica lógicamente o contradice a la otra.
Un enfoque relativamente nuevo para medir la similitud de respuestas es preguntar directamente al LLM qué tan similares son dos respuestas. Aunque esto pueda parecer como “poner al zorro a cuidar el gallinero”, se ha convertido en uno de los métodos más comunes. Considera el siguiente prompt:

Compara las siguientes dos respuestas del LLM. Concéntrate únicamente en el significado semántico y el contenido factual. Ignora la redacción y el estilo. Señala cualquier información clínicamente relevante que se haya agregado, omitido o modificado.
Salida exacta: puntaje de similitud 0–10, donde 10 = idénticas, una oración describiendo la(s) diferencia(s) clave. No agregues comentarios.

Para las mismas dos respuestas examinadas anteriormente, este prompt produjo lo siguiente:
7, La respuesta B agrega dislipidemia, estilo de vida sedentario y antecedentes familiares, mientras omite el historial favorable de no fumador y la ausencia explícita de eventos cardiovasculares mencionados en la respuesta A.

¿Cómo pueden dos respuestas, del mismo modelo y versión, obtener un puntaje de solo 7/10? Aunque podría atribuirse rápidamente a alucinaciones del modelo, hay otra causa: el prompt original impreciso.
El segundo prompt, mejorado, produjo consistentemente resultados con puntajes de 9 o 10. Si los prompts son imprecisos y generan una variabilidad de 7/10, será muy difícil probar y evaluar esa variabilidad en el futuro, especialmente cuando se introduce un modelo o versión completamente nueva.
Este tipo de comparaciones de variabilidad son clave al diseñar prompts, y los resultados deben evaluarse regularmente para determinar si es necesario ajustar o afinar el modelo.

Conclusión

Los LLM pueden ser herramientas poderosas dentro de un sistema de seguros regulado, pero su variabilidad inherente implica que la precisión, consistencia y auditabilidad deben diseñarse e incorporarse al sistema, en lugar de asumirse automáticamente por el modelo. El diseño preciso de prompts y las pruebas sistemáticas de variabilidad son fundamentos esenciales para evaluar de manera confiable los sistemas basados en LLM a lo largo del tiempo, especialmente a medida que los modelos evolucionan o se reemplazan.

Contacta a RGA hoy para conocer más sobre cómo una colaboración impulsada por IA puede beneficiar a tu negocio.
Más contenido relacionado…

Actualización sobre GenAI en seguros: 1er trimestre de 2026

Resumen del artículo

Artículos relacionados

El Acceso Cotidiano a la IA es Clave para una Mejor Industria Aseguradora

¿Qué es la Inteligencia Artificial General (AGI) y qué significará para la industria de seguros?

Actualización sobre GenAI en el sector asegurador: cuarto trimestre de 2025

Actualización sobre IA Generativa en Seguros: Tercer Trimestre 2025

De Datos Fragmentados a Decisiones Informadas: El potencial de la IA en los mercados de seguros de vida de Medio Oriente

5 Formas de Reducir la Huella de Carbono de la IA Generativa

Actualización sobre IA Generativa en Seguros: Segundo Trimestre 2025

Actualización sobre IA Generativa en Seguros: Q1 2025

Definiendo la inteligencia artificial en la industria de seguros: desafíos y oportunidades

Actualización de GenAI en el sector de seguros: 4º trimestre de 2024

Conoce a los autores y expertos

¡Entérate sobre nuestros próximos eventos o webinars!