Método · Lectura 7 min

Qué significa el 87% de fidelidad y cómo se mide

Agent Societies · 2026

El número aparece en todo lo que hacemos: un agente solo se libera para contestar estudios cuando alcanza cerca del 87% de fidelidad frente a la persona real que modela. Vale la pena abrir esa cifra, porque un número redondo sin explicación se lee como eslogan, y lo que hay detrás es una compuerta de calidad, no una promesa de exactitud absoluta.

Qué es la fidelidad

Fidelidad es cuánto se parece la respuesta del agente a la de su referente humano cuando ambos contestan lo mismo. La medimos comparando, pregunta por pregunta, lo que respondió la persona y lo que responde su gemelo sobre un conjunto de ítems que la persona ya contestó pero que el agente no vio durante su entrenamiento. Esa separación importa: si evaluáramos al agente con las mismas preguntas con las que aprendió, mediríamos memoria, no capacidad de parecerse.

La fidelidad se mide contra respuestas que el agente no vio mientras aprendía. Lo contrario sería calificarse con las respuestas del examen a la vista.

Cómo se calcula

No hay una sola fidelidad, sino varias formas de mirarla, según el tipo de pregunta:

Coincidencia por ítemEn preguntas categóricas, qué proporción de respuestas del agente cae en la misma opción que la persona. Es la lectura más intuitiva del “87%”.
CorrelaciónEn escalas y números, qué tan alineado va el patrón de respuestas del agente con el del humano, más allá de si acierta el valor exacto.
Similitud de distribuciónA nivel de grupo, qué tan parecida es la distribución de respuestas de los agentes a la de las personas, para que el panel no solo acierte individuos sino que reproduzca la forma del conjunto.

El umbral combina estas lecturas. Un agente que coincide en lo categórico pero aplana la variación, o que correlaciona pero corre sesgado, no pasa la compuerta aunque su promedio se vea alto.

Por qué 87 y no 100

Pedir 100% sería sospechoso antes que tranquilizador. Las personas no son perfectamente consistentes consigo mismas: si a alguien le repites la misma encuesta con días de diferencia, no contesta idéntico. Ese techo humano —la confiabilidad test-retest— marca cuánto es razonable exigirle a un gemelo. Un agente que dijera coincidir al 100% estaría replicando ruido, no señal, o estaría memorizando. El umbral se fija para quedar por encima de lo útil y por debajo de lo que delataría sobreajuste.

Qué hace el umbral, en la práctica

Funciona como una puerta. Cada agente se evalúa contra su referente; el que supera el umbral entra al panel y puede responder estudios, el que no, vuelve a calibración o se deja por fuera. Como cada gemelo es uno a uno con su persona, esa puerta se aplica individuo por individuo, no como un promedio que esconda a los que fallan.

Lo que el 87% no dice

Aquí conviene ser franco, porque es donde un comprador atento va a apretar. Reproducir respuestas no es lo mismo que predecir conducta: un agente fiel en un cuestionario todavía puede equivocarse al anticipar lo que la persona haría. La fidelidad se mide sobre lo conocido, así que dice poco sobre cómo responderá el agente ante algo genuinamente nuevo. Y hay un efecto de selección que vigilar: si solo conservamos a los agentes que superan el umbral, el panel puede inclinarse hacia los referentes más fáciles de predecir y perder la voz de los difíciles. Por eso miramos no solo cuántos pasan, sino quiénes quedan fuera.

El 87% es un piso de calidad medido contra respuesta humana retenida, no un certificado de verdad. Su valor crece cuando se reporta junto a su método y sus límites, y cuando se contrasta, estudio a estudio, con personas reales.