Paradoja de Simpson ejemplo sencillo: qué es, cómo entenderla y por qué confunde a la intuición

La paradoja de Simpson es uno de los ejemplos más famosos de cómo los datos pueden parecer contradecirse cuando se agrupan o se desagregan. En un paradoja de Simpson ejemplo sencillo, es posible observar una tendencia clara dentro de cada subgrupo, pero esa misma tendencia se invierte cuando se combinan todos los subgrupos. Este fenómeno, conocido en estadística como Simpson’s paradox, nos recuerda que las conclusiones basadas en promedios globales pueden verse afectadas por la estructura de los datos: tamaños de muestra desiguales, sesgos de agrupación y la forma en que se segmentan los datos pueden cambiar por completo la interpretación.

Qué es la paradoja de Simpson y por qué ocurre

En términos simples, la paradoja de Simpson muestra que dos tratamientos, acciones o categorías pueden comportarse de manera distinta cuando se observan en conjunto en vez de hacerlo por separado. Esto sucede porque la tasa o probabilidad global depende de la distribución de las observaciones entre los subgrupos. Si un subgrupo tiene un tamaño mucho mayor que otro y los resultados dentro de ese subgrupo son drásticamente diferentes, la combinación de subgrupos puede invertir la preferencia observada a nivel global.

Imaginemos dos escenarios típicos en los que aparece el paradoja de Simpson ejemplo sencillo:

En un experimento clínico con dos tratamientos A y B administrados a dos grupos de pacientes (por ejemplo, jóvenes y mayores), cada grupo podría mostrar que A es más eficaz que B. Sin embargo, si se combinan los datos de ambos grupos, podría resultar que B parece más eficaz que A. Este fenómeno se debe a diferencias en tamaños de muestra entre los grupos o a preferencias de asignación que afectan las tasas globales.
En educación o empleo, podrían observarse tasas de admisión o contratación más altas para un género en cada departamento, pero al mirar la tasa global, el otro género podría llevar la delantera por la distribución de alumnos o candidatos entre departamentos.

La clave para entender la paradoja es recordar que la tasa global no es una simple media de las tasas de cada subgrupo cuando los tamaños de muestra difieren entre subgrupos. Por ello, a veces conviene mirar tanto las tasas por subgrupo como la tasa global para obtener una visión completa del fenómeno.

Ejemplo sencillo para ilustrar la paradoja de Simpson

A continuación presento un ejemplo muy básico, pensado para que puedas seguir los cálculos paso a paso. Este paradoja de Simpson ejemplo sencillo utiliza dos grupos de pacientes y dos tratamientos, con tamaños de muestra diferentes entre los grupos. El objetivo es mostrar cómo una preferencia observada en cada grupo por un tratamiento puede invertirse cuando se analizan los datos agrupados.

Datos del ejemplo

Supongamos dos departamentos (o dos hospitales) y dos tratamientos, A y B. En cada departamento, evaluamos cuántos pacientes se curan con cada tratamiento. Las cifras están pensadas para ser fáciles de seguir, manteniendo la idea central de la paradoja.

Departamento 1:
- Tratamiento A: 8 curados de 10 pacientes
- Tratamiento B: 4 curados de 5 pacientes
Departamento 2:
- Tratamiento A: 1 curado de 2 pacientes
- Tratamiento B: 9 curados de 10 pacientes

Ahora, calculamos las tasas de éxito por departamento y luego la tasa global combinando ambos departamentos.

Cálculos por departamento

Departamento 1:
- Tasa de A: 8/10 = 80%
- Tasa de B: 4/5 = 80%
Departamento 2:
- Tasa de A: 1/2 = 50%
- Tasa de B: 9/10 = 90%

Observación: en este caso, el Tratamiento A parece igual de eficaz que B en el Departamento 1 (ambos 80%), y en el Departamento 2 B supera a A (90% vs 50%). A primera vista, podría parecer que B es mejor en general porque obtiene mejores resultados en el segundo departamento, pero el análisis no está completo sin mirar la tasa global.

Cálculo de la tasa global

Sumemos los resultados de ambos departamentos para obtener las cifras globales:

Totales de A: 8 (DE1) + 1 (DE2) = 9 curados
Pacientes totales con A: 10 (DE1) + 2 (DE2) = 12 pacientes
Tasa global de A: 9/12 = 75%

Totales de B: 4 (DE1) + 9 (DE2) = 13 curados
Pacientes totales con B: 5 (DE1) + 10 (DE2) = 15 pacientes
Tasa global de B: 13/15 ≈ 86.7%

En este paradoja de Simpson ejemplo sencillo, la tasa global de éxito de B (≈ 86.7%) supera a la de A (75%), incluso si en el Departamento 1 ambas tasas eran iguales y en el Departamento 2 B superaba a A. Este es un caso claro de inversión de la dirección de la relación al agrupar, que es precisamente la esencia de la paradoja de Simpson.

Observa cómo las proporciones difieren entre departamentos y cómo la distribución de pacientes entre departamentos afecta la lectura global. Si el Departamento 1 tiene más peso en el total de pacientes y A y B rinden resultados similares allí, la diferencia se manifiesta con mayor claridad cuando sumamos los datos de ambos departamentos y olvidamos que existieron dos subgrupos con realidades distintas.

Interpretación y lecciones clave del paradoja de Simpson

Este paradoja de Simpson ejemplo sencillo ilustra varias lecciones importantes para el análisis de datos:

La lectura de un único resumen (tasa global) puede ocultar heterogeneidad entre subgrupos. Es fundamental desglosar los datos por subgrupos relevantes (por ejemplo, departamentos, grupos etarios, centros médicos) antes de sacar conclusiones finales.
La distribución de la muestra entre subgrupos afecta fuertemente los resultados globales. Un subgrupo con mayor peso puede arrastrar la media global hacia una dirección que no se observó en los subgrupos individuales.
La paradoja recuerda la importancia de confirmar hallazgos mediante múltiples enfoques de análisis: desagregar los datos, revisar tasas condicionadas y considerar posibles sesgos de asignación o de muestreo.
La intuición puede fallar cuando las estadísticas se presentan en términos agregados. Es útil practicar con ejemplos prácticos para entrenar el ojo crítico frente a la lectura de gráficos y tablas.

Casos prácticos donde aparece la paradoja

La paradoja de Simpson no es sólo un tema teórico. Aparece en distintos ámbitos y escenarios reales, como:

Medicina: cuando dos tratamientos muestran resultados diferentes dependiendo de los subgrupos de pacientes (por ejemplo, edad, sexo, comorbilidades) y el peso de cada subgrupo influye en el resultado global.
Educación y empleo: diferencias en tasas de admisión, contratación o promoción entre departamentos, facultades o equipos, que al combinarse pueden cambiar las conclusiones finales.
Economía y sociología: análisis de encuestas donde la distribución de la muestra en subgrupos puede modificar la interpretación de preferencias o comportamientos a nivel agregado.

En todos estos casos, la clave es revisar tanto la tendencia por subgrupo como la tendencia global, y ser conscientes de que la inversión de dirección puede ocurrir cuando la estructura de los datos no es homogénea entre subgrupos.

Cómo detectar y evitar caer en la paradoja

Detectar la paradoja de Simpson y evitar interpretaciones erróneas requiere un enfoque metódico en el análisis de datos. Algunas estrategias útiles son:

Desglosar los datos en subgrupos relevantes y calcular las tasas por cada subgrupo. Esto ayuda a ver si las diferencias a favor de un tratamiento se deben a la distribución de pacientes entre subgrupos.
Calcular tasas condicionadas y probabilidades condicionales para entender cómo se relacionan las variables entre sí. Por ejemplo, P(Eficacia | Subgrupo) frente a P(Eficacia) global.
Evaluar la distribución de tamaños de muestra entre subgrupos. Un desequilibrio extremo puede favorecer una lectura engañosa cuando se suman los datos.
Considerar métodos de ajuste: modelos de regresión, ponderaciones o análisis estratificado para controlar variables de confusión y obtener una estimación más robusta del efecto real.
Usar visualizaciones claras (tablas, gráficos de barras apiladas o segmentadas) que muestren tanto las tasas por subgrupo como la tasa global. Esto facilita detectar discrepancias entre niveles.

Diferencias con otros sesgos y sesgos comunes

La paradoja de Simpson se relaciona con, pero no es idéntica a, otros sesgos estadísticos. Algunas diferencias clave:

Sesgo de selección: ocurre cuando la muestra elegida no es representativa de la población. Aunque puede coexistir con Simpson, no es lo mismo que la paradoja, que se centra en la agrupación y la combinación de subgrupos.
Confusión por variables ocultas: la Paradoja de Simpson a menudo surge porque hay una o más variables (p. ej., edad, tamaño de muestra, ubicación) que influyen tanto en la asignación como en el resultado. Identificar y controlar estas variables es crucial.
Efector de ponderación: en Simpson, la diferencia entre tasas puede deberse a cómo están ponderadas las observaciones en cada subgrupo. Otros sesgos pueden deberse a errores de muestreo o de medición, no necesariamente a la ponderación.

Conclusiones: cómo entender la paradoja de Simpson ejemplo sencillo

La paradoja de Simpson, especialmente en su versión paradoja de Simpson ejemplo sencillo, nos invita a ser cautelosos al interpretar promedios y tasas. Una lectura rápida de una sola cifra no siempre dice toda la historia. Al desglosar los datos en subgrupos relevantes, analizar tamaños de muestra y aplicar métodos de ajuste cuando es necesario, podemos obtener una comprensión más fiel de la realidad y evitar conclusiones erróneas.

Si te interesa aprender más sobre el tema, puedes realizar tus propios experimentos con datos ficticios y practicar la desagregación de la información. Un buen ejercicio es crear dos subgrupos con diferentes tamaños de muestra y calcular las tasas de éxito por grupo, para luego sumar y comparar las tasas globales. Así fortalecerás tu intuición para reconocer cuándo un resultado global puede ocultar una realidad más compleja.

Recursos prácticos para profundizar

A continuación, algunas ideas para seguir explorando la paradoja de Simpson de forma Didáctica:

Ejercicios paso a paso con datasets simples para practicar el cálculo de tasas por subgrupo y la tasa global.
Gráficos comparativos que muestren la diferencia entre las tasas por subgrupo y la tasa global, con énfasis en el peso de cada subgrupo.
Casos de estudio reales de la paradoja en ámbitos como medicina, educación y sociología, para entender su impacto en la interpretación de resultados y en la toma de decisiones.
Lecturas sobre fundamentos de probabilidades condicionales y reglas de Bayes, que ayudan a entender por qué la paradoja puede ocurrir desde una perspectiva teórica.

Palabras finales sobre el paradoja de Simpson ejemplo sencillo

La paradoja de Simpson es un recordatorio valioso de que los datos deben analizarse con cuidado y contexto. Un resumen global puede ser engañoso si no consideramos la estructura subyacente, las diferencias entre grupos y el tamaño relativo de cada subgrupo. Con un enfoque metódico, desagregando datos y evaluando las tasas en distintos niveles, podemos obtener una visión más fiel de la realidad y comunicar hallazgos de forma más responsable y clara.