Mitos y Realidades sobre los valores-p | |
Mito | Realidad |
---|---|
Un valor-p < 0.05 prueba que la hipótesis nula es falsa | Un valor-p pequeño indica que los datos observados son poco compatibles con la hipótesis nula, **pero no la descarta con certeza**. |
Un valor-p > 0.05 prueba que la hipótesis nula es verdadera | Un valor-p grande indica falta de evidencia contra la hipótesis nula, **pero no la prueba**. |
El valor-p mide la probabilidad de que la hipótesis nula sea cierta | El valor-p mide la probabilidad de observar datos tan extremos como los obtenidos, **asumiendo que la hipótesis nula es cierta**. |
Resultados con p < 0.05 son siempre importantes y reproducibles | La significancia estadística no implica importancia práctica ni garantiza reproducibilidad. |
El umbral 0.05 es una regla universal y objetiva | El umbral 0.05 es arbitrario; lo recomendable es reportar el valor exacto de p y considerar el contexto, tamaño del efecto y confianza. |
It is foolish to ask “Are the effects of A and B different. They are always different – for some decimal place” – John Tukey
1. Introducción
Muchos artículos científicos han sido publicados porque obtuvieron un valor de p < 0.05
Por ejemplo, un estudio asegura que comer chocolate mejora tu memoria: p = 0.04. Aunque estadísticamente significativo, el efecto fue tan pequeño que la diferencia en la práctica era casi imperceptible.
El valor de p ha sido durante décadas la estrella de los análisis estadísticos. Nos dice la probabilidad de obtener resultados como los observados si la hipótesis nula fuera cierta. Sin embargo, su interpretación errónea ha llevado a malentendidos y a un exceso de resultados sensacionalistas.
Existen muchos “mitos” sobre qué significa un valor de p, y estos “mitos” pueden distorsionar la ciencia y su comunicación.
Este post explora la realidad detrás del valor de p, sus límites, cómo interpretarlo correctamente y alternativas.
2. Breve historia del valor de P
En su famoso libro, Design of Experiments (1935), R. A. Fisher sugirió que un 5% de margen de error era una guía práctica para considerar un resultado “estadísticamente notable”.
Fisher no proponía un umbral rígido, simplemente ofrecía un referente pragmático o medida de evidencia, sin afirmar que p < 0.05 garantizara que un efecto fuera real.
Neyman y Pearson, desarrollaron un marco distinto, más formal, para pruebas de hipótesis. Ellos sí propusieron que, antes de analizar los datos, se fijara un nivel de significancia α (probabilidad máxima de cometer un error tipo I). Pero no especificaron que α debía ser 0.05, podía ser 0.01, 0.10, etc., según el contexto y el balance entre riesgos.
Lo que ocurrió después es que la práctica científica fusionó indebidamente ambas visiones:
el p-value fisheriano se interpretó con la lógica binaria de Neyman–Pearson.
El 0.05 de Fisher se convirtió en el umbral estándar dentro de esa lógica rígida.
Esta mezcla de enfoques generó confusión y malinterpretaciones en la estadística moderna.
La famosa “regla del 0.05” se consolidó posteriormente como una convención en la práctica estadística, adoptada por la comunidad científica.
Esto se convirtió en una guía cultural más que en una regla formal, simplificando la evaluación de resultados en publicaciones.
El nivel de significancia (α): es la probabilidad de rechazar la hipótesis nula cuando en realidad es verdadera (error tipo I, también llamado falso positivo).
Es decir, se detecta un “efecto” que realmente no existe.
El 5% como umbral: α = 0.05 significa que existe un 5% de probabilidad de cometer un error tipo I.
Si se establece un α = 0.05, significa que se está dispuesto a aceptar una probabilidad del 5% de cometer un falso positivo.
Malentendidos comunes:
p < 0.05 no garantiza que un efecto sea real.
p > 0.05 no significa que no haya efecto.
La significancia estadística no mide la magnitud ni la importancia práctica del efecto.
3. Qué es un valor de P: realidad vs. mito
Definición correcta: probabilidad de obtener un resultado tan o más extremo que el observado si la hipótesis nula fuera verdadera.
Lo que el valor de p NO es:
No es la probabilidad de que la hipótesis nula sea verdadera.
No expresa la magnitud del efecto.
No expresa la importancia práctica de un resultado.
4. Mitos más comunes sobre los valores de P
Mito 1: p < 0.05 significa que el efecto es real.
Falso: solo indica evidencia contra la hipótesis nula, no garantiza que el efecto exista.
Mito 2: p < 0.05 significa que la hipótesis nula es falsa.
Falso: no prueba falsedad, solo mide compatibilidad de los datos con la hipótesis nula.
Mito 3: p < 0.05 significa que el resultado es importante.
Falso: la significancia estadística no implica relevancia práctica ni tamaño del efecto.
Mito 4: p < 0.05 significa que el resultado es reproducible.
Falso: la reproducibilidad depende del diseño, la potencia y la variabilidad, no solo del p.
Mito 5: p > 0.05 significa que no hay efecto.
Falso: puede haber efecto, pero el estudio no tuvo suficiente poder estadístico para detectarlo.
Mito 6: p es la probabilidad de que la hipótesis nula sea cierta.
Falso: p no da probabilidades sobre hipótesis, solo sobre los datos bajo un supuesto modelo.
Ejemplo:
Mito: “p = 0.03 →
tiene 3% de probabilidad de ser verdadera o cierta”.Realidad: “p = 0.03 → si
fuera verdadera, hay 3% de probabilidad de obtener este resultado o uno más extremo”.
5. Problemas de la significancia estadística
Dicotomía “significativo / no significativo”
- Se interpreta el p < 0.05 como un “sí/no” absoluto, cuando en realidad refleja un grado de evidencia.
Fomenta prácticas cuestionables
P-hacking: repetir análisis hasta obtener un resultado “significativo”.
Publicación selectiva: solo se publican estudios con p < 0.05, ocultando resultados nulos.
Contribuye a la crisis de reproducibilidad
- Muchos hallazgos no pueden replicarse porque dependen de umbrales arbitrarios.
Confusión con la importancia práctica
- Un resultado “estadísticamente significativo” puede carecer de relevancia real en el mundo aplicado.
Sensibilidad al tamaño de muestra
- Con muestras grandes, diferencias triviales se vuelven “significativas”; con muestras pequeñas, efectos reales pueden pasar desapercibidos.
Enfoque reduccionista
- El énfasis en el p-value desplaza otros elementos clave como intervalos de confianza, tamaños de efecto y la plausibilidad teórica.
6. Alternativas y buenas prácticas
1. Reportar tamaños del efecto con sus intervalos de confianza
Por ejemplo: el salario promedio anual de los hombres fue 2500 (95% IC: 2200 - 2700) USD más alto que el de las mujeres.
2. Probabilidades bayesianas (posterior probabilities)
En Bayes:
A diferencia del valor de p, que nunca te dice la probabilidad de que la hipótesis sea cierta, en Bayes sí obtienes:
La probabilidad posterior de
o .Por ejemplo:
- En palabras:
“Dados los datos y los supuestos del modelo, y considerando a
Ventajas:
Interpretación directa e intuitiva.
Evita la trampa de confundir “p < 0.05” con “probabilidad del 95% de que el efecto sea real”.
Permite incorporar información previa (priors), mejorando el análisis en áreas con conocimiento acumulado.
3. Factor de Bayes (Bayes factor)
Definición
Si tenemos dos hipótesis
El factor de Bayes
mide cuántas veces los datos son más probables bajo la hipótesis alternativa que bajo la hipótesis nula .Si
= 1, los datos son igualmente compatibles con y .Si
> 1, hay evidencia a favor de , y mientras mayor sea el valor, más fuerte es la evidencia.Si
< 1, los datos apoyan más a , y su inverso = indica la fuerza de esa evidencia.En otras palabras, el factor de Bayes permite cuantificar cuánto respaldan los datos a una hipótesis frente a otra, de manera directa e intuitiva, evitando la confusión que a veces genera el valor de p.
Factor de Bayes | |
BF10 – Evidencia a favor de H1 | |
BF₁₀ | Evidencia a favor de H₁ |
---|---|
1–3 | Débil |
3–10 | Moderada |
>10 | Fuerte |
4. Likelihood ratios
Compara directamente qué tan probables son los datos bajo dos hipótesis rivales (generalmente H_0 y H_1)
Si LR > 1, los datos apoyan más a H_1.
Si LR < 1, apoyan más a H_0.
Se interpreta en una escala de evidencia, por ejemplo (regla de Jeffreys):
- 1–3 → evidencia débil
- 3–10 → evidencia moderada
- 10 → evidencia fuerte
Diferencias con el valor de p
El valor de p solo dice si los datos son consistentes con
.El LR cuantifica la razón de evidencias entre
y .El LR es más simétrico y comparativo, mientras que el valor de p está sesgado hacia “rechazar o no” la hipótesis nula.
5. Consideraciones clave en buenas prácticas
Contextualizar resultados según: diseño del estudio, tamaño de muestra y plausibilidad teórica.
Tendencia actual: “no abandonar el valor de p, pero dejar de usarlo como juez absoluto”.
7. Representación gráfica del valor de p y el tamaño del efecto
Relación entre significancia estadística y práctica
El siguiente gráfico muestra la diferencia salarial promedio entre hombres y mujeres en distintos escenarios. Cada barra representa el valor estimado de la diferencia salarial, con su intervalo de confianza del 95%. Las categorías combinan significancia estadística (si el efecto es confiable) y significancia práctica (si la magnitud del efecto es relevante en la vida real). Las cajas de texto debajo de las barras resumen el mensaje principal de cada escenario, indicando si la diferencia es grande, pequeña o incierta.
Warning: The `label.size` argument of `geom_label()` is deprecated as of ggplot2 3.5.0.
ℹ Please use the `linewidth` argument instead.
Como se puede observar:
- Tamaño del efecto: 20 (95% IC: 10, 30) USD.
Hombres ganan un poco más / Diferencia muy pequeña: estadísticamente significativa, pero con impacto práctico limitado.
- Tamaño del efecto: 300 (95% IC: 200, 400) USD.
Hombres ganan mucho más / Diferencia grande y clara: estadísticamente significativa y relevante en la práctica.
- Tamaño del efecto: 10 (95% IC: -5, 25) USD.
Diferencia mínima y confiable: no significativa y precisa.
- Tamaño del efecto: 150 (95% IC: -50, 350) USD.
Diferencia incierta: no significativa y con alta incertidumbre en la magnitud.
8. Recomendaciones prácticas para investigadores
No basar conclusiones en un umbral arbitrario (0.05).
Siempre reportar tamaño del efecto e intervalos de confianza.
Considerar replicabilidad y contexto antes de sacar conclusiones.
Pensar en significancia práctica, no solo estadística.
9. Conclusión crítica
- Resumen en frase clave:
“El valor de p no es un villano, pero se ha convertido en un falso oráculo. Es una herramienta útil si se interpreta con cuidado, pero peligrosa si se absolutiza.”
- Cierre reflexivo:
“¿Cómo cambiaría la ciencia si dejáramos de tratar al 0.05 como el semáforo verde/rojo de la verdad?”
10. Lecturas recomendadas
(Amrhein, Greenland, y McShane 2019), (Choi 2023), (Halsey 2019), (James et al. 2021), (Johnson 1999), (Wasserstein y Lazar 2016),
Redacción asistida por IA. Contenido basado en la experiencia del autor sobre el tema.
Referencias
Cómo citar
@online{spínola2025,
author = {Spínola, Manuel},
title = {Prácticamente insignificante},
date = {2025-08-22},
url = {https://mspinola-ciencia-de-datos.netlify.app/posts/2025-08-20-valores-de-p/valores_de_p.html},
langid = {es}
}