Prácticamente insignificante

Más allá de la significancia estadística: lo que no te dijeron sobre los valores de p

Análisis de datos
Significancia estadística
Autor/a
Afiliación
Fecha de publicación

22 de agosto de 2025

It is foolish to ask “Are the effects of A and B different. They are always different – for some decimal place” – John Tukey

1. Introducción

  • Muchos artículos científicos han sido publicados porque obtuvieron un valor de p < 0.05

  • Por ejemplo, un estudio asegura que comer chocolate mejora tu memoria: p = 0.04. Aunque estadísticamente significativo, el efecto fue tan pequeño que la diferencia en la práctica era casi imperceptible.

  • El valor de p ha sido durante décadas la estrella de los análisis estadísticos. Nos dice la probabilidad de obtener resultados como los observados si la hipótesis nula fuera cierta. Sin embargo, su interpretación errónea ha llevado a malentendidos y a un exceso de resultados sensacionalistas.

  • Existen muchos “mitos” sobre qué significa un valor de p, y estos “mitos” pueden distorsionar la ciencia y su comunicación.

  • Este post explora la realidad detrás del valor de p, sus límites, cómo interpretarlo correctamente y alternativas.


2. Breve historia del valor de P

  • En su famoso libro, Design of Experiments (1935), R. A. Fisher sugirió que un 5% de margen de error era una guía práctica para considerar un resultado “estadísticamente notable”.

  • Fisher no proponía un umbral rígido, simplemente ofrecía un referente pragmático o medida de evidencia, sin afirmar que p < 0.05 garantizara que un efecto fuera real.

  • Neyman y Pearson, desarrollaron un marco distinto, más formal, para pruebas de hipótesis. Ellos sí propusieron que, antes de analizar los datos, se fijara un nivel de significancia α (probabilidad máxima de cometer un error tipo I). Pero no especificaron que α debía ser 0.05, podía ser 0.01, 0.10, etc., según el contexto y el balance entre riesgos.

  • Lo que ocurrió después es que la práctica científica fusionó indebidamente ambas visiones:

    • el p-value fisheriano se interpretó con la lógica binaria de Neyman–Pearson.

    • El 0.05 de Fisher se convirtió en el umbral estándar dentro de esa lógica rígida.

  • Esta mezcla de enfoques generó confusión y malinterpretaciones en la estadística moderna.

  • La famosa “regla del 0.05” se consolidó posteriormente como una convención en la práctica estadística, adoptada por la comunidad científica.

  • Esto se convirtió en una guía cultural más que en una regla formal, simplificando la evaluación de resultados en publicaciones.

  • El nivel de significancia (α): es la probabilidad de rechazar la hipótesis nula cuando en realidad es verdadera (error tipo I, también llamado falso positivo).

  • Es decir, se detecta un “efecto” que realmente no existe.

  • El 5% como umbral: α = 0.05 significa que existe un 5% de probabilidad de cometer un error tipo I.

  • Si se establece un α = 0.05, significa que se está dispuesto a aceptar una probabilidad del 5% de cometer un falso positivo.

    Malentendidos comunes:

    • p < 0.05 no garantiza que un efecto sea real.

    • p > 0.05 no significa que no haya efecto.

    • La significancia estadística no mide la magnitud ni la importancia práctica del efecto.


3. Qué es un valor de P: realidad vs. mito

  • Definición correcta: probabilidad de obtener un resultado tan o más extremo que el observado si la hipótesis nula fuera verdadera.

  • Lo que el valor de p NO es:

    • No es la probabilidad de que la hipótesis nula sea verdadera.

    • No expresa la magnitud del efecto.

    • No expresa la importancia práctica de un resultado.


4. Mitos más comunes sobre los valores de P

Mito 1: p < 0.05 significa que el efecto es real.

Falso: solo indica evidencia contra la hipótesis nula, no garantiza que el efecto exista.

Mito 2: p < 0.05 significa que la hipótesis nula es falsa.

Falso: no prueba falsedad, solo mide compatibilidad de los datos con la hipótesis nula.

Mito 3: p < 0.05 significa que el resultado es importante.

Falso: la significancia estadística no implica relevancia práctica ni tamaño del efecto.

Mito 4: p < 0.05 significa que el resultado es reproducible.

Falso: la reproducibilidad depende del diseño, la potencia y la variabilidad, no solo del p.

Mito 5: p > 0.05 significa que no hay efecto.

Falso: puede haber efecto, pero el estudio no tuvo suficiente poder estadístico para detectarlo.

Mito 6: p es la probabilidad de que la hipótesis nula sea cierta.

Falso: p no da probabilidades sobre hipótesis, solo sobre los datos bajo un supuesto modelo.

  • Ejemplo:

    • Mito: “p = 0.03 → H0 tiene 3% de probabilidad de ser verdadera o cierta”.

    • Realidad: “p = 0.03 → si H0 fuera verdadera, hay 3% de probabilidad de obtener este resultado o uno más extremo”.

Mitos y Realidades sobre los valores-p
Mito Realidad
Un valor-p < 0.05 prueba que la hipótesis nula es falsa Un valor-p pequeño indica que los datos observados son poco compatibles con la hipótesis nula, **pero no la descarta con certeza**.
Un valor-p > 0.05 prueba que la hipótesis nula es verdadera Un valor-p grande indica falta de evidencia contra la hipótesis nula, **pero no la prueba**.
El valor-p mide la probabilidad de que la hipótesis nula sea cierta El valor-p mide la probabilidad de observar datos tan extremos como los obtenidos, **asumiendo que la hipótesis nula es cierta**.
Resultados con p < 0.05 son siempre importantes y reproducibles La significancia estadística no implica importancia práctica ni garantiza reproducibilidad.
El umbral 0.05 es una regla universal y objetiva El umbral 0.05 es arbitrario; lo recomendable es reportar el valor exacto de p y considerar el contexto, tamaño del efecto y confianza.

5. Problemas de la significancia estadística

  • Dicotomía “significativo / no significativo”

    • Se interpreta el p < 0.05 como un “sí/no” absoluto, cuando en realidad refleja un grado de evidencia.
  • Fomenta prácticas cuestionables

    • P-hacking: repetir análisis hasta obtener un resultado “significativo”.

    • Publicación selectiva: solo se publican estudios con p < 0.05, ocultando resultados nulos.

  • Contribuye a la crisis de reproducibilidad

    • Muchos hallazgos no pueden replicarse porque dependen de umbrales arbitrarios.
  • Confusión con la importancia práctica

    • Un resultado “estadísticamente significativo” puede carecer de relevancia real en el mundo aplicado.
  • Sensibilidad al tamaño de muestra

    • Con muestras grandes, diferencias triviales se vuelven “significativas”; con muestras pequeñas, efectos reales pueden pasar desapercibidos.
  • Enfoque reduccionista

    • El énfasis en el p-value desplaza otros elementos clave como intervalos de confianza, tamaños de efecto y la plausibilidad teórica.

6. Alternativas y buenas prácticas

1. Reportar tamaños del efecto con sus intervalos de confianza

Por ejemplo: el salario promedio anual de los hombres fue 2500 (95% IC: 2200 - 2700) USD más alto que el de las mujeres.

2. Probabilidades bayesianas (posterior probabilities)

En Bayes:

P(H1datos)=P(datosH1)P(H1)P(datos),P(H0datos)=P(datosH0)P(H0)P(datos)

  • A diferencia del valor de p, que nunca te dice la probabilidad de que la hipótesis sea cierta, en Bayes sí obtienes:

  • La probabilidad posterior de H0 o H1.

  • Por ejemplo:

P(H1datos)=0.70

  • En palabras:

“Dados los datos y los supuestos del modelo, y considerando a H0 como hipótesis alternativa, la probabilidad posterior de que H1 sea cierta es 70%.”

  • Ventajas:

    • Interpretación directa e intuitiva.

    • Evita la trampa de confundir “p < 0.05” con “probabilidad del 95% de que el efecto sea real”.

    • Permite incorporar información previa (priors), mejorando el análisis en áreas con conocimiento acumulado.

3. Factor de Bayes (Bayes factor)

Definición

Si tenemos dos hipótesis H0 y H1, el factor de Bayes se define como:

BF10=P(datosH1)P(datosH0)

  • El factor de Bayes BF10 mide cuántas veces los datos son más probables bajo la hipótesis alternativa H1 que bajo la hipótesis nula H0.

  • Si BF10 = 1, los datos son igualmente compatibles con H0 y H1.

  • Si BF10 > 1, hay evidencia a favor de H1, y mientras mayor sea el valor, más fuerte es la evidencia.

  • Si BF10 < 1, los datos apoyan más a H0, y su inverso BF01 = 1/BF10 indica la fuerza de esa evidencia.

  • En otras palabras, el factor de Bayes permite cuantificar cuánto respaldan los datos a una hipótesis frente a otra, de manera directa e intuitiva, evitando la confusión que a veces genera el valor de p.

Factor de Bayes
BF10 – Evidencia a favor de H1
BF₁₀ Evidencia a favor de H₁
1–3 Débil
3–10 Moderada
>10 Fuerte

4. Likelihood ratios

Compara directamente qué tan probables son los datos bajo dos hipótesis rivales (generalmente H_0 y H_1)

LR=L(datosH1)L(datosH0)

  • Si LR > 1, los datos apoyan más a H_1.

  • Si LR < 1, apoyan más a H_0.

  • Se interpreta en una escala de evidencia, por ejemplo (regla de Jeffreys):

    • 1–3 → evidencia débil
    • 3–10 → evidencia moderada
    • 10 → evidencia fuerte

Diferencias con el valor de p

  • El valor de p solo dice si los datos son consistentes con H0.

  • El LR cuantifica la razón de evidencias entre H0 y H1.

  • El LR es más simétrico y comparativo, mientras que el valor de p está sesgado hacia “rechazar o no” la hipótesis nula.

5. Consideraciones clave en buenas prácticas

  • Contextualizar resultados según: diseño del estudio, tamaño de muestra y plausibilidad teórica.

  • Tendencia actual: “no abandonar el valor de p, pero dejar de usarlo como juez absoluto”.


7. Representación gráfica del valor de p y el tamaño del efecto

Relación entre significancia estadística y práctica

El siguiente gráfico muestra la diferencia salarial promedio entre hombres y mujeres en distintos escenarios. Cada barra representa el valor estimado de la diferencia salarial, con su intervalo de confianza del 95%. Las categorías combinan significancia estadística (si el efecto es confiable) y significancia práctica (si la magnitud del efecto es relevante en la vida real). Las cajas de texto debajo de las barras resumen el mensaje principal de cada escenario, indicando si la diferencia es grande, pequeña o incierta.

Warning: The `label.size` argument of `geom_label()` is deprecated as of ggplot2 3.5.0.
ℹ Please use the `linewidth` argument instead.

Como se puede observar:

- Tamaño del efecto: 20 (95% IC: 10, 30) USD.
Hombres ganan un poco más / Diferencia muy pequeña: estadísticamente significativa, pero con impacto práctico limitado.

- Tamaño del efecto: 300 (95% IC: 200, 400) USD.
Hombres ganan mucho más / Diferencia grande y clara: estadísticamente significativa y relevante en la práctica.

- Tamaño del efecto: 10 (95% IC: -5, 25) USD.
Diferencia mínima y confiable: no significativa y precisa.

- Tamaño del efecto: 150 (95% IC: -50, 350) USD.
Diferencia incierta: no significativa y con alta incertidumbre en la magnitud.


8. Recomendaciones prácticas para investigadores

  • No basar conclusiones en un umbral arbitrario (0.05).

  • Siempre reportar tamaño del efecto e intervalos de confianza.

  • Considerar replicabilidad y contexto antes de sacar conclusiones.

  • Pensar en significancia práctica, no solo estadística.


9. Conclusión crítica

  • Resumen en frase clave:

“El valor de p no es un villano, pero se ha convertido en un falso oráculo. Es una herramienta útil si se interpreta con cuidado, pero peligrosa si se absolutiza.”

  • Cierre reflexivo:

“¿Cómo cambiaría la ciencia si dejáramos de tratar al 0.05 como el semáforo verde/rojo de la verdad?”

10. Lecturas recomendadas

(), (), (), (), (), (),

Redacción asistida por IA. Contenido basado en la experiencia del autor sobre el tema.

Referencias

Amrhein, Valentin, Sander Greenland, y Blake McShane. 2019. «Scientists rise up against statistical significance». Nature 567 (7748): 305-7. https://doi.org/10.1038/d41586-019-00857-9.
Choi, Won-Seok. 2023. «Problems and alternatives of testing significance using null hypothesis and P-value in food research». Food Science and Biotechnology 32 (11): 1-9. https://doi.org/10.1007/s10068-023-01348-4.
Halsey, Lewis G. 2019. «The reign of the p-value is over: what alternative analyses could we employ to fill the power vacuum?» Biology Letters 15 (5): 20190174. https://doi.org/10.1098/rsbl.2019.0174.
James, Gareth, Daniela Witten, Trevor Hastie, y Robert Tibshirani. 2021. An Introduction to Statistical Learning. Springer US. https://doi.org/10.1007/978-1-0716-1418-1.
Johnson, Douglas H. 1999. «The Insignificance of Statistical Significance Testing». Journal of Wildlife Management 63 (3): 763-72. https://doi.org/10.2307/3802789.
Wasserstein, Ronald L., y Nicole A. Lazar. 2016. «The ASA’s Statement on p-Values: Context, Process, and Purpose». The American Statistician 70 (2): 129-33. https://doi.org/10.1080/00031305.2016.1154108.

Cómo citar

BibTeX
@online{spínola2025,
  author = {Spínola, Manuel},
  title = {Prácticamente insignificante},
  date = {2025-08-22},
  url = {https://mspinola-ciencia-de-datos.netlify.app/posts/2025-08-20-valores-de-p/valores_de_p.html},
  langid = {es}
}
Por favor, cita este trabajo como:
Spínola, Manuel. 2025. “Prácticamente insignificante.” August 22, 2025. https://mspinola-ciencia-de-datos.netlify.app/posts/2025-08-20-valores-de-p/valores_de_p.html.