La estadística bayesiana es una rama de la estadística en la que se utiliza el teorema de Bayes para actualizar la probabilidad de que una hipótesis sea cierta a medida que se disponga de más evidencia. Esta aproximación es especialmente útil en la inferencia estadística, donde se combina información previa (o conocimientos previos) con datos observados para hacer estimaciones o predicciones.
El teorema de Bayes se puede expresar como:
Donde:
-
$P(H|E)$ es la probabilidad posterior de la hipótesis$H$ dado el evento$E$ . -
$P(E|H)$ es la probabilidad de observar el evento$E$ dado que la hipótesis$H$ es cierta. -
$P(H)$ es la probabilidad previa de$H$ , antes de ver el evento$E$ . -
$P(E)$ es la probabilidad de observar el evento$E$ bajo todas las hipótesis posibles, conocida como probabilidad marginal de$E$ .
El enfoque bayesiano se basa en la actualización de nuestras creencias en la presencia de nueva evidencia. La probabilidad previa
La belleza del enfoque bayesiano radica en su flexibilidad para incorporar conocimientos previos y su capacidad para actualizar nuestras estimaciones a medida que se dispone de nueva información.
Ejemplo 1: Prueba de una enfermedad
Imagina que estamos tratando de estimar la probabilidad de que una persona tenga una enfermedad basándonos en el resultado de una prueba médica.
- Supongamos que la probabilidad previa de tener la enfermedad (la prevalencia) es del 0.1%
$(P(H) = 0.001)$ . - La prueba tiene una tasa de verdaderos positivos (sensibilidad) del 99% (
$P(E|H) = 0.99$ ) y una tasa de falsos positivos (1 - especificidad) del 1% ($P(E|\neg H) = 0.01$ ).
Queremos calcular la probabilidad de que alguien realmente tenga la enfermedad si da positivo en la prueba
Primero, necesitamos calcular
Vamos a calcularlo:
Ahora, usando el teorema de Bayes:
Esto significa que, incluso con un resultado positivo en una prueba altamente sensible, la probabilidad de que la persona realmente tenga la enfermedad es solo del aproximadamente 9.02%, debido a la baja prevalencia de la enfermedad.
# Definición de parámetros
P_H = 0.001 # Probabilidad previa de tener la enfermedad
P_E_given_H = 0.99 # Probabilidad de dar positivo si se tiene la enfermedad
P_E_given_not_H = 0.01 # Probabilidad de dar positivo si no se tiene la enfermedad
P_not_H = 1 - P_H # Probabilidad de no tener la enfermedad
# Cálculo de P(E), la probabilidad de dar positivo
P_E = P_E_given_H * P_H + P_E_given_not_H * P_not_H
# Cálculo de P(H|E), la probabilidad de tener la enfermedad dado que el resultado es positivo
P_H_given_E = (P_E_given_H * P_H) / P_EEjemplo 2: Filtro de spam en un correo electrónico
Supongamos que estamos desarrollando un filtro de spam para un servicio de correo electrónico y queremos calcular la probabilidad de que un correo electrónico sea spam basándonos en la presencia de cierta palabra clave, por ejemplo, "ganador".
-
Probabilidad previa (
$P(\text{Spam}))$ : Es la probabilidad de que cualquier correo electrónico sea spam antes de considerar la presencia de la palabra "ganador". Supongamos que es del 20% ($0.2$ ). -
Probabilidad de evidencia dada la hipótesis (
$P(\text{"ganador"}|\text{Spam}))$ : Es la probabilidad de encontrar la palabra "ganador" en un correo electrónico dado que es spam. Supongamos que es del 50% ($0.5$ ). -
Probabilidad de evidencia (
$P(\text{"ganador"}))$ : Es la probabilidad de encontrar la palabra "ganador" en cualquier correo electrónico. Para calcularla, necesitamos saber también la probabilidad de encontrar "ganador" en un correo no spam ($P(\text{"ganador"}|\neg\text{Spam}))$ , supongamos que es del 1% ($0.01$ ).
Primero, calculamos
Ahora aplicamos el teorema de Bayes para calcular la probabilidad posterior de que un correo electrónico sea spam dado que contiene la palabra "ganador":
Este resultado indica que, si un correo electrónico contiene la palabra "ganador", la probabilidad de que sea spam aumenta significativamente a aproximadamente 92.6%.
# Definición de parámetros
P_Spam = 0.2 # Probabilidad previa de spam
P_Winner_given_Spam = 0.5 # Probabilidad de "ganador" en spam
P_Winner_given_not_Spam = 0.01 # Probabilidad de "ganador" en no spam
P_not_Spam = 1 - P_Spam # Probabilidad de no spam
# Cálculo de P("ganador")
P_Winner = P_Winner_given_Spam * P_Spam + P_Winner_given_not_Spam * P_not_Spam
# Cálculo de P(Spam|"ganador")
P_Spam_given_Winner = (P_Winner_given_Spam * P_Spam) / P_WinnerEjemplo 3: Determinar la fiabilidad de un testigo
En un caso judicial, un testigo afirma haber visto a un coche azul en la escena del crimen. Queremos calcular la probabilidad de que el coche en la escena del crimen fuera realmente azul basándonos en la fiabilidad del testigo.
-
Probabilidad previa (
$P(\text{Azul}))$ : La probabilidad previa de que un coche en la escena del crimen fuera azul, basada en estadísticas de color de coche, es del 15% ($0.15$ ). -
Probabilidad de evidencia dada la hipótesis (
$P(\text{Testigo ve azul}|\text{Azul}))$ : La probabilidad de que el testigo diga que el coche es azul si realmente lo era, es decir, la fiabilidad del testigo, es del 80% ($0.8$ ). -
Probabilidad de evidencia (
$P(\text{Testigo ve azul}))$ : Es necesario calcular la probabilidad total de que el testigo diga "azul", que incluye la posibilidad de que el testigo esté equivocado al identificar coches de otros colores como azules. Supongamos que la probabilidad de que el testigo diga "azul" cuando no lo es (falsos positivos) es del 10% ($0.1$ ).
Calculamos
Utilizamos el teorema de Bayes para calcular la probabilidad posterior de que el coche fuera azul dado que el testigo lo vio azul:
Este resultado indica que, dado el testimonio del testigo, la probabilidad de que el coche en la escena del crimen fuera azul es de aproximadamente 58.5%, lo que refleja una mejora significativa en la confianza respecto a la probabilidad previa del 15% basada únicamente en la fiabilidad del testigo y las estadísticas generales de color de coche.
# Definición de parámetros
P_Blue = 0.15 # Probabilidad previa de que un coche sea azul
P_Witness_sees_Blue_given_Blue = 0.8 # Fiabilidad del testigo
P_Witness_sees_Blue_given_not_Blue = 0.1 # Probabilidad de que el testigo diga "azul" incorrectamente
P_not_Blue = 1 - P_Blue # Probabilidad de que el coche no sea azul
# Cálculo de P(Testigo ve azul)
P_Witness_sees_Blue = P_Witness_sees_Blue_given_Blue * P_Blue + P_Witness_sees_Blue_given_not_Blue * P_not_Blue
# Cálculo de P(Azul|Testigo ve azul)
P_Blue_given_Witness_sees_Blue = (P_Witness_sees_Blue_given_Blue * P_Blue) / P_Witness_sees_BlueLos resultados de estos cálculos son:
- Ejemplo 1: La probabilidad de tener la enfermedad dado que el resultado es positivo es aproximadamente 9.02%.
- Ejemplo 3: La probabilidad de que un correo electrónico sea spam dado que contiene la palabra "ganador" es aproximadamente 92.59%.
- Ejemplo 4: La probabilidad de que el coche en la escena del crimen fuera azul, dado que el testigo lo vio azul, es aproximadamente 58.54%.
Estos ejemplos demuestran cómo el teorema de Bayes permite integrar evidencia específica dentro de un marco probabilístico para actualizar nuestras creencias o conocimientos previos de manera cuantitativa.