Entre el siglo XVII y el XX se realizaron muchos avances en la teoría de la probabilidad, pero no fue sino hasta 1930 cuando el trabajo del famoso matemático ruso Andrei Nikolaievich Kolmogórov la fundó sobre bases sólidas, aprovechando un desarrollo del análisis matemático llamado teoría de la medida. La idea intuitiva de este concepto es muy simple. Pensemos en la masa contenida en cada región del espacio. Hay regiones grandes que pueden contener poca masa, y otras pequeñas que pueden contener mucha, como un trozo de plomo. La función matemática que asocia cada región del espacio con la masa que contiene es un ejemplo de una medida. Una medida tiene la propiedad de ser aditiva en conjuntos ajenos, es decir, si A y B son dos regiones ajenas del espacio, la masa contenida en A y B es la masa contenida en A más la masa contenida en B. En símbolos, lo anterior se escribe así:
m(A ∪ B) = m(A) + m(B) si A ∩ B = Ø
donde A ∪ B se lee "A unión B " y representa el conjunto de todos los puntos del espacio que están en A o B , mientras que A ∩ B se lee "A intersección B " y representa los puntos que están tanto en A como en B . El símbolo Ø es el conjunto vacío, pues no tiene ningún elemento, por lo que la igualdad A ∩ B = Ø significa que no hay ningún punto que esté simultáneamente en A y B, o bien, que el conjunto de puntos en A y B es vacío.
La notación de conjuntos presentada brevemente en el párrafo anterior, junto con el concepto de medida, constituyen la herramienta idónea para trabajar la teoría de la probabilidad.
Un espacio de probabilidad o espacio muestral se define como un conjunto Ω —la letra griega conocida como "omega"— que se interpreta como el de todos los posibles resultados de un experimento; una familia Σ —"sigma" — de subconjuntos de Ω, que se interpreta como los eventos del experimento cuyas probabilidades se conocen o pueden ser calculadas; y una medida p es una función que asigna, a cada evento E de Σ, un número entre 0 y 1. p(E) se interpreta como la probabilidad del evento E, y debe asignar el valor de 0 al conjunto vacío y 1 al total, es decir, p(Ø) = 0 y p(Ω) = 1.
Por ejemplo, en el caso más simple del lanzamiento de una ficha, Ω consta de dos elementos: cara y cruz. Σ son todos los subconjuntos de Ω: el total Ω, el vacío Ø, el que contiene sólo a cara y el que contiene sólo a cruz. La medida de probabilidad p asigna a estos eventos los valores de 1, 0, respectivamente.
Para el caso de conjuntos finitos, se especifica un conjunto como la lista de todos sus elementos encerrada entre llaves. Por ejemplo, el evento que ofrece cara como el resultado del experimento, se denota por {cara}, mientras que el evento imposible se denota por el conjunto vacío Ø, que puede escribirse también como {}. Al aprovechar estas convenciones, la descripción completa del modelo matemático del experimento aleatorio cuando se lanza una ficha, puede presentarse por la terna (Ω, Σ, p), cuyos elementos quedan totalmente especificados a continuación:
El caso del lanzamiento de un dado queda descrito por la terna (Ω, Σ, p), donde Ω = {1, 2, 3, 4, 5, 6} y los eventos son todos los subconjuntos de Ω, es decir, Σ consta de cada uno de estos subconjuntos de Ω —que son muchos—, como: {}, {3}, {4, 5, 6}, {2, 3}, {1, 2, 3, 4, 6}, etc. La probabilidad p asigna a cada evento el número de sus elementos entre seis. Por ejemplo:
Este modelo es aplicable a situaciones donde los posibles resultados de un experimento no son equiprobables, aunque en estos casos, para estimar los valores de las probabilidades habría que recurrir a métodos estadísticos o a suposiciones cuantitativas que podrían no estar bien justificadas.
Veamos el caso de un dado cargado: puede tener la característica de que los números 2, 3, 4 y 5 y aparezcan con probabilidad pero, en cambio, el 6 aparece con probabilidad
y el 1 con probabilidad de
. Como:
entonces definimos p de manera que p(E) se calcula sumando tantos como números entre 2 y 5 contenga, más
si contiene al 1 y
si contiene al 6 . Por ejemplo:
Puede comprobarse que ésta es una buena definición y que podría modelar el experimento aleatorio de lanzar un dado cargado, siempre y cuando las probabilidades de salir del 1 y el 6 fueran, respectivamente, .
Este modelo de espacio probabilístico puede aplicarse a una gran cantidad de situaciones prácticas mucho más complejas que las descritas en los párrafos anteriores, incluyendo casos en los que el espacio muestral Ω de posibles resultados sea infinito.