La distribución normal presentada en el ejemplo anterior aparece con mucha frecuencia en la teoría de la probabilidad y ello se debe a que es la forma natural de muchas distribuciones de probabilidad, precisamente lo que afirma uno de los grandes teoremas de la teoría, el teorema del límite central.
Para explicar este teorema, debemos definir lo que se entiende por una variable aleatoria. Toda función definida en el espacio muestral que satisfaga ciertas condiciones mínimas —que aquí no tiene sentido especificar— es una variable aleatoria. Por ejemplo, en el experimento de lanzar una ficha al aire, la función que vale 1 cuando el resultado es cara, y 0 cuando es cruz, es una variable aleatoria. En el experimento de lanzar un dado, la función que da el número que aparece en la cara superior del dado, es una variable aleatoria. En el experimento de lanzar canicas hacia un punto de una pared, la función que asigna a cada resultado del experimento la posición x de la canica al chocar con la pared es también una variable aleatoria.
En general, una variable aleatoria es una interpretación numérica —muchas veces parcial e incompleta— del resultado de un experimento, es decir, es una manera numérica pero indirecta de observar los resultados. A las variables aleatorias se les podría llamar observables, como de hecho se hace en el ámbito de la mecánica cuántica, pues son formas de "observar" los resultados de un experimento aleatorio.
El enunciado preciso del teorema del límite central es complicado, pero el caso que nos interesa aquí es el que se refiere a la distribución de probabilidad de una variable aleatoria, aplicada a diferentes realizaciones de un mismo experimento. En el ejemplo del lanzamiento de un dado, si usamos la variable aleatoria X —valor del número que aparece en la cara superior del dado—, al repetir muchas veces el experimento vamos a encontrar que toma el valor de:
Para visualizar este resultado, observemos las gráficas de la figura 2.83 en las que se han marcado con segmentos rojos las frecuencias de los valores obtenidos de los "promedios" de las primeras 5, 20 y 80 observaciones, respectivamente.
Vemos que el parecido de estos histogramas con la distribución normal es muy grande. Las observaciones aleatorias tienden a comportarse, en promedio, como una distribución normal. Debido a lo anterior, la distribución normal tiene muchas aplicaciones en la estadística.
Muchas veces se elabora la hipótesis de que una variable aleatoria cualquiera tiene una distribución normal y ésta se determina, sin muchos miramientos, a partir de una muestra de tamaño N que ha dado observaciones x1, x2, . . . , xN, tomando como media μ al promedio de los valores xi y como varianza σ2, al promedio de las cantidades (xi − μ)2 , es decir, se supone que la distribución de la variable aleatoria es:
En realidad μ y σ2, calculadas de esta manera, son la media y la varianza de la muestra x1, x2, . . . , xN y no de la distribución real. Identificar estos promedios con la media y la varianza de la distribución real es un abuso que, aunque ocasionalmente pueda ser útil, es causa de no pocos errores de interpretación.
Para obtener estimaciones adecuadas de las distribuciones de probabilidad de una variable aleatoria a partir de un conjunto de datos, hay que recurrir a los métodos especializados de la estadística.