Enciclopedia de Conocimientos Fundamentales
UNAM ˜ SIGLO XXI


regreso








2.14.9 La estadística

La estadística es el "arte" de obtener información a partir de datos conocidos. Permite medir y cuantificar la confianza de las conclusiones sobre un cierto problema, así como el tamaño del error que se comete. Si bien se puede definir en pocas palabras, en realidad consiste de un cúmulo enorme de conocimientos y recomendaciones encaminados a la necesidad de tomar decisiones con base en información incompleta —cosa que ocurre en casi todas las situaciones de la vida real—, de manera que se pueda hacer con plena conciencia de lo que la información disponible dice y, también, de lo que no dice.

La estadística se divide en dos grandes ramas, la estadística descriptiva y la estadística inferencial.

La estadística descriptiva consta de todos los métodos recomendados para presentar la información —en general, de forma gráfica— fácilmente comprensible y evitar posibles interpretaciones erróneas. Todos conocemos los diferentes tipos de tablas y gráficas que se muestran en la prensa y en todos los demás sitios donde se presenta información al público —algunos ejemplos en las figuras 2.84 a 2.86.

Histógrama 2
Figura 2.84 Histograma.

 

Peso de los bebés
Figura 2.85 Gráfica con la evolución del peso de los bebés.

 

Tres dimensiones
Figura 2.86 Gráfica en tres dimensiones.

 

Quienes publican gráficas estadísticas no siempre tienen el cuidado de seguir las recomendaciones de los expertos al elaborarlas y eso puede causar pérdidas de calidad en la información que se intenta transmitir. Estos problemas no son de carácter matemático, más bien caen en el ámbito de cómo se transmite la información. En particular, la estadística descriptiva hace muy poco uso —a veces ninguno— de la probabilidad o las matemáticas, a excepción de cálculos más o menos elementales.

En cambio, la estadística inferencial sí tiene un carácter matemático y depende en forma muy importante de modelos probabilísticos. Los métodos de la estadística inferencial son muchos y muy variados, así que aquí no vamos siquiera a intentar describirlos. Únicamente daremos un ejemplo, en el área de la medicina, para exhibir las ideas básicas que se aplican a la obtención de datos y el análisis estadístico de un conjunto de datos, además del tipo de conceptos matemáticos que para ello se emplean. Cabe mencionar que el desarrollo de los diferentes métodos de inferencia estadística ha dado lugar a profundas investigaciones matemáticas y existe, incluso, una rama de investigación —llamada estadística matemática— que se ocupa de este tipo de cuestiones.

Un planteamiento que se hacen frecuentemente los médicos es cómo saber si un nuevo  medicamento es mejor que otro —utilizado por algún tiempo y con resultados conocidos—.Para ello, hay que hacer pruebas, de hecho, hay que "diseñar un experimento". El diseño de experimentos es una parte esencial, pues la forma en que tomamos los datos determina el o los modelos estadísticos que se pueden utilizar para su posterior análisis. Al diseñar un experimento es necesario cumplir algunas reglas y tomar varias decisiones importantes que determinarán, a fin de cuentas, la validez y confiabilidad de las conclusiones a las que se arribe. Cuando se diseñan experimentos con seres humanos —y más cuando se trata de su salud— es imprescindible que los individuos involucrados acepten participar después de entender perfectamente en qué consiste el experimento y los riesgos que, como sujetos de estudio, corren.

Después, es necesario definir el alcance del experimento, lo que se llama la muestra. ¿Utilizaremos sólo sujetos enfermos de aquello que el medicamento en cuestión pretende curar? Supongamos que sí —primera decisión—. ¿Cómo se realizará el experimento? Si damos el medicamento a todos los sujetos de la muestra, ¿qué vamos a medir para saber si el nuevo medicamento funciona mejor que el anterior? Digamos que mediremos la temperatura en cada individuo, antes de suministrar el medicamento y un tiempo después de haberlo suministrado, cualquiera que sea el medicamento suministrado. Con esta información podemos calcular el cambio de temperatura en cada individuo.

Aquí surge otro problema: el lograr que la muestra no sea sesgada al obtener, por ejemplo, una muestra de pacientes particularmente fuertes y que responden mejor a cualquier medicina que la media de los pacientes, o bien, una muestra de pacientes enfermos de varios días y que tienden a curarse más rápidamente que los que acaban de contraer la enfermedad, o al revés. Hay métodos recomendados para resolver este problema, los cuales, normalmente, requieren que la elección de los sujetos se haga aleatoriamente —no aceptando, por ejemplo, sólo a los que se autopropongan para el experimento que, quizá, son gente con más ánimo y más fuertes que la media o personas que ya llevan varios días enfermas y están dispuestas a probar cualquier cosa.

Además, ¿cuántas personas involucramos en el experimento? Cuanto más grande sea la muestra, más confiables serán los resultados, pero también será más caro el experimento y se tendrá que someter a un mayor número de personas a un tratamiento del cual aún se ignoran las posibles consecuencias negativas. Por lo anterior, el tamaño de la muestra es de los primeros problemas a resolver. Existen métodos estadísticos específicos para poder estimar el tamaño de muestra mínimo que puede darnos resultados suficientemente confiables de acuerdo con criterios más o menos universalmente aceptados. En particular, éste es uno de los aportes importantes de la estadística a la investigación, pues nos permite obtener inferencias válidas y con cierto nivel de confianza y precisión al disminuir el costo de la investigación.

En un experimento de este tipo se consideran muchos otros detalles, pero vayamos a otra cosa. Supongamos que ya tenemos una muestra no sesgada de N enfermos que han aceptado responsablemente participar en el experimento y que lo llevaremos a cabo al administrar el medicamento a los enfermos, en periodos de tiempo preestablecidos, y al registrar su temperatura un número preestablecido de horas después.

Se pueden identificar tres aspectos fundamentales del diseño experimental: repetición, aleatorización y control. La teoría y los métodos estadísticos nos dicen cómo resolver estos principios en el momento de diseñar un experimento.

El número de repeticiones está determinado por la confiabilidad y precisión que deseamos del experimento, la forma de aleatorizar está definida por las características de nuestros individuos —para obtener una comparación justa entre ambos medicamentos— y, finalmente, los conocimientos biológicos junto con los del diseño experimental nos dicen cuáles factores tenemos que controlar y cómo hacerlo.

Ahora pasemos al análisis de los resultados y a realizar la inferencia deseada: ¿es mejor el nuevo medicamento? Recordemos que debemos llegar a una conclusión a partir de los datos del experimento. Supongamos que, con los resultados experimentales obtenidos, se genera la siguiente gráfica mostrada en la figura 2.87.

¿Podemos saber cuál de los dos medicamentos es mejor a partir de la gráfica? A simple vista, parecería que el nuevo no logró disminuir tanto la temperatura de los enfermos como

Temperaturas
Figura 2.87 Gráfica de temperaturas con el medicamento anterior y el nuevo.

 

el anterior; pero, si miramos atentamente, veremos que hay una acumulación de varios resultados del nuevo medicamento —alrededor de los 37.25 grados— que parece estar cerca de la media de temperatura para el primer medicamento. Por consiguiente, no resulta obvio cuál de los dos medicamentos es mejor. Para obtener una respuesta clara debemos recurrir a una metodología específica que se denomina prueba de hipótesis.

Para hacer dicha prueba se plantea una hipótesis, que llamaremos hipótesis nula y la denotaremos como H0; la prueba consiste en determinar una regla de decisión que nos llevará a "rechazar" o a "no rechazar" dicha hipótesis. Obsérvese que una hipótesis no se acepta, sólo se puede "rechazar" o "no rechazar". La situación que describe esta regla de decisión se muestra en el siguiente cuadro:

Tabla 4

Las probabilidades α y β indicadas en la tabla tienen significados precisos e importantes. 1 − α es el grado de confianza que nos da la prueba, mientras que 1 − β se llama la potencia de la prueba. Para poder explicar esos conceptos en el caso del experimento de los medicamentos y comprender cómo α y β están relacionados con los datos, vamos a introducir la llamada distribución t de Student.

William S. Gosset fue un estadístico que publicó sus trabajos bajo el seudónimo de Student, debido a que la destilería Guinness —en donde trabajaba— había prohibido a sus empleados publicar artículos con cualquier tipo de contenido, debido al secreto industrial. Esta anécdota explica por qué una de las herramientas más utilizadas en la estadística se llama la distribución t de Student y no de Gosset —como sería de esperar, ya que Gosset fue su creador. La distribución de Student aparece en esta situación: supongamos que tenemos una población que tiene una distribución normal con media μ y varianza σ2 ; ahora consideremos una muestra de dicha población, de tamaño n , con media m y varianza s. Entonces la distribución de la variable aleatoria que se muestra a continuación:

Ecuación 111

es la llamada distribución t de Student con n − 1 grados de libertad. Para valores grandes de n , la t de Student se parece mucho a la distribución normal, pero es precisamente en situaciones donde la muestra no es muy grande cuando esta distribución resulta muy útil, como en el ejemplo de los medicamentos.

t de Student
Figura 2.88 La t de Student tiene las colas más pesadas que la normal y mientras más grados de libertad tiene, más se aproxima a la normal.

 

En este caso, es necesario usar la distribución t con nN + nV 2 grados de libertad, donde nN y nV son los tamaños de las muestras para el medicamento nuevo y para el anterior, respectivamente, pues no se conocen las varianzas poblacionales y hay necesidad de estimarlas —no olvidemos que, si éstas fueran conocidas, se usaría la distribución normal—. Los grados de libertad de la t corresponden al número de observaciones independientes usadas para estimar la varianza poblacional. El procedimiento a seguir para completar la prueba de hipótesis, consiste en calcular la estadística de prueba:

Ecuación 112

al utilizar las dos muestras de individuos —los que tomaron el medicamento anterior y los que tomaron el nuevo. Si la hipótesis nula H0 es cierta, esta estadística de prueba tendrá una distribución tnN+nV−2, donde intuitivamente esperaríamos que el valor de t* fuera cercano a cero —ya que esta distribución estaría centrada en el cero y los valores con mayor densidad de probabilidad son cercanos a él—. Si la hipótesis H0 fuera falsa, la estadística t* tendría una distribución que estaría a la derecha de la que se describió anteriormente y sería simétrica alrededor de un número mayor que cero. Mientras mayor sea la diferencia entre la efectividad de los medicamentos, esta gráfica estará más alejada del cero, a se iría haciendo más pequeña y 1 − α más grande.

En la figura 2.89 se muestran las gráficas de dichas distribuciones t. En el eje x se mide la diferencia de temperaturas entre ambos medicamentos, mientras la línea vertical representa el valor obtenido para la estadística de prueba t*.

Distribuciones en t
Figura 2.89 A la izquierda la distribución t cuando H0 es cierta y a la derecha la correspondiente a una posible distribución t cuando H0 es falsa.

 

En otros experimentos puede convenir usar otras distribuciones —la normal, la χ2 , etc.— para las pruebas de hipótesis, o bien, para otros procedimientos estadísticos. Lo que es invariable es el hecho de que los resultados estadísticos siempre llevan alguna probabilidad de error. La estadística puede hacer recomendaciones pero, siempre, con cierto grado de confianza, nunca con certeza absoluta, aunque es una poderosa herramienta en la toma de decisiones en muchos campos de la actividad humana, como la industria, el comercio, la política y la ciencia. Por ello, su aplicación no debe tomarse a la ligera y conviene recurrir a los especialistas cuando las decisiones que de ella dependen son muy importantes.


Inicio de página