CAPÍTULO 7. AJUSTE CON MODELOS ESTADÍSTICOS
183
terminología de las distribuciones de probabilidades que manejan este tipo de
resultados, se traduce como
éxito
(1) o
fracaso
(0) de la prueba. Aquí pues, lo in-
teresante es modelar la
probabilidad
de éxito o fracaso en función de un conjunto
de variables predictoras, que para el ejemplo se podría reducir a la única va-
riable
horas-invertidas-en-el-curso
, representada por la columna
Horas-curso
en la
tabla del cuadro 7.1. La probabilidad, sin embargo, tiene un valor que fluctúa
entre 0 y 1, mientras que los modelos estadísticos lineales, revisados en la pri-
mera sección de este capítulo, están diseñados de tal manera que las variables
de respuesta pueden tomar valores en todo el rango de los números reales. Es
aquí, justamente donde la utilidad de la definición de una función de liga, in-
troducida en la fórmula de la ecuación 7.9, se manifiesta, ya que ella establecerá
una transformación entre un espacio y el otro.
Para abordar este tema, se recurre primeramente a la noción de la esperanza
matemática condicional. En general, la esperanza matemática de una variable
aleatoria se traduce en la media de la variable; esto es,
E
(
Y
) =
µ
. Por otra parte,
la esperanza condicional, denotada como
E
(
Y
|
X
)
, es la esperanza de
Y
dado
que ocurrió
X
, donde, para los modelos lineales vistos anteriormente,
X
podría
representar el conjunto de las variables predictoras, en cuyo caso se tendría que
E
(
Y
|
X
) =
β
0
+
β
1
x
1
+
. . .
+
β
n
x
n
.
Ahora bien, si
Y
es una variable aleatoria binaria que solamente toma los
valores 1 o 0, la expresión para la esperanza matemática condicional estaría
dada por:
E
(
Y
|
X
) =
Pr
(
Y
=
1
|
X
)
(7.10)
Así, la meta es modelar la probabilidad de éxito (
Y
=1), dado
X
, el conjunto
de variables predictoras. En el caso particular del ejemplo propuesto, sólo hay
una variable predictora, a saber, las
Horas-curso
; esto es, la variable
x
, denotará
el número de horas invertidas en el curso. De la tabla provista en el cuadro 7.1,
se puede observar que la proporción de éxito (número de estudiantes aproba-
dos), en general, tiende a aumentar a medida que se incrementa el número de
horas en invertidas en el curso.
Para analizar el problema, consideremos cualquier renglón de la tabla de
datos, digamos el tercero. Aquí, al asistir a 28.1 horas de curso, de 21 estudian-
tes que conformaban el grupo, 6 resultaron aprobados. La modelación de este
tipo de resultados, se hace mediante la distribución de probabilidades
binomial
.
En este tipo de distribución, un experimento consiste de
n
pruebas o ensayos
independientes, cada uno de los cuales tiene dos resultados posibles:
éxito
(1) o
fracaso
(0), y la probabilidad de éxito,
p
, en cada prueba permanece constante.
Para el renglón que estamos considerando,
n
=
21, y la
frecuencia
de éxitos se
puede tomar como la probabilidad, así,
p
=
6/21
=
0.286. En estas condiciones
la función de probabilidad binomial, en general y en particular para este caso,
está dada por: