12
Tecnología y Ciencias del Agua
, vol. VIII, núm. 4, julio-agosto de 2017, pp. 5-18
Buendía-Espinoza
et al
.,
Identificación de cambios en la ciclogénesis del Atlántico Norte mediante un modelo de mezclas Gaussianas
•
ISSN 2007-2422
3. Se repiten los pasos 1 y 2 hasta que se tenga
la cantidad deseada de muestras de la
mezcla de la distribución.
4. Se definen las variables aleatorias
X
i
∼
N
2
(
m
,
∑),
i
= 1,
...
,
n
obtenidas en el paso anterior
como muestra aleatoria.
5. Se obtiene una muestra bootstrap
X
*
= {
x
1
*
,
...,
x
n
*
} muestreando aleatoriamente con
reemplazo
n
veces los datos originales
x
1
,
...,
x
n
; el tamaño de la muestra aleatoria es el
mismo que el de la muestra de remuestreo,
y las
X
i
*
tienen probabilidad
n
-1
, siendo igual
en cada una de las
X
i
.
6. Se calcula el estadístico ˆ
d
B
(
f
,
g
) (distancia
de Bhattacharyya) de este remuestreo,
produciendo ˆ
d
B
*
(
f
,
g
).
7. Se repite el paso 4
B
veces. La ley de los
números grandes indica que si
B
es lo
suficientemente grande, se obtendrá una
buena aproximación a la densidad verda-
dera
d
B
(
f
,
g
). En este trabajo se fijó
B
= 1 000.
8. Se construye la distribución de probabilidad
de las
B
ˆ
d
B
*
(
f
,
g
), asignando probabilidad
B
-1
a cada ˆ
d
B
i
*
(
f
,
g
). Esta es la estimación de la
distribución ˆ
d
B
(
f
,
g
), ˆ
F
*
ˆ
d
B
*
(
f
,
g
)
(
)
.
Prueba de hipótesis a partir del remuestreo
La técnica de remuestreo permite realizar la
prueba de hipótesis de similitud de las fdp de
los grupos de los modelos de mezclas Gaussia-
nas entre los diferentes intervalos, es decir,
H
0
:
d
B
(
f
,
g
) = 0. La regla de decisión es rechazar
H
0
si
d
B
(
f
,
g
) es grande. El procedimiento consiste en:
1. De los datos originales de la muestra se
obtienen los estimadores (
π
,
θ
) de los
componentes del modelo de mezclas normal
bivariado mediante el algoritmo EM.
2. Mediante el procedimiento de remuestreo
descrito anteriormente se obtiene
d
B
(
f
,
g
)
bajo
H
0
(es decir, ˆ
d
B
(
f
,
g
)
H
0
), realizando 1 000
muestras de remuestreo de la distribución
normal bivariada bajo
H
0
:
d
B
(
f
,
g
) = 0.
3. Cada remuestreo deberá ser del mismo
tamaño que el de la muestra inicial.
4. Se calcula el estadístico ˆ
d
B
(
f
,
g
) para
cada muestra de remuestreo, y con ellos
se construye la función de distribución
empírica de ˆ
d
B
(
f
,
g
).
5. La prueba de hipótesis de la distancia de las
fdp de los grupos es
H
0
: ˆ
d
B
(
f
,
g
), con
a
= 0.05;
esto equivale a obtener el percentil 95, y
rechazar
H
0
si ˆ
d
B
(
f
,
g
) es mayor que éste.
Resultados
Estimación de la función de densidad de
probabilidad
De acuerdo con la figura 3, el número de gru-
pos por intervalo (1951-1975
versus
1976-2013 y
1951-1989
versus
1990-2013) es dos (es decir,
K
=
2 componentes). Su ancho promedio de silueta
fue 0.585 para ambos intervalos (ver figura
4), lo cual significa que tienen una estructura
razonable (ver cuadro 1).
Los valores de los parámetros iniciales para
cada uno de los componentes de las mezclas
(
K
= 2) se determinaron mediante el algoritmo
implementado por Fraley
et al
. (2012). El vector
de parámetros
f
se estimó iterativamente me-
diante el algoritmo EM. La función de densidad
estimada para cada uno de los modelos de
mezclas Gaussianas se ajusta a la distribución
espacial de los puntos de ubicación de ocurren-
cia de los ciclones tropicales en ambos intervalos
(figura 5). Los puntos que están muy alejados
de los centroides exhiben un comportamiento
atípico desde el punto de vista estadístico, pero
dado que se sabe que son datos reales, se de-
cidió mantenerlos como muestras legítimas al
momento de realizar los análisis. Otra opción
para manejo de este tipo de datos es el uso de
mezclas con colas pesadas, como por ejemplo la
distribución
t
-bivariada.
Además, en la figura 6 se muestra la ubica-
ción de los centroides de cada uno de los grupos
para ambos periodos de estudio, así como su
función de densidad estimada por periodo. Los
puntos negros corresponden a los datos. Los dos
grupos en los dos periodos de estudio aparente-
mente indican que tienen la misma orientación.