¿CUÁNDO APLICAR PRUEBA T Y PRUEBA DE WILCONXON? 


PRUEBA ESTADÍSTICA Y SUS ELEMENTOS

En una prueba estadística todo se inicia con una suposición que hacemos de un valor hipotético de la población, cosa que se puede determinar, por ejemplo, en forma intuitiva o producto de la experiencia que tenemos sobre un parámetro de algún evento, que en particular creemos que tiene una determinada población.
Uno de los objetivos de una prueba estadística es el de probar una hipótesis relacionada con los valores de uno o más parámetros poblacionales. Una vez planteado el problema, formulamos una hipótesis de investigación respecto a los parámetros que queremos sustentar y después de seleccionar la hipótesis, se recogen los datos empíricos que dan información directa acerca de la aceptabilidad de ésta, la cual es llamada hipótesis nula y se denota mediante H0 . Este término, hipótesis nula, surgió de las primeras aplicaciones agrícolas y médicas de la estadística, teniendo como fin el probar la efectividad de un nuevo fertilizante o una nueva medicina, la hipótesis que se probaba era que no tuvo efecto, es decir, no hubo diferencia entre las muestras tratadas y no tratadas.
Cuando nos referimos a un parámetro cualquiera de la población, por ejemplo θ, el símbolo θ 0 se usará en los planteamientos de este tipo de problemas para representar el valor hipotético del parámetro poblacional que corresponde a la hipótesis nula.
La decisión acerca del significado de los datos, una vez procesado, puede conducir a la confirmación, revisión o rechazo de la hipótesis y, con ella, la teoría que la originó.
La hipótesis alternativa, que se denota por H1 , es la hipótesis que se acepta si se rechaza H0 y que queremos comprobar con base en la información de la muestra.
Por definición una hipótesis estadística es una afirmación o conjetura de la distribución de una o más variables aleatorias.

Prueba t de Student
La prueba t de Student es una prueba paramétrica de comparación de dos muestras, es decir necesita cumplir las siguientes características:
  • Selección completamente aleatoria de los grupos.
  • Homocedasticidad (homogeneidad de las varianzas de la variable dependiente en ambos grupos)
  • Distribución normal de la variable dependiente en los dos grupos.
  • Nivel intervalar de la variable dependiente
Su función es comparar dos grupos de puntuaciones (medias aritméticas) y determinar que la diferencia no se deba al azar (que la diferencia sea estadísticamente significativa).
Esta prueba tiene modalidades, una para muestras independientes y otra para grupos relacionados.


Prueba de Wilcoxon
La prueba de rangos asignados de Wilcoxon pertenece a las pruebas no paramétricas de comparación de dos muestras relacionadas, es decir:
  • · Es libre de curva, no necesita una distribución específica
  • · Nivel ordinal de la variable dependiente
Se utiliza para comparar dos grupos relacionados de rangos (medianas) y determinar que la diferencia no se deba al azar (que la diferencia sea estadísticamente significativa).

EJEMPLO
Con los datos de la encuesta Encinf.sav probar si hay discrepancia entre la valoración que hacen los alumnos sobre la dotación de las aulas de informática (Dotación) y la valoración que hacen del software disponible (Software).
Se trata de contrastar la hipótesis nula de que la valoración de la dotación de las aulas es igual a la valoración del software instalado. Dado que las valoraciones de ambas características son asignadas por los mismos individuos, las muestras resultantes no son independientes. Por otra parte, las variables se miden en una escala ordinal, y por tanto el contraste más adecuado es la prueba de Wilcoxon.
Para realizar este contraste la secuencia es:
Estadística > Pruebas no paramétricas > 2 muestras relacionadas.
En el cuadro de diálogo se selecciona en Contrastar pares las variables Dotación y Software; por defecto está activada la prueba de Wilcoxon. Al aceptar se obtienen los siguientes resultados:



Como puede verse en el cuadro Rangos, el número de elementos para los cuales el valor de la variable Software es mayor que el de la variable dotación es considerablemente mayor que el de los elementos para los que está mejor valorada la dotación que el software. En el cuadro Estadísticos de contraste, el valor tipificado del estadístico de prueba (la menor de las dos sumas de rangos) es igual a -5,280; por tanto, se rechaza la hipótesis nula de que la valoración de la dotación es igual que la del software para cualquier nivel de significación.



PRUEBA DE WILCOXON
La prueba de Wilcoxon para intervalos con signo, hace un mejor aprovechamiento de la información contenida en las observaciones, ya que toma en cuenta, además de los signos, las magnitudes de las diferencias por medio de los rangos a que son asignados.
Sean ( 1 Z ,…, n Z ) una muestra aleatoria de la variable aleatoria continua Z y ( (1) Z ,…, (n) Z ) la muestra ordenada asociada. Se llama rango i R de la variable aleatoria i Z al número de variables aleatorias i Z menores o iguales a i Z , 1 i n . Luego el rango se determinará mediante la fórmula i R (1 ( ))
1injj X X =Σ= ψ , donde ψ es como se definió en la sección II.1.1, teniéndose en particular que (1) Z (2) (3) ( ) .... n < Z < Z < < Z y i R es tal que i (Ri ) Z = Z , siendo sus valores extremos (1) Z = min( 1 Z ,…, n Z ) y
(n) Z = máx( 1 Z ,…, n Z ).
En esta prueba se ordenan por rango los valores absolutos de las diferencias en relación con sus signos: asignamos el rango 1 a la menor de las diferencias en valor absoluto, el rango 2 a la segunda diferencia más pequeña en valor absoluto, y así sucesivamente. Cuando varias de las diferencias sean las mismas, si fuera el caso de las que corresponderían a 3, 4 y 5, cada una tomaría como rango el valor promedio de las tres, en este caso, 4, seria el rango asignado a cada una de las diferencias iguales, y a la siguiente diferencia en valor absoluto más grande se le asignaría el rango 5.
Calcularíamos ahora la suma de los rangos para las diferencias negativas T y las sumas de los rangos para las diferencias positivas T + .En el caso de una prueba de dos colas utilizamos T, la más pequeña de estas dos cantidades, como estadístico de prueba para probar la hipótesis nula que afirma que las dos poblaciones son idénticas. Cuanto más pequeño sea el valor de T, mayor el peso de la evidencia que favorece el rechazo de la hipótesis nula. Por consiguiente, rechazaremos la hipótesis nula si T es menor o igual a algún valor Tα .
La hipótesis nula permite que para cada rango, las probabilidades de que se le asigne una diferencia positiva o una negativa son ambas ½. Podemos escribir el estadístico como
T + = 1. 1 X + 2. 2 X + . . . . . . + n nX , donde 1 X , 2 X ,. . . .y n X son variables aleatorias independientes que tienen la distribución de Bernoulli con p = ½. Como el valor esperado y varianza de las i X son E( i X ) = 0.1/2 +1.1/2 = 1/2 y Var( i X ) = 1/2 .(1 – 1/2 ) = 1/4 para i = 1, 2, 3, ……,n , y tomando en cuenta las siguientes propiedades
E ( n n a X + a X + ....... + a X 1 1 2 2 ) = ( ) 1 1 a E X + . . . + ( ) n n a E X y
Var( n n a X + a X + ....... + a X 1 1 2 2 ) = ( ) + 1
2
1 a Var X . . . + 2
n a Var ( ) n X , se deduce que
E (T + ) = 1.1/2 + 2.1/2 + . . . + n.1/2 =
2
1+ 2 + ... + n y aplicando el método de inducción completa, se tiene que E( T + ) =
4
n(n +1) , que
Var(T + ) = 1 2 .1/4 + 2 2 .1/4 +. . .+n 2 .1/4 =
4
1+ 2 + ... + n y aplicando de nuevo el método anterior, se llega a que
Var(T + ) =
24
n(n +1)(2n +1)
La probabilidad de que T sea menor o igual a algún valor Tα está calculado para una combinación de tamaños muestrales y valores de Tα . Estas probabilidades, se pueden utilizar para determinar la región de rechazo de la prueba que se basa en T.
Cualquiera sea la hipótesis alternativa, podemos basar todas las pruebas de la hipótesis nula 0 μ = μ en la distribución de T, debiendo sólo tener cuidado de utilizar la estadística correcta y el valor crítico correcto de T, como se muestra en la tabla II.2.1
Hipótesis alternativa
Rechace la hipótesis nula si:
0 μ μ T Tα
μ > 0 μ T T 2α
0 μ < μ T + T 2α
Donde, como se indica, el nivel de significancia es α en cada prueba. Los valores críticos de T, que son tales que Tα es el valor más grande para el cual P(T Tα ) no es mayor que α , se dan en la tabla 3 del apéndice B. Obsérvese que los mismos valores críticos sirven para pruebas en diferentes niveles de significancia, dependiendo de que la hipótesis alternativa sea unilateral o bilateral.

PRUEBA DE RANGOS CON SIGNOS DE WILCOXON PARA UN
EXPERIMENTO DE PARES COMPARADOS
En este caso, al igual que la prueba del signo de pares comparados, contamos también con n observaciones pareadas ( i X , i Y ) y i D = i X - i Y . Nos interesa probar la hipótesis de que los valores de X e Y tienen la misma distribución frente a la hipótesis alternativa que sostiene que la localización de las distribuciones es diferente.
En la hipótesis nula no hay diferencia en las distribuciones de los valores de X eY , esperaríamos que la mitad de las diferencias de los pares fuera negativa y la otra mitad positiva, o sea, que el número esperado de las diferencias negativas fuera de valor n/2. Para realizar la prueba de Wilconxon calculamos las diferencias ( i D ) de cada uno de los n pares eliminando las diferencias nulas y se asignan los rangos como en la sección anterior.
Para detectar la hipótesis alternativa unilateral que afirma que la distribución de los valores de X están desplazados a la derecha de los valores de Y empleamos la suma de rangos T de las diferencias negativas, y rechazamos la hipótesis nula para los valores T T 2α . Si queremos detectar un desplazamiento de la distribución de los valores de Y a la derecha de los valores de X , empleamos la suma de rangos T + de las diferencias positivas como estadístico de la prueba, y rechazamos los valores T + T 2α .
El resumen de las hipótesis alternativas, para el caso de dos muestras, basada en la prueba de la hipótesis nula X μ = Y μ , es como se muestra en la tabla II
2.2.1 donde hay que tener presente los mismos detalles de la sección anterior y manejar la tabla con los mismos criterios indicados allí. A continuación se resume la prueba que se basa en T, la cual se conoce como prueba de rangos con signo de Wilconxon.
Hipótesis alternativa
Rechace la hipótesis nula si:
X Y μ μ T Tα
X μ > Y μ T T 2α
X Y μ < μ T + T 2α
Prueba de rangos con signo de Wilcoxon para un experimento de pares comparados.
Hipótesis nula H0 : las distribuciones de población para los valores de X e Y son idénticas.
Hipótesis alternativa H1 : las dos distribuciones de población tienen diferentes localizaciones (dos colas); o la distribución de población para los valores de X (Y ) está desplazada a la derecha de la distribución para los valores de Y ( X ) (una cola

PRUEBA DE SUMA DE RANGOS DE WILCOXON. MUESTRAS
ALEATORIAS INDEPENDIENTES
En el año de 1945 Wilcoxon propuso una prueba estadística para comparar dos poblaciones basadas en muestras aleatorias independientes. Suponga que elegimos muestras aleatorias independientes de n1 y n 2 observaciones, cada una de ellas tomadas de dos poblaciones; representemos a las muestras con A y B. La idea de Wilcoxon fue combinar las n1+ n 2 = n observaciones y ordenarlas por orden de magnitud, de la uno (la más pequeña) a la n (la más grande). Los empates se manejan igual que como se indicó antes. Si las observaciones se obtienen de poblaciones idénticas, las sumas de rangos para las muestra deberían ser más o menos proporcionales a los tamaños de las muestras n1 y n 2 . Por ejemplo, si n1 y n 2 son iguales, esperamos que las sumas de los rangos sean aproximadamente iguales. Pero si las observaciones de la muestra A, por ejemplo, tienden a ser mayores que las observaciones de la muestra B, las observaciones de la muestra A tenderán a recibir los rangos más altos, y la suma de rangos que le pertenece será mayor que la suma de rangos esperada. Por consiguiente, teniendo muestras de igual tamaño, si una prueba de rangos es muy grande y, en consecuencia, la otra es muy pequeña, esta podría indicar una diferencia importante entre las dos poblaciones desde el punto de vista estadístico.

¿Cuán útiles son los métodos no paramétricos?

Los métodos estadísticos no paramétricos permiten llevar a cabo el trabajo con rapidez y a menudo facilitan la toma inmediata de una decisión en el momento de probar hipótesis. Cuando las condiciones experimentales se alejan en forma sustancial de los supuestos fundamentales que sustentan las pruebas paramétricas, las medidas de respuesta a menudo se pueden transformar para rectificar algunas condiciones, pero con frecuencia esto da como resultado que la respuesta transformada ya no sea útil, desde el punto de vista práctico, y que el análisis de los datos transformados ya no responda a los objetivos del experimentador. La aplicación de métodos no paramétricos con frecuencia evita esta dificultad. Muchos métodos no paramétricos son casi tan eficaces como sus equivalentes paramétricos cuando los supuestos detrás de los procedimientos paramétricos son verdaderos; además, como se señaló, los métodos no paramétricos podrían ser más eficaces cuando los supuestos no se satisfacen. Estos argumentos sugieren que las técnicas no paramétricas desempeñan un papel muy útil en la metodología estadística.
En el caso de dos muestras comparadas, por ejemplo, la técnica paramétrica usual para analizar datos provenientes de dos muestras de este tipo es aplicar una prueba t a la diferencia de las observaciones. Esta diferencia puede obtenerse de los dos valores de los miembros de cada pareja igualada o de los dos valores de cada sujeto bajo las dos condiciones. La prueba t supone que estas diferencias de las observaciones están distribuidos normal e independientemente en la población de la cual se tomó la muestra, y requiere que sea medido en una escala de intervalo.
En numerosos casos, la prueba t es inaplicable. El investigador puede encontrar que a) los supuestos y requerimientos de la prueba t son poco realistas para sus datos; b) prefiere evitar hacer los supuestos o probar los requerimientos para dar mayor generalidad a sus conclusiones; c) las diferencias entre las parejas igualadas están representadas de tal forma que se puede decir qué miembro de cualquier pareja es mayor que el otro, pero no se puede decir en cuánto), o d) sus valores son simplemente clasificatorios: los miembros de cada pareja igualada pueden responder del mismo modo o de maneras enteramente diferentes que no tienen orden ni relación cuantitativa.
En estos casos, el investigador pude escoger una prueba estadística no paramétrica para dos muestras comparadas. Además de que son adecuadas para los casos mencionados antes, estas pruebas tienen la ventaja adicional que no requieren una misma población de la que provengan todas las parejas.


Los métodos no paramétricos tienen un número de ventajas claras sobre los métodos paramétricos:
1. A menudo se les llama de “distribución libre” pues uno de sus principales méritos es que no suponen que los datos que se están analizando se hayan sacado de una población distribuida de una forma específica, por ejemplo, de una población distribuida normalmente.
2. Generalmente, son más fáciles de efectuar y comprender. La mayoría de las pruebas no paramétricas no demandan el tipo de laboriosos cálculos a menudo requeridos, por ejemplo para calcular una desviación estándar. Una prueba no paramétrica nos puede pedir reemplazar valores numéricos con el orden en el que esos valores aparecen en una lista, como se ha hecho en la tabla IV.1.
Obviamente, tratar computacionalmente con 1, 2, 3, 4 y 5 cuesta menos esfuerzo que trabajar con 13.33, 76.50, 101.79, 113.45 y 189.42. Muchos creen que la sencillez de cálculo permite a los investigadores en general dedicar más tiempo a la reflexión y formulación cuidadosa de sus problemas de investigación y a la recolección de datos precisos y pertinentes.
3. Algunas veces ni siquiera se requiere del ordenamiento o clasificación formal. A menudo, lo único que podemos hacer es describir un resultado como “mejor” que otro.
Cuando éste es el caso, o cuando nuestras mediciones no son tan exactas como es necesario para las pruebas paramétricas, podemos usar métodos no paramétricos.
4. Otro conveniente de estas pruebas es su utilidad con muestras pequeñas, o tan pequeñas como por ejemplo n = 6, lo cual es una ventaja para el investigador que recoge datos de un estudio piloto y para aquel cuyas muestras deben ser pequeñas por su misma naturaleza (por ejemplo, muestras de personas con una forma rara de enfermedad mental).

1. Ignoran una cierta cantidad de información. Hemos mostrado como los valores 1, 2,
3, 4 y 5 pueden reemplazar a los números 13.33, 76.5, 101.79, 113.45, y 189.42. Sin embargo, si representamos “189.42” por “5”, perdemos información que está contenida en el valor de 189.42. Observe que en nuestro ordenamiento de los valores 13.33, 76.5,
101.79, 113.45 y 189.42, el valor 189.42 puede convertirse en 1.189.42 y seguir siendo el quinto o mayor valor de la lista. Pero si esta lista es un conjunto de datos, podemos aprender más sabiendo que el valor más alto es 1189.42 ó 189.42 de lo que aprenderíamos al representar ambos números mediante el valor 5.
2. A menudo no son tan eficientes o “agudas” como las pruebas paramétricas. La estimación de un intervalo al nivel de confianza de 95% usando una prueba no paramétrica puede ser el doble de tamaño que la estimación al utilizar una prueba paramétrica. Cuando usamos pruebas no paramétricas, efectuamos un trueque: perdemos agudeza al estimar intervalos, pero ganamos la habilidad de usar menos información y calcular más rápidamente.

Rodríguez, F. (2008)
Ejercicio para Prueba T

  1. Se ha realizado un estudio para investigar el efecto del ejercicio físico en el nivel de colesterol en plasma, donde participaron 20 sujetos. Para ello, se tomaron muestras de sangre antes y después de iniciar un programa de ejercicios que se centraba en carreras y marchas diarias, resultando así los siguientes valores: 

Sujeto
Nivel previo
Nivel posterior
1
182
175
2
232
210
3
191
185
4
200
190
5
148
138
6
249
220
7
276
219
8
213
161
9
241
210
10
480
313
11
261
225
12
234
210
13
190
184
14
200
190
15
147
134
16
249
220
17
274
215
18
217
161
19
245
210
20
480
315

Ho: Los niveles de colesterol en plasma no cambian, a pesar de someterse a programas de ejercicios basados en carreras y marchas diarias.
Ha: Los niveles de colesterol en plasma presentan variación, luego de someterse a programas de ejercicios basados en carreras y marchas diarias.

Variable Dependiente:
Nivel de colesterol  en plasma
Variable Independiente:
Programas de ejercicios
     Tipo de Prueba:
     Relacionante

T-Test

PairedSamplesStatistics

Mean
N
Std. Deviation
Std. Error Mean
Pair 1
colesterolante
245,45
20
88,145
19,710
colesteroldesp
204,25
20
46,221
10,335

PairedSamplesCorrelations

N
Correlation
Sig.
Pair 1
colesterolante&colesteroldesp
20
,954
,000






 
PairedSamples Test

PairedDifferences
t
df
Sig. (2-tailed)
Mean
Std. Deviation
Std. Error Mean
95% ConfidenceInterval of theDifference
Lower
Upper
Pair 1
colesterolante - colesteroldesp
41,200
46,197
10,330
19,579
62,821
3,988
19
,001














·         Nivel de Confianza:
95%
·         P = ,001 ˂ 0,05
     Por lo tanto se rechaza la Ho y se infiere que: Los niveles de colesterol en plasma presentan variación, luego de someterse a programas de ejercicios basados en carreras y marchas diarias.

2. Una muestra aleatoria de 20 personas (que conducen diariamente en la ciudad de Barquisimeto), fue seleccionada para ver si el alcohol afectaba el tiempo de reacción.
     Cada tiempo de reacción fue medido antes y después de beber determinada cantidad de alcohol. Los tiempos de reacción fueron  los siguientes: 

Sujeto
Antes
Después
Sujeto
Antes
Después
1
0.68
0.70
11
0.65
0.69
2
0.65
0.78
12
0.74
0.78
3
0.69
0.81
13
0.68
0.74
4
0.74
0.79
14
0.67
0.75
5
0.78
0.82
15
0.78
0.82
6
0.76
0.79
16
0.75
0.84
7
0.65
0.74
17
0.65
0.76
8
0.66
0.75
18
0.67
0.75
9
0.78
0.86
19
0.72
0.84
10
0.65
0.84
20
0.78
0.84

Ho: Los tiempos de reacción de los participantes no cambia, luego de consumir alcohol.
Ha: El tiempo de reacción de los participantes muestra diferentes variaciones, luego de consumir alcohol. 

Variable Dependiente:
Los tiempos de reacción
Variable Independiente:
     Ingestión de Alcohol 
     Tipo de Prueba 
     Relacionante 


PairedSamplesStatistics

Mean
N
Std. Deviation
Std. Error Mean
Pair 1
Tiempodreaccante
70,65
20
5,194
1,161
tiempodreaccdesp
78,45
20
4,893
1,094

PairedSamplesCorrelations

N
Correlation
Sig.
Pair 1
Tiempodreaccante&tiempodreaccdesp
20
,659
,002






PairedSamples Test

PairedDifferences
t
df
Sig. (2-tailed)
Mean
Std. Deviation
Std. Error Mean
95% ConfidenceInterval of theDifference
Lower
Upper
Pair 1
Tiempodreaccante - tiempodreaccdesp
-7,800
4,175
,934
-9,754
-5,846
-8,355
19
,000











  •  Nivel de Confianza:
95%
  •   P = ,000 ˂ 0,05
     Por lo tanto se rechaza la Ho y se infiere que: El tiempo de reacción de los participantes muestra diferentes variaciones, luego de ingerir alcohol. 


El Análisis de la Varianza (ANOVA, ANalysis Of VAriance, según terminología inglesa) es una colección de modelos estadísticos y sus procedimientos asociados, en el cual la varianza está particionada en ciertos componentes debidos a diferentes variables explicativas.
Las técnicas iniciales del análisis de varianza fueron desarrolladas por el estadístico y genetista R. A. Fisher en los años 1920 y 1930 y es algunas veces conocido como "Anova de Fisher" o "análisis de varianza de Fisher", debido al uso de la distribución F de Fisher como parte del contraste de hipótesis.
 





REFERENCIAS BIBLIOGRÁFICAS

 
Rodríguez, F. (2008) ESTUDIO DE MÉTODOS NO PARAMÉTRICOS/ UNIVERSIDAD NACIONAL ABIERTA, Caracas.
  


No hay comentarios:

Publicar un comentario