Fundamentos de SPSS
Introducción a SPSS
SPSS
significa Statistics Package for Social Science y pertenece a IBM. Sirve para llevar a cabo análisis descriptivos y análisis inferenciales.
Cosas que se pueden hacer en SPSS incluyen:
- Crear una base de datos
- Diseñar variables
- Introducir datos
- Generar variables por intervalos
- Ordernar casos
- Seleccionar casos
- Invertir items
- Crear factores
- Importar archivo de Excel a SPSS
- Generar variables por intervalos
- Invertir items
- Crear factores
- Importar archivo de Excel a SPSS
Usar SPSS para calcular descriptivos
Diagrama de tallos y hojas (stem and leaf)
En SPSS hay una tabla llamada Diagrama de tallos y hojas, que es frecuentemente utilizada al analizar datos. Tiene las siguientes propiedades:
- Muestra los datos conservando los valores originales de la variable
- Permite localizar valores centrales
- Facilita identificar la concentración de datos
- Permite ver saltos o discontinuidades en los que no haya datos
- Permite ver la amplitud de la distribución
- Permite localizar casos atípicos
Divide los datos de manera que separa el primer dígito, y después muestra los siguientes dígitos. Por ejemplo, en la siguiente tabla vemos que hay 8 personas que tienen 30-y-algo años. Se que son 8
por la columna frecuencia, y se que son 30-y-algo por el stem (3
). Y más concretamente, mirando la hoja, vemos que tres personas tienen 35 años (555
) mientras que sólo una tiene 36 (6
)
EDAD
Frecuencia | Stem | & | Hoja |
---|---|---|---|
1 | 2 | - | 23 |
8 | 3 | - | 55568889 |
También permite ver asimetrías, ya que hemos que hay más personas con 30-y-pico que con 20-y-pico.
Cómo calcular el diagrama de tallos y hojas con SPSS
En la barra superior, click en Analizar
, después Estadísticos descriptivos
y después Explorar...
.
Pedirá seleccionar la variable cuyos índices quieres calcular. Después hacer click en Gráficos
.
Se abre un cuadro llamado Explorar gráficos. Dentro de este cuadro, arriba a la derecha, hay una sección llamada Descriptivos. Dentro, hay que hacer check en el checkbox llamado De tallo y hojas
. Después, click en Continuar
.
Histograma
Es un gráfico que agrupa los casos en barras, de manera que más casos genera una barra más alta.
Gracias a esto, se puede ver con claridad la distribución de la variable.
En SPSS, el histograma va acompañado de:
- La media
- La desviación estándar
- El tamaño de la muestra (N)
Sin embargo, conviene recordar que si la distribución es asimétrica, la media y la desviación típica no tienen mucha utilidad.
Cómo calcular la media con SPSS
En la barra superior, click en Analizar
, después Estadísticos descriptivos
y después Frecuencias
.
Pedirá seleccionar la variable cuyos índices quieres calcular. Después hacer click en Aceptar
.
Se abre un cuadro llamado Frecuencias. Dentro de este cuadro, abajo a la izquierda, hay una sección llamada Tendencia central, hay que hacer check en el checkbox llamado Media
. Después, click en Continuar
.
La mediana
, la moda
y la suma
se calculan el mismo cuadro que la media
Cómo calcular la varianza con SPSS
En la barra superior, click en Analizar
, después Estadísticos descriptivos
y después Frecuencias
.
Pedirá seleccionar la variable cuyos índices quieres calcular. Después hacer click en Aceptar
.
Se abre un cuadro llamado Frecuencias. Dentro de este cuadro, abajo a la izquierda, hay una sección llamada Dispersión. Dentro, hay que hacer check en el checkbox llamado Varianza
. Después, click en Continuar
.
La Desviación estándar
, el Rango
, el Máximo
y el Mínimo
se calculan el mismo cuadro que la varianza.
Cómo calcular la asimetría con SPSS
En la barra superior, click en Analizar
, después Estadísticos descriptivos
y después Frecuencias
.
Pedirá seleccionar la variable cuyos índices quieres calcular. Después hacer click en Aceptar
.
Se abre un cuadro llamado Frecuencias. Dentro de este cuadro, abajo a la izquierda, hay una sección llamada Caracterizar distribución posterior. Dentro, hay que hacer check en el checkbox llamado Asimetria
. Después, click en Continuar
.
Para saber si el valor de asimetría refleja una asimetría positiva, negativa; o una simetría, es necesario comparar el valor con los valores de referencia.
La Curtosis
se calcula en el mismo cuadro que la asimetría.
Cómo calcular el cuartil con SPSS
En la barra superior, click en Analizar
, después Estadísticos descriptivos
y después Frecuencias
.
Pedirá seleccionar la variable cuyos índices quieres calcular. Después hacer click en Aceptar
.
Se abre un cuadro llamado Frecuencias. Dentro de este cuadro, abajo a la izquierda, hay una sección llamada Valores percentiles. Dentro, hay que hacer check en el checkbox llamado Cuartiles
. Después, click en Continuar
.
El Percentil
y otros puntos de corte se calculan en el mismo cuadro que el cuartil.
BoxPlot (Diagrama de cajas y bigotes)
En SPSS se puede crear un diagrama que refleja la distribución de los cuartiles de forma visual.
Es un diagrama que refleja, en vertical, la distribución de los datos, y tiene distintas barras que reflejan los cuartiles.
Cómo calcular el BoxPlot con SPSS
En la barra superior, click en Analizar
, después Estadísticos descriptivos
y después Explorar...
.
Pedirá seleccionar la variable cuyos índices quieres calcular. Después hacer click en Gráficos
.
Se abre un cuadro llamado Explorar gráficos. Dentro de este cuadro, arriba a la izquierda, hay una sección llamada Diagramas de cajas. Dentro, hay que hacer check en el checkbox llamado Niveles de los factores juntos
. Después, click en Continuar
.
Usar SPSS para calcular asociación
Cómo crear un gráfico de dispersión y ver el coeficiente de determinación
En la barra superior, click en Gráficos
, después Cuadros de diálogo antíguos
y después Dispersión/Puntos...
.
Se abre un cuadro llamado Diagrama de dispersión simple. Dentro de este cuadro, puedo seleccionar las variables cuya asociación quiero calcular. Recuerda que el eje x
deberá ser la variable predictora, y la variable resultado irá en el eje y
.
Después hacer click en Aceptar
. Esto crea un gráfico de dispersión de puntos.
Para ver la línea de la tendencia, puedo hacer doble click en el gráfico y de abre un nuevo cuadro de diálog. Ahí, hacemos click en Añadir línea de ajuste total
. Esta línea de tendencia nos enseña el coeficiente de determinación ().
Cómo calcular la correlación de Pearson
En la barra superior, click en Analizar
, después Correlacionar
y después Bivariadas...
.
Se abre un cuadro llamado Correlaciones bivariadas. Dentro de este cuadro, puedo seleccionar las variables cuya asociación quiero calcular. Abajo, en el apartado Coeficientes de correlación, seleccionamos Pearson
. Después hacer click en Aceptar
.
Esto crea una tabla. En esa tabla, vemos las mismas variables en las filas y en las columnas, de manera que crean una matriz. Si nos fijamos en la diagonal principal, vemos que el valor es siempre 1
; porque la relación entre una variable y esa misma variable es 1
.
Por otro lado, en cada fila hay 3 subfilas, siendo la primera la Correlación de Pearson. Además, en cada valor, vemos si tiene o no asteriscos (*
). En caso de tenerlo, significa que la correlación es significativa. Cuanto más asteriscos, más significativa es la correlación.
Usar SPSS para contraste de hipótesis
Cálculo de medias desconocidas
Contrasta si la media poblacional toma un valor de 25 para la media de edad, con
Como se puede ver, no tenemos la varianza poblacional, por lo que en lugar de la puntuación Z para el contraste de hipótesis, debemos usar el valor de student.
Las hipótesis son:
- Hipótesis nula ():
- Hipótesis alternativa ():
En la barra superior, click en Analizar
, espués Comparar medias
y después Prueba T para una muestra...
.
Se abre un cuadro llamado Prueba T para una muestra. Dentro de este cuadro, puedo seleccionar las variables. En este caso, seleccionamos Edad, porque es la variable cuya media quiero contrastar. A la derecha, hacemos click en Opciones...
y seleccionamos el intervalo de confianza, que en este caso es 95% (dado que ). Hacemos click en Continuar
y Aceptar
.
Esto crea dos tablas dentro de una sección llamada Prueba T. La primera tabla contiene los valores estadísticos para la muestra, y la segunda es la prueba para la muestra.
N | Media | Desv. Desviación | Desv. Error promedio | |
---|---|---|---|---|
EDAD | 100 | 31.26 | 10.913 | 1.091 |
Valor de prueba = 25
t | gl | Sig. (bilateral) | Diferencia de medias | 95%... Inferior | 95%... Superior | |
---|---|---|---|---|---|---|
EDAD | 5,736 | 99 | ,000 👈 | 6,260 | 4,09 | 8,43 |
En la segunda tabla, vemos una columna cuyo encabezado dice Sig. (bilateral). Debemos comparar este valor con la significancia que nos da el enunciado (). En este caso, vemos que el valor es menor que . Por lo tanto, puedo rechazar que la media poblacional sea de 25 con ese nivel de significancia.
Otra forma de saberlo sería comprobar si el valor (cero) se encuentra entre los valores inferiores y superiores. Dicho de otra manera, si el valor inferior es negativo. En este caso, el valor inferior del intervalo de confianza es , lo que nos permite también rechazar que la media poblacional sea de 25 con ese nivel de significancia.
También se que el valor de Student, que es el estadístico de contraste, es 5.736.
En cambio, imaginemos que el enunciado dijera:
Contrasta si la media poblacional toma un valor de 30 para la media de edad, con
En este caso, las hipótesis son:
- Hipótesis nula ():
- Hipótesis alternativa ():
Valor de prueba = 30
t | gl | Sig. (bilateral) | Diferencia de medias | 95%... Inferior | 95%... Superior | |
---|---|---|---|---|---|---|
EDAD | 1,155 | 99 | ,251 👈 | 1,260 | -.91 | 3.43 |
Debemos comparar el valor Sig. (bilateral) con la significancia que nos da el enunciado (). En este caso, vemos que el valor es 0.251 es mayor que . Por lo tanto, puedo aceptar que la media poblacional sea de 30 con ese nivel de significancia. Es decir: aceptamos la hipótesis nula.
Otra forma de saberlo sería comprobar si el valor (cero) se encuentra entre los valores inferiores y superiores. Dicho de otra manera, si el valor inferior es negativo. En este caso, el valor inferior del intervalo de confianza es , lo que nos permite también aceptar que la media poblacional sea de 30 con ese nivel de significancia. Es decir: aceptamos la hipótesis nula.
También se que el valor de Student, que es el estadístico de contraste, es 1,155. Podríamos revisar las tablas de distribución y calcular manualmente la puntuación T.