Tema
12
Correlación paramétrica: Pearson
Correlación no paramétrica: Spearman
Relaciones
entre variables y regresión
El termino regresión fue introducido por
Galton en su libro “Natural inheritante” (1889) refiriéndose a la “ley de la
regresión universal”
-Cada
peculiaridad en un hombre es compartida por sus descendiente, pero en media, en
un grado menor. Regresión a la media
-Su
trabajo se centraba en la descripción de los rasgos físicos de los
descendientes (una variable) a partir de los de sus padres (otra variable)
-Pearson
(amigo de este) realizo un estudio con mas de 1000 registros de grupos
familiares observando una relación del tipo:
-Altura
del hijo=85cm + 0,5 altura del padre (aprox)
-Conclusión:
los padres muy altos tienen tendencias a tener hijos que heredan parte de esta
altura, aunque tienen tendencia a acercarse (regresar) a la media. Lo mismo
puede decirse de los padres muy bajos
Hoy en día el sentido de regresión es el
de predicción de una medida basándonos en el conocimiento de otra
Estudio conjunto de dos variables
En la tabla tenemos una posible manera de
recoger los datos observando dos variables en varios individuos de una muestra
-Cada
fila tenemos los datos de un individuo
-Cada
columna representa los calores que toma una variable sobre los mismos
-Los
individuos no se muestran en ningún orden en particular
Dichas observaciones pueden ser
representadas en un diagrama de dispersión (scatterplot). En ellos, cada
individuo es un punto cuyas coordenadas son los valores de las variables.
Nuestro objetivo será intentar reconocer
a partir del mismo si hay relación entre las variables, de que tipo, y si es
posible predecir el valor de una de ellas en función de la otra.
|
Altura en cm
|
Peso en Kg
|
|
162
|
61
|
|
154
|
60
|
|
180
|
78
|
|
158
|
62
|
|
171
|
66
|
Hacemos un diagrama de dispersión o nube
de puntos, en el eje X variable independiente (altura), eje Y variable
dependiente (peso).
Tenemos las alturas y los pesos de 30
individuos representados en un diagrama de dispersión.
Tras unir los puntos, observamos que, al
ser la resta ascendente, existe una correlación positiva, por que si aumenta
uno aumenta el otro
Visualmente podemos apreciar si existe
relación directa o indirecta
-Incorreción
(tras dibujar una cruz, los puntos están en los 4 cuadrantes indistintamente): para
valores de X por encima de la media tenemos valores de Y por encima y por
debajo en proporciones similares.
-Relación
negativa (en la cruz vemos que a medida que suben unos, otro baja): para los
valores de X mayores que la media le corresponde valores de Y menores. Esto es relación
inversa o decreciente
-Relación
directa: para los valores de X mayores que la media le corresponden valores de
Y mayores también. Para los valores de X menores que la media le corresponden
valores de Y menores también. Esto se llama relación directa.
“En primero de enfermería solo tratamos el modelo de
regresión lineal simple (variable dependiente e independiente)”
Regresión lineal simple: correlación y determinación
Se trata de estudiar la asociación lineal
entre dos variables cuantitativas
Ejemplo: influencia de la edad en las
cifras de tensión arterial sistólica
Regresión lineal simple: una sola
variable independiente (una variable vs otra variable)
Regresión lineal múltiple: mas de una
variable independiente
Ecuación
de la recta: y=a*x + b (ejem: tas= a *
edad + b)
Pendiente de la recta a= β1
Punto de intersección con el eje de
coordenadas b= β0
Pendiente de la recta a= β1
(mientras mas negativa sea la pendiente más descendente será, cuanto más
positiva, más pendiente ascendente tendrá)
Punto de intersección con el eje de
coordinadas b=β0 (x=0 cuanto vale y? punto de corte)
β1 expresa la cantidad de
cambio que produce en la variable dependiente por unidad de cambio de la
variable dependiente
β0 expresa cual es el valore
de la variable dependiente cuando la independiente es 0
Modelos lineales deterministas: la
variable independiente determine el valor de la variable independiente.
Entonces para cada calor de la variable independiente solo habrá un calor de la
dependiente
Modelos lineales probabilísticos: para
cada valor de la variable independiente existe una distribución de probabilidad
de calores de la dependiente, con una probabilidad entre 0 y 1
La recta a determinar s con menor
distancia de cada punto a ella. La que menos distancia tenga a cada punto.
Coeficientes de correlación:
-Coeficientes
de correlación de Pearson: paramétrica por lo que requiere que la distribución
siga la normalidad. (pienso normal)
-Coeficiente
de Spearman: no paramétrica por lo que requiere que se emplea cuando la distribución
no sigue la normalidad. (esperma no normal)
Análisis
de correlación: variables cuantitativas normales
El análisis de correlación se utiliza con
el propósito de disponer de un indicador cuantitativo que permite sintetizar el
grado de la asociación entre variables.
Coeficiente
de Correlación r de Pearson(r), (Rxy): Es un coeficiente que mide el grado de la
relación de dependencia que existe entre las variables (x,y), cuyos valores van
desde –1, correspondiente a una correlación negativa perfecta, hasta 1, correspondiente
a una correlación positiva perfecta
La magnitud del coeficiente de correlación
indica cuan cerca esta los puntos de la recta, tomando valores entre 1 y -1
Análisis
de correlación
Variables ordinales (requieren trasformación)
y cuantitativas no normales
Procedimiento:
1. Se ordenan los valores de una de las variables y lo acompañamos de su correspondiente
valor ordenado en la otra variable
2. Para cada par de observaciones (rangos) calculamos su diferencia
di=
rango de ui–Rango de vi
3. Se eleva al cuadrado cada di y se suman todos los valores encontrados
4. Se calcula para determinar la discrepancia entre los rangos la siguiente
fórmula: -1<rs<1
rs=
-1 La asociación es negativa e inversa, las ordenaciones son perfectamente
contrarias
rs=
0 No existe asociación
rs=
1 Las ordenaciones son todas concordantes
Regresión
lineal simple: correlación y determinación
Y = β1·x + β0
Yi=
β1·x + β0 + ei
Y
sería la media de la variable dependiente en un grupo con el mismo valor de la
variable independiente Yi= y + ei
Para
construir un modelo de regresión lineal hace falta conocer: Punto de
intersección con el eje de coordenadas = β0 y la Pendiente de la
recta a = β1
No
hay un modelo determinista: hay una nube de puntos y buscamos la recta que
mejor explica el comportamiento de la variable dependiente en función de la
variable independiente
Teniendo
una nube de puntos, ¿cómo elegir la recta que mejor se ajuste a esos puntos?:
Mediante el método de los mínimos cuadrados.
Se
trata de la recta que hace mínimo el cuadrado de la suma de las distancias
verticales desde ella hasta cada uno de los puntos de la nube
Coeficiente
de correlación (Pearson y Spearman): Número adimensional (entre -1 y 1) que
mide la fuerza y el sentido de la relación lineal entre dos variables.
r=
β1*Sx/Sy
Coeficiente
de determinación: número adimensional (entre 0 y 1) que dá idea de la relación
entre las variables relacionadas linealmente. Es r2
No hay comentarios:
Publicar un comentario