Tema 12 "Correlación paramétrica: Pearson Correlación no paramétrica: Spearman"


Tema 12
Correlación paramétrica: Pearson
Correlación no paramétrica: Spearman

Relaciones entre variables y regresión
El termino regresión fue introducido por Galton en su libro “Natural inheritante” (1889) refiriéndose a la “ley de la regresión universal”
                -Cada peculiaridad en un hombre es compartida por sus descendiente, pero en media, en un grado menor. Regresión a la media
                -Su trabajo se centraba en la descripción de los rasgos físicos de los descendientes (una variable) a partir de los de sus padres (otra variable)
                -Pearson (amigo de este) realizo un estudio con mas de 1000 registros de grupos familiares observando una relación del tipo:
                               -Altura del hijo=85cm + 0,5 altura del padre (aprox)
                               -Conclusión: los padres muy altos tienen tendencias a tener hijos que heredan parte de esta altura, aunque tienen tendencia a acercarse (regresar) a la media. Lo mismo puede decirse de los padres muy bajos
Hoy en día el sentido de regresión es el de predicción de una medida basándonos en el conocimiento de otra

Estudio conjunto de dos variables
En la tabla tenemos una posible manera de recoger los datos observando dos variables en varios individuos de una muestra
                -Cada fila tenemos los datos de un individuo
                -Cada columna representa los calores que toma una variable sobre los mismos
                -Los individuos no se muestran en ningún orden en particular
Dichas observaciones pueden ser representadas en un diagrama de dispersión (scatterplot). En ellos, cada individuo es un punto cuyas coordenadas son los valores de las variables.
Nuestro objetivo será intentar reconocer a partir del mismo si hay relación entre las variables, de que tipo, y si es posible predecir el valor de una de ellas en función de la otra.
Altura en cm
Peso en Kg
162
61
154
60
180
78
158
62
171
66
Hacemos un diagrama de dispersión o nube de puntos, en el eje X variable independiente (altura), eje Y variable dependiente (peso).
Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de dispersión.
Tras unir los puntos, observamos que, al ser la resta ascendente, existe una correlación positiva, por que si aumenta uno aumenta el otro
Visualmente podemos apreciar si existe relación directa o indirecta
                -Incorreción (tras dibujar una cruz, los puntos están en los 4 cuadrantes indistintamente): para valores de X por encima de la media tenemos valores de Y por encima y por debajo en proporciones similares.
                -Relación negativa (en la cruz vemos que a medida que suben unos, otro baja): para los valores de X mayores que la media le corresponde valores de Y menores. Esto es relación inversa o decreciente
                -Relación directa: para los valores de X mayores que la media le corresponden valores de Y mayores también. Para los valores de X menores que la media le corresponden valores de Y menores también. Esto se llama relación directa.

“En primero de enfermería solo tratamos el modelo de regresión lineal simple (variable dependiente e independiente)”

Regresión lineal simple: correlación y determinación
Se trata de estudiar la asociación lineal entre dos variables cuantitativas
Ejemplo: influencia de la edad en las cifras de tensión arterial sistólica
Regresión lineal simple: una sola variable independiente (una variable vs otra variable)
Regresión lineal múltiple: mas de una variable independiente
Ecuación de la recta:  y=a*x + b (ejem: tas= a * edad + b)
Pendiente de la recta a= β1
Punto de intersección con el eje de coordenadas b= β0
Pendiente de la recta a= β1 (mientras mas negativa sea la pendiente más descendente será, cuanto más positiva, más pendiente ascendente tendrá)
Punto de intersección con el eje de coordinadas b=β0 (x=0 cuanto vale y? punto de corte)
β1 expresa la cantidad de cambio que produce en la variable dependiente por unidad de cambio de la variable dependiente
β0 expresa cual es el valore de la variable dependiente cuando la independiente es 0

Modelos lineales deterministas: la variable independiente determine el valor de la variable independiente. Entonces para cada calor de la variable independiente solo habrá un calor de la dependiente
Modelos lineales probabilísticos: para cada valor de la variable independiente existe una distribución de probabilidad de calores de la dependiente, con una probabilidad entre 0 y 1
La recta a determinar s con menor distancia de cada punto a ella. La que menos distancia tenga a cada punto.

Coeficientes de correlación:
                -Coeficientes de correlación de Pearson: paramétrica por lo que requiere que la distribución siga la normalidad. (pienso normal)
                -Coeficiente de Spearman: no paramétrica por lo que requiere que se emplea cuando la distribución no sigue la normalidad. (esperma no normal)

Análisis de correlación: variables cuantitativas normales
El análisis de correlación se utiliza con el propósito de disponer de un indicador cuantitativo que permite sintetizar el grado de la asociación entre variables.
Coeficiente de Correlación r de Pearson(r), (Rxy): Es un coeficiente que mide el grado de la relación de dependencia que existe entre las variables (x,y), cuyos valores van desde –1, correspondiente a una correlación negativa perfecta, hasta 1, correspondiente a una correlación positiva perfecta
La magnitud del coeficiente de correlación indica cuan cerca esta los puntos de la recta, tomando valores entre 1 y -1

Análisis de correlación
Variables ordinales (requieren trasformación) y cuantitativas no normales
Procedimiento:
1. Se ordenan los valores de una de las variables y lo acompañamos de su correspondiente valor ordenado en la otra variable
2. Para cada par de observaciones (rangos) calculamos su diferencia
di= rango de ui–Rango de vi
3. Se eleva al cuadrado cada di y se suman todos los valores encontrados
4. Se calcula para determinar la discrepancia entre los rangos la siguiente fórmula: -1<rs<1
rs= -1 La asociación es negativa e inversa, las ordenaciones son perfectamente contrarias
rs= 0 No existe asociación
rs= 1 Las ordenaciones son todas concordantes


Regresión lineal simple: correlación y determinación
Y = β1·x + β0
Yi= β1·x + β0 + ei
Y sería la media de la variable dependiente en un grupo con el mismo valor de la variable independiente Yi= y + ei
Para construir un modelo de regresión lineal hace falta conocer: Punto de intersección con el eje de coordenadas = β0 y la Pendiente de la recta a = β1
No hay un modelo determinista: hay una nube de puntos y buscamos la recta que mejor explica el comportamiento de la variable dependiente en función de la variable independiente
Teniendo una nube de puntos, ¿cómo elegir la recta que mejor se ajuste a esos puntos?: Mediante el método de los mínimos cuadrados.
Se trata de la recta que hace mínimo el cuadrado de la suma de las distancias verticales desde ella hasta cada uno de los puntos de la nube

Coeficiente de correlación (Pearson y Spearman): Número adimensional (entre -1 y 1) que mide la fuerza y el sentido de la relación lineal entre dos variables.
r= β1*Sx/Sy
Coeficiente de determinación: número adimensional (entre 0 y 1) que dá idea de la relación entre las variables relacionadas linealmente. Es r2

No hay comentarios:

Publicar un comentario