class: front .pull-left-wide[ # Estadística Correlacional] .pull-right-narrow[![:scale 85%](img/logo-correlacional-transp.png)] ## Inferencia, asociación y reporte ---- .pull-left[ ## Juan Carlos Castillo ## Sociología FACSO - UChile ## 2do Sem 2024 ## [.orange[correlacional.netlify.app]](https:/correlacional.netlify.app) ] .pull-right-narrow[ .center[ .content-block-gray[ ## .gray[Sesión 9:] ## .curso[Inferencia en correlación y magnitud del coeficiente]] ] ] --- layout: true class: animated, fadeIn --- class: middle center # Lecturas ## - Pardo 307 - 330 Relación lineal ## - Huck 183 - 203 Statistical Inferences Concerning Bivariate Correlation Coefficients --- class: inverse bottom right ## **.yellow[1- Resumen sesión anterior]** ## .grey[2- Inferencia en correlación] ## .grey[3- Magnitud del coeficiente de correlación] --- <br> .pull-left-narrow[ .small[ <table> <thead> <tr> <th style="text-align:right;"> id </th> <th style="text-align:right;"> educ </th> <th style="text-align:right;"> ing </th> </tr> </thead> <tbody> <tr> <td style="text-align:right;"> 1 </td> <td style="text-align:right;"> 2 </td> <td style="text-align:right;"> 1 </td> </tr> <tr> <td style="text-align:right;"> 2 </td> <td style="text-align:right;"> 3 </td> <td style="text-align:right;"> 3 </td> </tr> <tr> <td style="text-align:right;"> 3 </td> <td style="text-align:right;"> 4 </td> <td style="text-align:right;"> 3 </td> </tr> <tr> <td style="text-align:right;"> 4 </td> <td style="text-align:right;"> 4 </td> <td style="text-align:right;"> 5 </td> </tr> <tr> <td style="text-align:right;"> 5 </td> <td style="text-align:right;"> 5 </td> <td style="text-align:right;"> 4 </td> </tr> <tr> <td style="text-align:right;"> 6 </td> <td style="text-align:right;"> 7 </td> <td style="text-align:right;"> 7 </td> </tr> <tr> <td style="text-align:right;"> 7 </td> <td style="text-align:right;"> 8 </td> <td style="text-align:right;"> 9 </td> </tr> <tr> <td style="text-align:right;"> 8 </td> <td style="text-align:right;"> 8 </td> <td style="text-align:right;"> 11 </td> </tr> </tbody> </table> ] ] .pull-right-wide[ ![](img/educ-ing1.png) ] --- ## Varianzas .pull-left[ ![](08_bivariada2_files/figure-html/unnamed-chunk-3-1.png)<!-- --> .center[ ### Educación ] ] .pull-right[ ![](08_bivariada2_files/figure-html/unnamed-chunk-4-1.png)<!-- --> .center[ ### Ingreso ] ] --- .pull-left-narrow[ ## Nube de puntos ] .pull-right-wide[ ![](08_bivariada2_files/figure-html/unnamed-chunk-5-1.png)<!-- --> ] --- # Covarianza .pull-left[ .center[ ### Varianza educación (x) `$$\sigma_{edu}^{2}={\sum_{i=1}^{N}(x_{i}-\bar{x})^{2}\over {N - 1}}$$` `$$\sigma_{edu}^{2}={\sum_{i=1}^{N}(x_{i}-\bar{x})(x_{i}-\bar{x})\over {N - 1}}$$` ] ] .pull-right[ .center[ ### Varianza ingreso (y) `$$\sigma_{ing}^{2}={\sum_{i=1}^{N}(y_{i}-\bar{y})^{2}\over {N - 1}}$$` `$$\sigma_{ing}^{2}={\sum_{i=1}^{N}(y_{i}-\bar{y})(y_{i}-\bar{y})\over {N - 1}}$$` ] ] -- .content-box-red[ `$$Covarianza=cov(x,y) = \frac{\sum_{i=1}^{N}(x_i - \bar{x})(y_i - \bar{y})} {N-1}$$` ] --- .pull-left[ ## Covarianza .content-box-green[ - valor numérico que refleja la asociación entre dos variables - el signo indica si la asociación es positiva o negativa - valor no interpretable directamente, depende de valores de cada variable ] ] -- .pull-right[ ## Correlación .content-box-red[ - valor numérico que refleja la asociación entre dos variables - el signo indica si la asociación es positiva o negativa - rango de variación fijo entre -1 y +1, interpretable en términos de magnitud ] ] --- ## Cálculo correlación .pull-left[ .small[ <div style="border: 1px solid #ddd; padding: 0px; overflow-y: scroll; height:450px; overflow-x: scroll; width:500px; "><table> <thead> <tr> <th style="text-align:right;position: sticky; top:0; background-color: #FFFFFF;"> educ </th> <th style="text-align:right;position: sticky; top:0; background-color: #FFFFFF;"> ing </th> <th style="text-align:right;position: sticky; top:0; background-color: #FFFFFF;"> dif_m_educ2 </th> <th style="text-align:right;position: sticky; top:0; background-color: #FFFFFF;"> dif_m_ing2 </th> <th style="text-align:right;position: sticky; top:0; background-color: #FFFFFF;"> dif_xy </th> </tr> </thead> <tbody> <tr> <td style="text-align:right;"> 2 </td> <td style="text-align:right;"> 1 </td> <td style="text-align:right;"> 9.77 </td> <td style="text-align:right;"> 19.14 </td> <td style="text-align:right;"> 13.67 </td> </tr> <tr> <td style="text-align:right;"> 3 </td> <td style="text-align:right;"> 3 </td> <td style="text-align:right;"> 4.52 </td> <td style="text-align:right;"> 5.64 </td> <td style="text-align:right;"> 5.05 </td> </tr> <tr> <td style="text-align:right;"> 4 </td> <td style="text-align:right;"> 3 </td> <td style="text-align:right;"> 1.27 </td> <td style="text-align:right;"> 5.64 </td> <td style="text-align:right;"> 2.67 </td> </tr> <tr> <td style="text-align:right;"> 4 </td> <td style="text-align:right;"> 5 </td> <td style="text-align:right;"> 1.27 </td> <td style="text-align:right;"> 0.14 </td> <td style="text-align:right;"> 0.42 </td> </tr> <tr> <td style="text-align:right;"> 5 </td> <td style="text-align:right;"> 4 </td> <td style="text-align:right;"> 0.02 </td> <td style="text-align:right;"> 1.89 </td> <td style="text-align:right;"> 0.17 </td> </tr> <tr> <td style="text-align:right;"> 7 </td> <td style="text-align:right;"> 7 </td> <td style="text-align:right;"> 3.52 </td> <td style="text-align:right;"> 2.64 </td> <td style="text-align:right;"> 3.05 </td> </tr> <tr> <td style="text-align:right;"> 8 </td> <td style="text-align:right;"> 9 </td> <td style="text-align:right;"> 8.27 </td> <td style="text-align:right;"> 13.14 </td> <td style="text-align:right;"> 10.42 </td> </tr> <tr> <td style="text-align:right;"> 8 </td> <td style="text-align:right;"> 11 </td> <td style="text-align:right;"> 8.27 </td> <td style="text-align:right;"> 31.64 </td> <td style="text-align:right;"> 16.17 </td> </tr> </tbody> </table></div> ] ] .pull-right[ `$$r=\frac{\sum(x-\bar{x})(y-\bar{y})}{\sqrt{\sum(x-\bar{x})^{2} \sum(y-\bar{y})^{2}}}$$` ``` r sum(data$dif_xy); sum(data$dif_m_educ2);sum(data$dif_m_ing2) ``` ``` [1] 51.625 ``` ``` [1] 36.875 ``` ``` [1] 79.875 ``` ] --- ## Cálculo correlación .pull-left[ `\begin{align*} r &= \frac{\sum(x-\bar{x})(y-\bar{y})}{\sqrt{\sum(x-\bar{x})^{2} \sum(y-\bar{y})^{2}}} \\ \\ &= \frac{51.625}{ \sqrt{36.875*79.875}} \\ \\ &= \frac{51.625}{54.271} \\ \\ &= 0.951 \end{align*}` ] -- .pull-right[ ``` r cor(data$educ,data$ing) ``` ``` [1] 0.9512367 ``` ] --- class: roja ## Interpretación - El coeficiente de correlación (de Pearson) es una medida de asociación lineal entre variables, que indica el sentido y la fuerza de la asociación -- - Varía entre +1 y -1, donde - valores .black[positivos] indican relación directa (aumenta una, aumenta la otra) - valores .black[negativos] indican relación inversa (aumenta una, disminuye la otra) --- # Nubes de puntos (scatterplot) y correlación .center[ ![](img/scatters4.png) ] --- class: inverse bottom right ## .grey[1- Resumen sesión anterior] ## **.yellow[2- Inferencia en correlación]** ## .grey[3- Magnitud del coeficiente de correlación] --- # Datos .medium[ Simulamos dos variables: edad, y puntaje en escala de izquierda (1) - derecha (10): ``` r edad <-c(18,25,40,55,70, 82) iz_der <-c(5,4,5,9,5,7) cor(edad,iz_der) ``` ``` [1] 0.5070278 ``` ``` r (cor(edad,iz_der))^2 #r2 ``` ``` [1] 0.2570772 ``` ] --- .pull-left[ ``` r plot1 <- ggplot(, aes(x=edad, y=iz_der)) + geom_point( colour = "red", size = 5) + theme(text = element_text(size = 20)) ``` ] .pull-right[ ``` r plot1 ``` ![](08_bivariada2_files/figure-html/unnamed-chunk-11-1.png)<!-- --> ] --- ## Prueba de hipótesis de correlación ### 1. Formulación de hipótesis Siendo `\(\rho\)` (rho) la correlación `\(r\)` en la población: `$$H_0: \rho = 0$$` `$$H_a: \rho \neq 0$$` --- class: roja middle center # La hipótesis de correlación refiere a asociación, no a explicación ni a causalidad --- ## Prueba de hipótesis de correlación ### 2. Error estándar y estadístico de prueba ( `\(t\)`) .pull-left[ `\begin{align*} SE_r=&\sqrt{\frac{1-r²}{n-2}} \\\\ =&\sqrt{\frac{1-0.257}{6-2}} \\\\ =&\sqrt{\frac{0.743}{4}}=\sqrt{0.186}=0.431 \end{align*}` ] .pull-right[ `\begin{align*} t_r&=\frac{r}{SE_r} \\\\ &=\frac{0.51}{0.431} \\\\ &=1.18 \end{align*}` ] --- ## Prueba de hipótesis de correlación ### 3. Probabilidad de error y valor crítico para `\(t\)` .pull-left[ - para un nivel de error `\(\alpha=0.05\)` - y una hipótesis de diferencia de dos colas: `\(\alpha/2=[0.025-0.975]\)` - grados de libertad N-2= 6-2 = 4] .pull-right[ ``` r qt(p=.05/2, df=4, lower.tail=FALSE) ``` ``` [1] 2.776445 ``` ] --- ## Prueba de hipótesis de correlación ### 4. Contraste de valores empírico y crítico - Contraste: `\(t_{r}=1.18 < t_{cri}=2.77\)` -- ### 5. Interpretación _Nuestro t estimado es menor que el valor t crítico para un 95% de confianza, por lo tanto no rechazamos la hipótesis nula. No existe evidencia en nuestros datos para afirmar que la correlación entre la escala izquierda-derecha y edad es distinta de cero en la población._ --- ## En R ``` r cor.test(iz_der,edad) ``` ``` Pearson's product-moment correlation data: iz_der and edad t = 1.1765, df = 4, p-value = 0.3046 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: -0.5174601 0.9341863 sample estimates: cor 0.5070278 ``` --- ![](08_bivariada2_files/figure-html/unnamed-chunk-14-1.png)<!-- --> --- class: inverse bottom right ## .grey[1- Resumen sesión anterior] ## .grey[2- Inferencia en correlación] ## **.yellow[3- Magnitud del coeficiente de correlación]** --- Si dos variables covarían, entonces .red[comparten varianza] ![](img/shared-variance.png) -- .right[ # .red[¿Cuánta varianza comparten?] ] --- # Estableciendo la varianza compartida .pull-left[ La varianza compartida puede pensarse como 1 - la varianza no compartida (o varianza única) La varianza no compartida se asocia al concepto de .red[residuos], es decir, la cantidad de varianza que no está contenida en la correlación ] .pull-right[ ![](https://multivariada.netlify.app/slides/04-regsimple2/residuals.png) ] --- # Estableciendo la varianza compartida .pull-left[ Para poder obtener los residuos vamos a generar una .red[recta] que represente la asociación entre las variables. Esta es la recta de **regresión** <sup>1</sup> Esta recta nos permite obtener un valor estimado de `\(y\)` para cada valor de `\(x\)` <br> <br> <br> <br> <br> <br> <br> <br> <br> .small[[1] Detalles próximo semestre] ] .pull-right[ ![](08_bivariada2_files/figure-html/unnamed-chunk-15-1.png)<!-- --> ] --- .pull-left[ .small[ ``` r reg1 <- lm(ing ~ educ, data=data) data$predict <-predict.lm(reg1) plot2 <-ggplot(data, aes(x=educ, y=predict)) + geom_point( colour = "red", size = 5) + theme(text = element_text(size = 20))+ stat_smooth(method = "lm", se = FALSE, fullrange = T) ``` ] ] .pull-right[ .small[ ``` r plot2 ``` ![](08_bivariada2_files/figure-html/unnamed-chunk-17-1.png)<!-- --> ] ] --- .center[ ![:scale 90%](https://multivariada.netlify.app/slides/04-regsimple2/resid_3.JPG) ] `\begin{align*} SS_{tot}&=SS_{reg} + SS_{error} \\ \Sigma(y_i - \bar{y})^2&=\Sigma (\hat{y}_i-\bar{y})^2 +\Sigma(y_i-\hat{y}_i)^2 \end{align*}` --- # Varianza compartida `$$SS_{tot}=SS_{reg} + SS_{error}$$` -- `$$\frac{SS_{tot}}{SS_{tot}}=\frac{SS_{reg}}{SS_{tot}} + \frac{SS_{error}}{SS_{tot}}$$` -- `$$1=\frac{SS_{reg}}{SS_{tot}}+\frac{SS_{error}}{SS_{tot}}$$` `$$\frac{SS_{reg}}{SS_{tot}}= 1- \frac{SS_{error}}{SS_{tot}}=R^2$$` --- # ¿Qué relación tienen `\(R^2\)` y `\(r\)` (correlación)? .pull-left[ `\(R^2=r^2\)` Por lo tanto, en nuestro ejemplo: .small[ ``` r cor(data$educ,data$ing) ``` ``` [1] 0.9512367 ``` ] `\begin{align*} r&= 0.95 \\ r^2&=0.95 ^2 \\ r^2&=0.902 = R^2 \end{align*}` ] -- .pull-right[ .content-box-red[ Intepretación: _El porcentaje de varianza compartida entre educación e ingreso es de 90%._ _Es decir, ambas variables comparten el 90% de su varianza_ ]] --- # `\(R^2\)` o coeficiente de determinación - ¿Cuánto de los ingresos se asocia a educación, y viceversa? -- - el `\(R^2\)` - es la proporción de la varianza de Y que se asocia a X - varía entre 0 y 1, y usualmente se expresa en porcentaje --- class: middle center # Tamaños de efecto --- # Criterios de Cohen para tamaños de efecto - El coeficiente de correlación `\(r\)` de Pearson nos indica la dirección y la fuerza/intensidad de la asociación. - Pero, ¿qué nos dice el tamaño del coeficiente? Por ejemplo, si el coeficiente es 0.5, ¿esto es pequeño, mediano o grande? -- - Cohen (1988, 1992) sugiere una serie de criterios convencionales para clasificar efectos como **pequeños, medianos o grandes**. --- class: middle ## Para el caso de correlación de Pearson, Cohen sugiere: - tamaño de efecto .roja[pequeño]: alrededor de .red[0.10] - tamaño de efecto .roja[mediano]: alrededor de .red[0.30] - tamaño de efecto .roja[grande]: alrededor de .red[0.50] y más --- class: inverse # Resumen - **.yellow[Inferencia en correlación**]: contraste con valor crítico t - **.yellow[Coeficiente de determinación**] `\(R^2\)`: varianza compartida entre variables - **.yellow[Tamaño de efecto:**] valores convencionales para establecer si una magnitud es pequeña, mediana o grande. --- class: front .pull-left-wide[ # Estadística Correlacional] .pull-right-narrow[![:scale 85%](img/logo-correlacional-transp.png)] ## Inferencia, asociación y reporte ---- .pull-left[ ## Juan Carlos Castillo ## Sociología FACSO - UChile ## 2do Sem 2024 ## [.orange[correlacional.netlify.app]](https://correlacional.netlify.app) ] <!-- adjust font size in this css code chunk for flipbook, currently 80 -->