R

  • Published on
    25-Nov-2015

  • View
    57

  • Download
    20

Transcript

  • Analisis de Regresion.

    Introduccion Teorica y

    Practica basada en R

    Fernando Tusell

    Bilbao, Octubre 2011

  • Indice general

    Indice general I

    Indice de figuras IV

    Indice de cuadros V

    1 El modelo de regresion lineal. 11.1. Planteamiento del problema. . . . . . . . . . . . . . . . . . . 11.2. Notacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.3. Supuestos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.4. MCO como aproximacion vectorial . . . . . . . . . . . . . . 71.5. Proyecciones. . . . . . . . . . . . . . . . . . . . . . . . . . . 71.6. Lectura recomendada. . . . . . . . . . . . . . . . . . . . . . 9

    2 Estimacion mnimo cuadratica. 152.1. Obtencion de los estimadores de los parametros. . . . . . . . 152.2. Una obtencion alternativa . . . . . . . . . . . . . . . . . . . 172.3. Propiedades del estimador mnimo cuadratico . . . . . . . . 182.4. Estimacion de la varianza de la perturbacion. . . . . . . . . 212.5. El coeficiente R2 . . . . . . . . . . . . . . . . . . . . . . . . 282.6. Algunos lemas sobre proyecciones. . . . . . . . . . . . . . . . 312.7. Lectura recomendada . . . . . . . . . . . . . . . . . . . . . . 36

    3 Identificacion. Colinealidad exacta 433.1. Modelos con matriz de diseno de rango deficiente. . . . . . . 433.2. Funciones estimables. . . . . . . . . . . . . . . . . . . . . . . 453.3. Restricciones de identificacion. . . . . . . . . . . . . . . . . . 463.4. Multicolinealidad exacta y aproximada . . . . . . . . . . . . 493.5. Lectura recomendada. . . . . . . . . . . . . . . . . . . . . . 49

    4 Estimacion con restricciones 50

    i

  • INDICE GENERAL ii

    4.1. Planteamiento del problema. . . . . . . . . . . . . . . . . . . 504.2. Lemas auxiliares. . . . . . . . . . . . . . . . . . . . . . . . . 514.3. Estimacion condicionada. . . . . . . . . . . . . . . . . . . . . 53

    5 Especificacion inadecuada del modelo 605.1. Introduccion. . . . . . . . . . . . . . . . . . . . . . . . . . . 605.2. Inclusion de regresores irrelevantes. . . . . . . . . . . . . . . 605.3. Omision de regresores relevantes. . . . . . . . . . . . . . . . 635.4. Consecuencias de orden practico . . . . . . . . . . . . . . . . 64

    6 Regresion con perturbaciones normales. 656.1. Introduccion. . . . . . . . . . . . . . . . . . . . . . . . . . . 656.2. Contraste de hipotesis lineales. . . . . . . . . . . . . . . . . . 726.3. Intervalos de confianza para la prediccion . . . . . . . . . . . 806.4. Lectura recomendada. . . . . . . . . . . . . . . . . . . . . . 81

    7 Regresion con R 837.1. Tipologa de variables explicativas. . . . . . . . . . . . . . . 837.2. Factores y dataframes. . . . . . . . . . . . . . . . . . . . . . 857.3. Formulas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 907.4. La funcion lm. . . . . . . . . . . . . . . . . . . . . . . . . . . 977.5. Lectura recomendada. . . . . . . . . . . . . . . . . . . . . . 105

    8 Inferencia simultanea. 1068.1. Problemas que plantea el contrastar multiples hipotesis si-

    multaneas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1068.2. Desigualdad de Bonferroni. . . . . . . . . . . . . . . . . . . . 1118.3. Intervalos de confianza basados en la maxima t. . . . . . . . 1128.4. Metodo S de Scheffe. . . . . . . . . . . . . . . . . . . . . . . 1148.5. Empleo de metodos de inferencia simultanea. . . . . . . . . . 119

    9 Multicolinealidad. 1229.1. Introduccion. . . . . . . . . . . . . . . . . . . . . . . . . . . 1229.2. Una aproximacion intuitiva . . . . . . . . . . . . . . . . . . 1239.3. Deteccion de la multicolinealidad aproximada . . . . . . . . 1259.4. Caracterizacion de formas lineales estimables. . . . . . . . . 1279.5. Varianza en la estimacion de una forma lineal. . . . . . . . . 1309.6. Eleccion optima de observaciones. . . . . . . . . . . . . . . . 131

    10 Regresion sesgada. 13610.1. Introduccion. . . . . . . . . . . . . . . . . . . . . . . . . . . 13610.2. Una aproximacion intuitiva. . . . . . . . . . . . . . . . . . . 137

  • INDICE GENERAL iii

    10.3. Regresion ridge. . . . . . . . . . . . . . . . . . . . . . . . . . 13910.4. Regresion en componentes principales. . . . . . . . . . . . . 15010.5. Regresion en races latentes . . . . . . . . . . . . . . . . . . 15810.6. Lectura recomendada . . . . . . . . . . . . . . . . . . . . . . 162

    11 Evaluacion del ajuste. Diagnosticos. 16511.1. Analisis de residuos. . . . . . . . . . . . . . . . . . . . . . . 16511.2. Analisis de influencia. . . . . . . . . . . . . . . . . . . . . . . 17011.3. Analisis grafico de residuos . . . . . . . . . . . . . . . . . . . 174

    12 Seleccion de modelos. 18012.1. Criterios para la comparacion. . . . . . . . . . . . . . . . . . 18012.2. Seleccion de variables. . . . . . . . . . . . . . . . . . . . . . 18912.3. El LASSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20012.4. Modelos bien estructurados jerarquicamente . . . . . . . . . 201

    13 Transformaciones 20413.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . 20413.2. Transformaciones de los regresores . . . . . . . . . . . . . . . 20413.3. Transformaciones de la variable respuesta . . . . . . . . . . . 207

    14 Regresion con respuesta cualitativa 21114.1. El modelo logit. . . . . . . . . . . . . . . . . . . . . . . . . . 211

    A Algunos resultados en Algebra Lineal. 220A.1. Resultados varios sobre Algebra Matricial. . . . . . . . . . . 220A.2. Calculo diferencial con notacion matricial . . . . . . . . . . . 222A.3. Lectura recomendada . . . . . . . . . . . . . . . . . . . . . . 223

    B Algunos prerrequisitos estadsticos. 224B.1. Distribuciones 2 y F descentradas . . . . . . . . . . . . . . 224B.2. Estimacion maximo verosmil . . . . . . . . . . . . . . . . . 225B.3. Contraste razon generalizada de verosimilitudes . . . . . . . 226

    C Regresion en S-Plus y R. 227C.1. El sistema estadstico y grafico S-Plus . . . . . . . . . . . . 227C.2. El sistema estadstico y grafico R . . . . . . . . . . . . . . . 227C.3. Correspondencia de funciones para regresion y ANOVA en

    S-Plus y R . . . . . . . . . . . . . . . . . . . . . . . . . . . 234

    D Procedimientos de calculo. 235D.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . 235

  • D.2. Transformaciones ortogonales. . . . . . . . . . . . . . . . . . 235D.3. Factorizacion QR. . . . . . . . . . . . . . . . . . . . . . . . . 238D.4. Bibliografa . . . . . . . . . . . . . . . . . . . . . . . . . . . 240

    E Enunciados y demostraciones formales 241E.1. Existencia y unicidad de proyecciones. . . . . . . . . . . . . 241E.2. Proyeccion sobre subespacios h = M K(B). . . . . . . . . 244

    Bibliografa 246

    Indice de figuras

    1.1. Old Faithful Geyser: datos de 272 erupciones. . . . . . . . . . . 21.2. El vector PM~y es la proyeccion de ~y sobre M (plano horizontal). 8

    2.1. X es la proyeccion de ~y sobre M . R2 = cos2 . . . . . . . . . 292.2. En un ajuste sin termino constante, la pendiente depende de la

    eleccion arbitraria del origen . . . . . . . . . . . . . . . . . . . . 42

    3.1. Regresion en el caso de matrix X de rango deficiente. . . . . . . 443.2. Caso de un vector ~ parcialmente estimable. . . . . . . . . . . . 45

    9.1. Multicolinealidad exacta (panel superior) y aproximada (panelinferior). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124

    10.1. Componentes del ECM((k)) en el estimador ridge. Las lneas detrazos y puntos representa respectivamente la varianza y (sesgo)2

    de (k) en funcion de k. La curva solida representa ECM [(k)].

    La lnea horizontal es la varianza (y ECM) del estimador MCO.14310.2. Trazas ridge y GVC para los datos longley . . . . . . . . . . . 147

    11.1. Una observacion como a tiene residuo borrado muy grande, ygran influencia en la pendiente de la recta de regresion. . . . . . 171

    11.2. Graficos para contraste de normalidad . . . . . . . . . . . . . . 177

    12.1. Valores de Cp y R2para 141 modelos ajustados a los datos UScrime194

    iv

  • 13.1. Disposicion de residuos sugiriendo una transformacion cuadrati-ca del regresor Xi . . . . . . . . . . . . . . . . . . . . . . . . . . 205

    D.1. Visualizacion de la transformacion de Householder. . . . . . . . 237

    Indice de cuadros

    C.1. Equivalencia de funciones para regresion y ANOVA en S-Plusy R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234

    v

  • Introduccion

    Lo que sigue contiene una introduccion muy concisa al analisis de re-gresion, concebida como apoyo de las clases. Hay varios niveles de lectura:en un primer nivel, las Observaciones que jalonan el texto pueden en sumayora omitirse, sin perdida de continuidad. Ello proporciona una lecturabastante lineal.

    Si se desea una lectura mas detallada, con digresiones que, no siendoimprescindibles, pueden mejorar la comprension del conjunto, conviene leertanto las observaciones como las secciones de Complementos y ejerci-cios al fin de cada captulo: son parte integrante del texto a este segundonivel y completan muchos detalles.

    A lo largo del texto, tanto en demostraciones como en ejercicios o comple-mentos se ha hecho uso abundante del smbolo de giro peligrosomostrado

    en el margen, popularizado por la obra clasica Knuth (1986). Se trata defragmentos que corresponderan a un tercer nivel, con detalles de interes,extensiones de alguna idea, referencias a la literatura o ejercicios y demos-traciones de mayor dificultad. La flecha vertical remite a algun ejercicio,observacion o ejemplo que son requisito previo.

    Hay un mundo de diferencia entre saber como se hacen las cosas y sa-ber hacerlas. Querramos que los alumnos supieran hacerlas. La experienciasugiere que lo que resulta de mas ayuda al lector es ver ejemplos de aplica-cion detallados, que pueda reproducir o modificar para resolver sus propiosproblemas. Intercalados entre la teora hay fragmentos en R, que el lectorpuede ejecutar o tomar como modelo. Todos se han ejecutado con R version2.13.2.

    No se ha buscado el codigo mas terso ni la forma mas rapida o elegantede hacer las cosas, sino la que ilustra mejor la teora.

    vi

  • Captulo 1

    El modelo de regresion lineal.

    1.1. Planteamiento del problema.

    Son frecuentes en la practica situaciones en las que se cuenta con obser-vaciones de diversas variables, y es razonable pensar en una relacion entreellas. El poder determinar si existe esta relacion y, en su caso, una formafuncional para la misma es de sumo interes. Por una parte, ello permiti-ra, conocidos los valores de algunas variables, efectuar predicciones sobrelos valores previsibles de otra. Podramos tambien responder con criterioestadstico a cuestiones acerca de la relacion de una variable sobre otra.

    Ejemplo 1.1 La Figura 1.1 (pag. 2), muestra una grafica reco-giendo datos correspondientes a 272 erupciones del geyser Old Faith-full, en el Parque Nacional de Yellowstone (los datos proceden deCook and Weisberg (1982)). En abscisas se representa la duracionde las erupciones. En ordenadas, el intervalo de tiempo transcurridohasta la siguiente erupcion.

    A la vista del grafico, parece evidente que existe una relacion en-tre ambas variables erupciones de duracion D corta son seguidasde otras tras un intervalo de tiempo I mas reducido que en el casode erupciones largas. Podra interesarnos contrastar con criterioestadstico si tal relacion existe (en el caso presente, la relacion estan ntida que el plantearse el contraste de hipotesis correspondienteno tendra demasiado sentido). Mas interesante, en el caso presente,sera llegar a una expresion del tipo I = f(D) relacionando el inter-valo con la duracion (ello nos permitira anticipar en que momentose presentara la siguiente erupcion, conocida la duracion D que seha observado en la anterior).

    Es claro que la relacion I = f(D) no puede ser exacta es difcilpensar en una funcion que pase precisamente por cada uno de los 272

    1

  • CAPITULO 1. EL MODELO DE REGRESION LINEAL. 2

    Figura 1.1: Old Faithful Geyser: datos de 272 erupciones.

    50 60 70 80 90

    1.5

    2.0

    2.5

    3.0

    3.5

    4.0

    4.5

    5.0

    Duracin en minutos (D)

    Inte

    rvalo

    en

    min

    uto

    s (I)

    puntos en la Figura 1.1. Habremos de considerar mas bien funcio-nes del tipo I = f(D) + , en que el valor de I es una cierta funcion(desconocida) de D mas una cantidad aleatoria inobservable . Deci-mos que f(D) es una funcion de regresion de I sobre D, y nuestroobjetivo es especificar su forma. Habitualmente realizamos para ellosupuestos simplificadores, como el de que f(D) es una funcion lineal.

    Fin del ejemplo

    Es de interes senalar que el ajuste de un modelo de regresion no se limitaa analizar la relacion entre dos variables; en general, buscaremos relacionesdel tipo

    Y = f(X0, X1, . . . , Xp1) + ,

    relacionando de manera aproximada los valores de Y con los que tomanotras variables, X0, . . . , Xp1. Por simplicidad, limitaremos por el momento

  • CAPITULO 1. EL MODELO DE REGRESION LINEAL. 3

    nuestra atencion a funciones f(X0, . . . , Xp1) lineales; el modelo resultantees el modelo de regresion lineal, que se examina en la Seccion 1.2 a conti-nuacion.

    Senalemos, finalmente, que el hecho de aislar una variable Y al lado iz-quierdo y escribirla como funcion de otras mas una perturbacion aleatoria no prejuzga ninguna relacion de causalidad en ningun sentido; solo postula-mos la existencia de una relacion cuya forma y alcance queremos investigar.En el Ejemplo 1.1, el ajuste de un modelo del tipo I = f(D)+ no implicaque consideremos que la duracion D causa el subsiguiente intervalo I hastala proxima erupcion, sino solo que parece existir una relacion entre ambasvariables.

    1.2. Notacion

    Consideramos una variable aleatoria Y (regresando, respuesta, o varia-ble endogena) de la que suponemos que se genera as:

    Y = 0X0 + 1X1 + + p1Xp1 + , (1.1)

    siendo:

    1. 0, . . . , p1, parametros fijos desconocidos.

    2. X0, . . . , Xp1, variables explicativas no estocasticas, regresores, cuyosvalores son fijados por el experimentador. Frecuentemente X0 toma elvalor constante uno.

    3. una variable aleatoria inobservable.

    La ecuacion (1.1) indica que la variable aleatoria Y se genera comocombinacion lineal de las variables explicativas, salvo en una perturbacionaleatoria . En el Ejemplo 1.1, Y sera la variable I, y el unico regresorsera la variable D. Si decidimos ajustar un modelo con termino constante0, tendramos como regresores D y X0 =uno. La funcion que aparece en(1.1) sera entonces f(D) = 0 + 1D.

    El problema que abordamos es el de estimar los parametros desconoci-dos 0, . . . , p1. Para ello contamos con una muestra de N observacionesde la variable aleatoria Y , y de los correspondientes valores de las varia-bles explicativas X. Como se ha dicho, es inobservable. La muestra nos

  • CAPITULO 1. EL MODELO DE REGRESION LINEAL. 4

    permitira escribir N igualdades similares a (1.1):

    y1 = 0x1,0 + 1x1,1 + + p1x1,p1 + 1y2 = 0x2,0 + 1x2,1 + + p1x2,p1 + 2

    ...

    yN = 0xN,0 + 1xN,1 + + p1xN,p1 + N .

    En forma matricial, escribiremos dichas N igualdades as:

    ~y = X~ + ~ , (1.2)

    siendo:

    ~y el vector N 1 de observaciones de la variable aleatoria Y,X la matriz Np de valores de las variables explicativas. Su elementoxij denota el valor que la jesima variable explicativa toma en la iesima ob...

Recommended

View more >