4. Distribuciones de Probabilidad

  • Published on
    14-Feb-2016

  • View
    65

  • Download
    1

DESCRIPTION

4. Distribuciones de Probabilidad. Probabilidad : Con una muestra aleatoria o experimento aleatorio , la probabilidad que una observacin tome un valor en particular es la proporcin de veces que el resultado ocurrira en una secuencia muy larga de observaciones . - PowerPoint PPT Presentation

Transcript

4. Distribuciones de Probabilidad

4. Distribuciones de ProbabilidadProbabilidad: Con una muestra aleatoria o experimento aleatorio, la probabilidad que una observacin tome un valor en particular es la proporcin de veces que el resultado ocurrira en una secuencia muy larga de observaciones. Generalmente corresponde a la proporcin poblacional (y por lo tanto, cae entre 0 y 1) ya sea para una poblacin real o conceptual.

Reglas bsicas de probabilidadSean A, B posibles resultadosP(no A) = 1 P(A)Para A y B, posibles resultados distintos P(A o B) = P(A) + P(B)P(A y B) = P(A)P(B dado A)Para resultados independientes P(B dado A) = P(B), entonces P(A y B) = P(A)P(B)

Datos de GSS 2006 Happiness Income Very Pretty Not too Total --------------------- Above Aver. 272 294 49 615 Average 454 835 131 1420 Below Aver. 185 527 208 920 --------------------- Total 911 1656 388 2955Sea A = average income, B = very happyP(A) estimada por 1420/2955 = 0.481 (probabilidad marginal), P(no A) = 1 P(A) = 0.519P(B dado A) estimada por 454/1420 = 0.320 (probabilidad condicional )P(A y B) = P(A)P(B dado A) estimada por 0.481(0.320) = 0.154(igual a 454/2955, probabilidad conjunta)B1: una persona selec. aleatoriamente es very happyB2: segunda persona selec. aleatoriamente es very happyP(B1), P(B2) estimada por 911/2955 = 0.308P(B1 y B2) = P(B1)P(B2) estimada por(0.308)(0.308) = 0.095Si, por otro lado, B2 se refiere a la pareja de la persona B1, B1 y B2 probablemente no son independientes y esta frmula no es apropiada

Distribucin de probabilidad de una variableLista de los posibles resultados de una variable aleatoria y sus probabilidadesVariable discreta: asigna probabilidades P(y) a valores individuales y, con

EjemploSelecciona una muestra aleatoria de 3 personas y pregunta si estn a favor (F) o en contra (C) de un sistema de salud pblicoy = nmero a favor (0, 1, 2, 3)Para posibles muestras de tamao n = 3,

Muestra y Muestra y(C, C, C) 0 (C, F, F) 2(C, C, F) 1 (F, C, F) 2(C, F, C) 1 (F, F, C) 2(F, C, C) 1 (F, F, F) 3

Si la poblacin est igualmente dividida entre F y C, estas ocho muestras son igualmente posibles y la distribucin de probabilidad de la variable aleatoria y (el nmero a favor) es y P(y) 0 1/8 1 3/8 2 3/8 3 1/8(Caso especial de la distribucin binomial, en Cap. 6)En la prctica, las distribuciones de probabilidad son estimadas de datos muestrales y entonces tienen una forma de distribuciones de frecuencias

Datos GSSEjemplo: y = nmero de personas que conocen a alguien que se haya suicidado en los ltimos 12 meses (variable suiknew).Distribucin de probabilidad estimada es y P(y) 0 .895 1 .084 2 .015 3 .006

Media (valor esperado)Como las distribuciones de frecuencias, distribuciones de probabilidad tienen medidas descriptivas tales como media y desviacin estndarMedia (valor esperado)

= 0(0.895) + 1(0.084) + 2(0.015) + 3 (0.006) = 0.13 representa un resultado promedio de una secuencia larga(media = moda = 0)

Desviacin estndarDesviacin estndar medida de una distancia tpica de un resultado de la media, denotada por

(No vamos a necesitar calcular esta frmula)Si una distribucin tiene aprox. forma de campana, entonces:Toda o casi toda la distribucin cae dentro del intervalo - 3 y + 3Probabilidad del 0.68 cae dentro de - y +

EjemploDe un resultado ms adelante en el captulo, si n personas son seleccionadas aleatoriamente de una poblacin con proporcin que favorece sistema de salud pblico (1- , se oponen), entoncesy = nmero de personas en la muestra que est a favor, tiene una distribucin de probabilidad con forma de campana con

p. ej., con n = 1000, = 0.50, obtenemos = 500, = 16Casi toda la distribucin cae entre 500 3(16) = 452 y 500 + 3(16) = 548Es decir, casi seguro entre 45% y 55% de la muestra dir estar a favor de un sistema de salud pblica

Variables continuasVariables continuas: probabilidades asignadas a intervalos de nmerosEjemplo: Cuano y toma muchos valores, como en el ltimo ejemplo, se considera continua para trminos prcticos. Entonces, si la distribucin de probabilidad tiene aprox. forma de campana,

La distribucin de probabilidad ms importante para variables continuas es la distribucin normal

Distribucin normalEs simtrica y con forma de campana (frmula en Ejercicio 4.56)Se caracteriza por la media (m) y desviacin estndar (s), representando el centro y la dispersinLa probabilidad dentro de un nmero particular de desviaciones estndar de la media m es la misma para todas las distribuciones normalesUna observacin individual de una distribucin aprox. normal tiene probabilidad0.68 de caer a 1 desviacin estndar de la media0.95 de caer a 2 desviaciones estndar0.997 de caer a 3 desviaciones estndar

Tabla ATabla A da la probabilidad en la cola derecha arriba de + z para varios valores de z. Segundo decimal del valor de zz .00 .01 .02 .03 .04 .05 .06 .07 .08 .09 0.0 .5000 .4960 .4920 .4880 .4840 .4801 .4761 .4721 .4681 .4641 1.4 .0808 .0793 .0778 .0764 .0749 .0735 .0722 .0708 .0694 .0681 1.5 .0668 .0655 .0643 .0630 .0618 .0606 .0594 .0582 .0571 .0559 ......

Ejemplo: Cul es la probabilidad de caer entre - 1.50 y + 1.50 ?z = 1.50 tiene una prob. a la derecha = 0.0668La prob. de la cola izq. = 0.0668 por simetraLa prob. se las dos colas = 2(0.0668) = 0.1336Prob. entre - 1.50 y + 1.50 = 1 0.1336 = 0.87Ejemplo: z = 2.0 da Prob. de las dos colas = 2(0.0228) = 0.046 Probabilidad entre 2 es 1 - 0.046 = 0.954Ejemplo: Qu valor-z corresponde al percentil-99? Es decir, qu valor-z resulta en + z = percentil-99?Probabilidad de la cola derecha = 0.01 tiene z = 2.3399% cae abajo de + 2.33 Ejemplo: Si el coeficiente intelectual (IQ) tiene = 100, = 16, entonces percentil-99% + 2.33 = 100 + 2.33(16) = 137Nota: - 2.33 = 100 2.33(16) = 63 es el percentil-1% 0.98 = probabilidad que IQ caiga entre 63 y 137

EjemploQu valor de z hace que el intervalo z incluya exactamente el 95% de la curva normal?Probabilidad total en las dos colas = 0.05Probabilidad en la cola derecha = 0.05/2 = 0.025z = 1.96 1.96 contiene probabilidad 0.950 ( 2 contiene probabilidad 0.954)Ejercicio: Intenta para 99%, 90% (debes obtener 2.58, 1.64)

EjemploMinessota Multiphasic Personality Inventory (MMPI), basado en respuestas de 500 preguntas de verdadero/falso, provee calif. para varias escalas (p.ej., depresin, ansiedad, abuso de sustancias), con = 50, = 10.Si la distribucin es normal y una calificacin 65 es considerada muy alta, qu porcentaje es ste?z = (65 - 50)/10 = 1.50Prob. de la cola derecha = 0.067 (menos que 7%)Notas de valores-zValor-z representa el nmero de desviaciones estndar que un valor est de la media de la distribucinUn valor y est z = (y - )/ desviaciones estndar de Ejemplo: y = 65, = 50, = 10 z = (y - )/ = (65 50)/10 = 1.5El valor-z es negativo cuando y est por debajo de (p.ej., y = 35 tiene z = -1.5)

Distribucin normalLa distribucin normal estndar es una distribucin normal con = 0 y = 1Por la distribucin, z = (y - )/ = (y - 0)/1 = yEs decir, valor original = valor-z; + z = 0 + z(1) = z (usamos la normal estndar para inferencia estadstca empezando en Cap. 6, donde ciertas estadsticas son convertidas para tener una distribucin normal estndar)Por qu es la distribucin normal importante?Hoy aprenderemos que si estudios diferentes toman muestras aleatorias y calculan estadsticas (p.ej., media muestral) para estimar un parmetro (p.ej., media poblacional), la coleccin de los valores de las estadsticas de estos estudios usualmente tienen aprox. una distribucin normal. (Y?)

Distribucin muestralUna distribucin muestral lista los posibles valores de la estadstica (p.ej., media muestral y proporcin muestral) y sus probabilidadesEjemplo: y = 1 si a favor del sistema pblico de salud y = 0 si se oponePara posibles muestras de tamao n = 3, considera la media muestralMuestra Media Muestra Media(1, 1, 1) 1.0 (1, 0, 0 ) 1/3(1, 1, 0) 2/3 (0, 1, 0) 1/3(1, 0, 1) 2/3 (0, 0, 1) 1/3(0, 1, 1) 2/3 (0, 0, 0) 0

Para datos binarios (0, 1), media muestral es igual a proporcin muestral de casos 1. Para la poblacin

es la proporcin poblacional de casos 1(p.ej., a favor del sistema de salud pblica)Qu tan cerca est la media muestral de la media poblacional ?Para responder esto, debemos poder responder, Cul es la distribucin de probabilidad de la media muestral?

Distribucin muestralDistribucin muestral de una estadstica es la distibucin de probabilidad para los posibles valores de la estadsticaEjemplo. Asume P(0) = P(1) = . Para una variable aleatoria de tamao n = 3, cada uno de las 8 possible muestras son igualmente probables. La distribucin muestral de la proporcin muestral esProporcin muestral Probabilidad 0 1/8 1/3 3/8 2/3 3/8 1 1/8 (Intenta para n = 4)Distribucin muestral de la media muestral es una variable, sus valores varian de muestra a muestra alrededor de la media poblacional La desviacin estndar de la distribucin muestral de se llama error estndar de Para el muetreo aleatorio, la distribucin muestral de tiene una media y error estndar

EjemploPara datos binarios (y =1 0) con P(Y=1) = (con 0 < < 1), se puede mostrar que (Ej. 4.55b, y caso especial de la frmula anterior en p.11 de estas notas con n = 1)Cuando = 0.50, = 0.50, y el error estndar es

n error estndar .289100 .050200 .0351000 .016Nota el error estndar decrece a medida que n crece (es decir, tiende a caer ms cerca de )Con n = 1000, error estndar = 0.016, as que si la distribucin muestral tiene forma de campana, con una alta probabilidad, la proporcin cae a 3(0.016) = 0.05 de la proporcin poblacional de 0.50 (es decir, entre 0.45 and 0.55)Ejemplo: Nmero de veces y = 1 (es decir, nmero de personas a favor) es 1000(proporcin), as que la variable que cuenta el nmero de personas tiene media = 1000(0.50) = 500 y desv. est. 1000(0.016) = 16 (como en un ejemplo anterior en p. 11)

Consecuencia prctica: Este captulo presenta resultados tericos acerca de la dispersin (y forma) de las distribuciones muestrales, pero esto implica cmo, en la prctica, los diferentes estudios en el mismo tema pueden variar de estudio a estudio (y, por lo tanto, qu tan preciso cada estudio tiende a ser)Ejemplo: T planeas una muestra de 200 personas para estimar la proporcin poblacional que est a favor de un sistema de salud pblico. Otros pueden estar haciendo lo mismo. Cmo variarn los resultados entre los estudios (y qu tan precisos son sus resultados)?La distribucin muestral de la proporcin muestral a favor del sistema de salud pblico tiene un error estndar que describe la variabilidad de estudio a estudio.

EjemploMuchos estudiantes toman una muestra de n = 200 para estimar proporcin poblacionalLanzar una moneda 200 veces simula el proceso cuando la proporcin poblacional = 0.50.En teora, hemos visto que la proporcin muestral vara de estudio a estudio (es decir, de estudiante a estudiante) alrededor de 0.50 con un error estndar de 0.035Evidencia emprica: Tom los datos que ustedes generaron y calcul que el conjunto de todas las proporciones muestrales (0.515 = 103/200, 0.470 = 94/200, etc.) tiene una media de 0.488 y una desviacin estndar de 0.028. (OK, hice trampa y borr un outlier de 0.67)Forma? Parecida a forma de campana. Por qu?Teorema Central del LmiteTeorema Central del Lmite: Para muestreo aleatorio con n grande, la distribucin muestral de la media muestral tiene aprox. una distribucin normalEs aprox. normal sin importar la forma de la distribucin poblacionalQu tan grande debe de ser n depende de qu tan asimtrica sea la distribucin poblacional, pero usualmente n 30 es suficientePuede verificarse empricamente, haciendo simulaciones con el applet de sampling distribution en www.prenhall.com/agresti

EjemploMuestra aleatoria de 100 estudiantes seleccionados para estimar la proporcin que han participado en actividad A. Encuentra la probabilidad de la proporcin muestral caiga entre 0.04 de la proporcin poblacional, si la proporcin poblacional = 0.30 (es decir, entre 0.26 y 0.34)y = 1, s y = 0, no = = 0.30 Por el TCL, distribucin muestral de la media muestral (la proporcin de s) es aprox. normal conmedia = 0.30,error estndar =

0.26 tiene valor-z = (0.26 - 0.30)/0.0458 = -0.870.34 tiene valor-z = (0.34 - 0.30)/0.0458 = 0.87P(media muestral 0.34) = 0.19P(media muestral 0.26) = 0.19P(0.26 media muestral 0.34) = 1 2(0.19) = 0.62La probabilidad es 0.62 que la proporcin muestral caiga a 0.04 de la proporcin poblacional

EjemploLanzamiento de monedas, n = 200 por estudianteSi la probabilidad de guila = 0.50, entonces la proporcin muestral de guilas en 200 lanzamientos vara de estudiante a estudiante de acuerdo a una distribucin normal con media = 0.50, y error estndar 0.035 (cmo?)Sera inusual que la proporcin de guilas estuviera por debajo de 0.40 o por arriba de 0.60 (por qu?)Cmo cambiara el intervalo de valores factibles (0.40, 0.60) a medida que n crece? (p.ej., n = 1000 en una encuesta)

No se dejen engaar por aleatoriedadHemos visto que algunas cosas son muy predecibles (es decir, qu tan cerca la media muestral cae de la media poblacional, para una n determinada)Pero, en el corto plazo, aleatoriedad no es regular como uno esperara (Por lo general, yo puede predecir quin falsific los lanzamientos de monedasEn 200 lanzamientos de una moneda balanceada,P(la secuencia ms larga de Caras consecutivas < 5) = 0.04La distribucin de probabilidad de Caras consecutivas tiene = 7Implicaciones: deportes (ganar/perder, xito/fracaso individual), mercado de acciones sube o baja da con da, Algunos comentariosConsecuencia del TCL: Cuando el valor de una variable es resultado de promediar muchas influencias individuales, ninguna domina, la distribucin es aprox. normal (p.ej., coef. intelectual, presin arterial)En la prctica, no conocemos , pero podemos usar la dispersin de la distribucin muestral como base para la inferencia de parmetros desconocimos(veremos cmo en los prximos dos captulos)Ahora podemos discutir tres tip...