Distribuciones de probabilidad (2015)

  • Published on
    28-Jan-2017

  • View
    215

  • Download
    1

Transcript

Anlisis Estadstico de Datos ClimticosDistribuciones paramtricas de probabilidad(Wilks, cap. 4)2015Variables aleatorias (discretas y continuas)Una variable aleatoria es aquella que toma un conjunto devalores numricos asociados a los resultados de larealizacin de un proceso aleatorio.Ejemplos: 1) si el experimento es lanzar cuatro veces una moneda al aire y nos interesa el nmero de caras, la variable aleatoria podr tomar los valores: 0, 1, 2, 3 y 4.Es una variable aleatoria discreta (toma un nmero finito de valores particulares, que suelen ser resultado de un conteo). Variables aleatorias2) otra variable aleatoria: el nmero de das N que hay que esperar para que en una cierta localidad la precipitacin diaria supere los 20 mm. N puede tomar los valores 1, 2, 3,...En principio N no est acotado (puede tomar los infinitos valores de los nmeros naturales) . Por ser un conjunto numerable, es una variable discreta3) la variable aleatoria es la medida de la temperatura mnima diaria en una cierta localidad. En principio puede tomar un conjunto infinito de valores, pero no numerables. Es una variable aleatoria continua. (Habitualmente stas son el resultado de mediciones.)Distribuciones paramtricas de probabilidadUna distribucin paramtrica de probabilidad es unafuncin matemtica (que depende de uno o msparmetros) que permite asignar probabilidades a losvalores, o intervalos de valores, que puede tomar unavariable aleatoria.Se usan muy ampliamente como alternativa a lasdistribuciones empricas, que se construyen a partir deuna muestra de datos.Las razones para usar distribuciones paramtricas son:mayor facilidad de manejo que con los datosoriginalesposibilidad de suavizar e interpolar posibilidad de extrapolar Una distribucin particular puede representar mejor o peor a un conjunto de datos (que son los valores que toma la variable aleatoria). Existen dos tipos de distribuciones de probabilidad, discretas y continuas, segn lo sea la variable aleatoria asociada.Distribuciones DiscretasPor ejemplo, si se considera la variable aleatoria X = nmero de caras en dos lanzamientos de una moneda no cargada;X 0 1 2P(X=x) 0.25 0.50 0.25 Hay varios tipos de distribuciones discretas de probabilidad, tales como: binomial,geomtrica, binomial negativa,Poisson, y otras.Distribucin BinomialFue desarrollada por Jakob Bernoulli (Suiza, 1654-1705); es la principal distribucin de probabilidad discreta.Proviene de experimentos que solo tienen dos posibles resultados, a los que se les puede llamar xito o fracaso. Los experimentos suelen llamarse ensayos o pruebas de Bernoulli.Los datos son resultado de un conteo, por lo que es una distribucin discreta.La distribucin binomial consiste en la realizacin reiterada de varias pruebas y se hacen 2 suposiciones: 1) en cada una la probabilidad de xito es la misma (p), y2) las pruebas son independientes entre s.son las combinaciones de n en k ( n elementos tomados de k en k)Para construir una distribucin binomial es necesarioconocer 2 parmetros: el nmero n de pruebas que se repiteny la probabilidad p de que suceda un xito en cada una deellas.Su funcin de densidad de probabilidad est dada por:con k = 0, 1, , n n es el nmero de pruebask es el nmero de xitosp es la probabilidad de obtener un xito1- p es la probabilidad de obtener un fracasoDistribucin binomialDistribucin Binomial (Ejemplo)La distribucin binomial se puede usar para calcular la probabilidad de tener exactamente 10 das despejados (sin nubes) en un conjunto aleatorio de 30 das. (P (X = 10)).Es lo mismo que calcular la probabilidad de tener 20 das nublados o algo nubosos. Definimos la variable "X: Nmero de das despejados obtenidos en 30 das". En este caso se tiene que x = 10 y n = 30 y suponiendo adems que p = 0.5, (o sea que suponemos en forma arbitraria que es igualmente probable tener un da despejado que nublado o algo nuboso), resulta:f(10;30,0.5)= (30 10) 0.510(1-0.5) 30-10= 0.028La media de la distribucin binomial es np y su varianza es np (1-p)En este ejemplo: = 30 * 0.5 = 15 2 = 15 *(1-0.5)= 7.5Matlab: binopdf.mbinopdf(x,n,p)binopdf(10,30,0.5) = 0.028% para graficar:x=[0:30];bar(x,binopdf(x,30,0.5)), gridsum(binopdf(x,30,0.5)) cunto da?La probabilidad de tener como mximo 10 das despejados, o seaP(XSi hubiera sido p = 0.3binopdf(10,30,0.3) = 0.142x=[0:30];bar(x,binopdf(x,30,0.3)), gridLa probabilidad de tener como mximo 10 das despejados esP(XDistribucin geomtrica Como en la binomial, hay ensayos repetidos independientes entre s, con 2 resultados posibles. La probabilidad de xito es la misma (p) en todos los ensayos. Pero ahora la variable aleatoria X es el nmero de ensayos que hay que realizar hasta que ocurra un xito.k = 1,2,.El parmetro de esta distribucin es p.Matlab: geopdf (k , p) Un ejemplo es la probabilidad de esperar x aos hasta que una variable meteorolgica supere un cierto valor umbral. Dependiendo del caso, la distribucin geomtrica podr o no ajustarla adecuadamente. Distribucin binomial negativa Es similar a la geomtrica, y con las mismas hiptesis, pero ahora X es el nmero de fracasos que deben ocurrir antes que se observe el r-simo xito. Tiene 2 parmetros, p y r. Se tiene que:X+r es el tiempo que hay que esperar para que ocurran r xitos.Matlab: nbinpdf (k, r, p)k= 0, 1, 2,Distribucin de PoissonDescribe el nmero de eventos discretos independientes queocurren en una serie o secuencia (en general en el tiempo, peropuede ser en el espacio).Se supone que hay independencia en la ocurrencia de eventos enintervalos disjuntos. Los eventos ocurren aleatoriamente, perocon un valor medio constante de ocurrencia.Tiene un solo parmetro, , que representa la ocurrencia mediade eventos.Matlab: poisspdf (x, lambda)x = 0, 1, 2,Ej: (Wilks, Sec 4.2.4):Nmero de tornados por ao en el estado de Nueva York (1959-1988) ~ 138/30 = 4.6Ajustar la distribucin de Poisson a estos datos proporciona una formarazonable de suavizar variaciones irregulares del histograma de datos, lo cuales deseable si las mismas no tienen un significado fsico claro.Distribuciones ContinuasLas distribuciones de probabilidad continuas son aquellas en las que la variable aleatoria es continua, o sea que puede asumir un nmero virtualmente infinito y no numerable de valores, que suelen ser resultado de una medicin. Por ejemplo, el valor de la temperatura media del aire en intervalos dados de tiempo. Los valores de las variables aleatorias continuas dependen de la exactitud del instrumento de medicin.Algunas distribuciones continuas:Normal o gausiana, Log-normalGammat de Student-cuadrado, y otras. .Funcin de densidad (o PDF) f(x) de una distribucin de probabilidad continuaxdu f( u))x( X Pbadx f( x) ) b X a P( 1du f( u) Funcin de distribucinacumulada (o CDF)P(X=c) =0El valor esperado ( o valor medio, o media) de la distribucin es: ( si existe )y la varianza es:( si existe )La mediana es un valor m tal que P(X=m)= 0.5Siempre existe, pero puede no ser nicaDistribucin gaussiana o normalLa distribucin normal fue reconocida por primera vez por el francsAbraham de Moivre (1667-1754) y posteriormente, Carl Friedrich Gauss(1777-1855) formul la ecuacin de la curva; de ah que tambin se laconozca, ms comnmente, como la "campana de Gauss".La distribucin de una variable normal est completamentedeterminada por dos parmetros, su media y su desviacinestndar. La funcin de densidad de la curva normal estdefinida por la siguiente ecuacin:Donde: es el valor medio es la desviacin estndar ( > 0)Es la distribucin continua de probabilidad ms importante de toda la estadstica. Como vimos anteriormente, una variable aleatoria continua es la que puede asumir un nmero infinito de posibles valores que, usualmente resultan de medir alguna magnitud (medidas de longitud, de peso, de tiempo, de temperatura, etc.).Caractersticas de la distribucin de probabilidad normal1. La curva normal tiene forma de campana. La media, la moda y la mediana de la distribucin son iguales y se localizan en el centro de la distribucin. 2. La distribucin de probabilidad normal es simtrica alrededor de su media. Por lo tanto, la mitad del rea bajo la curva est antes del punto central y la otra mitad despus. El rea total bajo la curva es igual a 1. 3. La curva normal tiende a 0 conforme se aleja de la media en ambas direcciones. La familia de la distribucin de probabilidad normalLa forma de la campana de Gauss depende de los parmetros y . Se suele designar como N(, 2)La media indica la posicin de la campana, de modo que para diferentes valores de la grfica es desplazada a lo largo del eje horizontal. La desviacin estndar determina el grado de achatamiento de la curva. Cuanto mayor sea el valor de , ms se dispersarn los datos en torno a la media y la curva ser ms plana. Un valor pequeo de este parmetro indica, por tanto, una gran probabilidad de obtener datos cercanos al valor medio de la distribucin.Distribucin normal (cont.)Probabilidades en un entorno de la media: en el intervalo [ - , + ] se encuentra comprendido, aproximadamente, el 68,26% de la distribucin; en el intervalo [ - 2, + 2] se encuentra, el 95,44% de la distribucin; en el intervalo [ -3, + 3] se encuentra el 99,74% de la distribucin. El hecho de que prcticamente la totalidad de la distribucin se encuentrea tres desviaciones tpicas de la media justifica los lmites de las tablasempleadas habitualmente en la normal estndar.Distribucin normal estndarEs la que tiene media igual a cero y desviacin estndar igual a uno, y se designa como N(0,1). Los valores para la funcin acumulada de la N(0,1) estn tabulados, y los valores correspondientes para cualquier otra N(, 2), se pueden obtener mediante transformaciones matemticas sencillas: para estandarizar la N(, 2), se utiliza el cambio de variable: z =(x ) / (x es de la N(, 2) y z es de la N(0,1)), y as se puede utilizar la tabla de la N(0,1). Y a la inversa: x = z + , para pasar de la N(0,1) a la N(, 2)Matlab: normcdf(X,mu,sigma), normpdf(X,mu,sigma) Para N(, 2) se tiene que: 50 % de las observaciones estn en el intervalo ( 0,68 )95 % estn en el intervalo ( 1,96 )99 % estn en el intervalo ( 2,58 )99,9 % estn en el intervalo ( 3,29 )Distribucin normal o gaussiana (Ejemplo)En la tabla de la N(0,1) para un valor de z = 0,75, tenemos que la probabilidad de obtener un valor inferior a z ser 0,77. O bien: normcdf(26, 25.4, 0.8) = 0.7734Luego, en estas hiptesis, se espera que el 77 % de los aos la temperatura en enero en Artigas ser inferior a 26 C1971 24.2 1986 26.51972 24.8 1987 25.21973 25.0 1988 24.91974 25.2 1989 27.01975 24.7 1990 26.11976 25.3 1991 24.61977 24.9 1992 24.71978 24.9 1993 25.71979 26.1 1994 25.21980 25.8 1995 26.01981 24.8 1996 25.61982 24.6 1997 27.21983 26.1 1998 24.01984 25.6 1999 25.81985 26.0 2000 26.7Dados los datos de temperaturas medias ( C) para el mes de Enero de la estacin de Artigas para 1971-2000, se pide estimar la probabilidad de que la temperatura media del mes de Enero sea inferior a 26 C, suponiendo que la distribucin de las temperaturas se puede aproximar razonablemente por una N(,2); Comenzamos estimando ambos parmetros ( y )Media muestral = 25,4 C Desviacin tpica muestral = 0.8 C Para la temperatura de 26 C, el valor de la variable estandarizadada ser : ([26-25,4]/0.80) = 0,75.Normal o gausiana Distribuciones sesgadas positivamenteLa distribuciones estadsticas de varias variables atmosfricas suelen ser asimtricas, y con sesgo positivo. Es muy comn que el sesgo ocurra cuando existe un lmite fsico sobre la izquierda que est relativamente cerca del rango de datos. Los ejemplos mas comunes son la precipitacin, la velocidad del viento, la humedad relativa, los cuales esta fsicamente restringidos a ser no-negativos. A pesar de que matemticamente es posible ajustar una distribucin gausiana en dichas situaciones, los resultados no son tiles.A veces se realizan transformaciones de los datos para obtener una distribucin simtrica. Tambin es posible intentar utilizar otras distribuciones para representar los datos.Distribucin LognormalSi X es una variable aleatoria que toma valores positivos, tal que la variable y=ln(x) es N(y, y2), se dice entonces que X tiene distribucin lognormal. La densidad para la variable original x es:La variable es gaussiana estndar (media 0 y varianza 1).Una de las transformaciones que se suele usar para obtener una distribucin ms simtrica (en el caso de datos positivos y sesgo positivo), es:y = ln(x).(No necesariamente es siempre la mejor transformacin, pero se usa muy habitualmente (ver Wilks, p. 43-47)).con media, desviacin estndar y mediana:m = exp (y )Distribucin GammaUna eleccin comn usada para representar en particular datos deprecipitacin, es la distribucin gamma, que esta definida por la funcin dedensidad (PDF):Para < 1 la distribucin esta fuertemente sesgada a la derecha, con f(x) si x0. Para = 1 la funcin corta el eje vertical en 1/ para x = 0 (Este caso especial de la distribucin gamma es llamada la distribucin exponencial). Para >1 la distribucin gamma comienza en el origen, f(0)=0.Progresivamente mayores valores de resultan en menos sesgo, y un desplazamiento de la probabilidad de densidad a la derecha. Para valores de muy grandes (p.ej., mayores que 50 a 100), la distribucin gamma se aproxima a la distribucin normal en su forma. El parmetro es siempre adimensional.El rol del parmetro de escala es alargar o estrechar la funcin gamma a la derecha o a la izquierda. es el parmetro de forma; el parmetrode escalasiendoDistribucin chi-cuadrado (2)Es un caso particular de la dist. gamma: = 2 y = /2, siendo un nmero natural. La PDF de la 2 es: La distribucin chi-cuadrado surge en forma independiente de la gamma, como la distribucin de la suma de los cuadrados de variables aleatorias independientes gaussianas estndar, y es muy utilizada en pruebas de hiptesis. es el nmero de grados de libertad de la distribucin 2.E(2) = Var(2) = 2 Aplicacin del teorema del lmite central Teorema del lmite central (una versin): si se tiene una serie infinitade variables aleatorias, independientes e idnticamente distribuidas(iid), con media y varianza finitas ( y 2), entonces la variablealeatoria igual al promedio (o la suma) de n de ellas es asintticamentegausiana, aunque la distribucin original no lo fuera. Se aplica a variables climticas (temperatura, precipitacin, etc). Lacantidad de casos necesarios para que se note esa tendencia dependede la variable climtica. (Ver Wilks, p. 88. )Precip abril Artigas 1951-2002 Precip acumulada anual Artigas 1951-2002Distribuciones de algunas variables climatolgicasDependiendo de la localizacion geogrfica, se puede decir, como orientacin general, que: La temperatura media horaria suele tener una distribucin normal en climas tropicales y una distribucin algo mas asimtrica en latitudes medias. Las temperaturas medias diarias muestran una distribucin casi normal. En cambio las temperaturas mximas diarias presentan una distribucin asimtrica positiva principalmente en verano. Por el contrario las temperaturas mnimas diarias presentan un distribucin asimtrica negativa sobre todo en invierno. La humedad atmosfrica puede estar representado por varios ndices (p. ej. humedad relativa), ninguno de los cuales se comporta como normal. La precipitacin diaria no tiene una distribucin normal. Usualmente se emplea una distribucin de extremos (Gamma, etc.) para ajustar las distribuciones de lluvias diarias. La precipitaciones acumuladas mensuales en general no tienen una distribucin normal en nuestro pas. Las estadsticas de fenmenos discontinuos como los das con lluvia, con granizo, niebla, roco, tormenta, etc., obedecen a distribuciones discretas como la binomial.Estimacin de parmetrosEn general, no conocemos la PDF de las variables observadas . Podemos conocer osuponer la familia (normal, binomial, etc.) a la que pertenecen, pero no los valoresde los parmetros de la distribucin. Para calcularlos necesitaramos tener todoslos posibles valores de la variable, lo que en general no es posible. La inferenciaestadstica trata de cmo obtener informacin (inferir) sobre los parmetros apartir de subconjuntos de valores (muestras) de la variable.Estadstico: variable aleatoria que slo depende de la muestra aleatoria elegida (x1, x2, , xn ) para calcularla (es decir que no dependen de magnitudes desconocidas, como los parmetros que se quieren estimar)Ej: la media muestralEstimador: Es un estadstico que se usa para estimar un parmetro.El valor que tome el estimador depender de la muestra aleatoria, por lo que elestimador tendr una distribucin de probabilidad, que ser su distribucinmuestral.Es deseable que un estimador tenga algunas propiedades (que sea insesgado, devariancia mnima, etc), cosa que no siempre se puede lograr.Estimacin de parmetros (cont.)Algunos mtodos para estimar parmetros son: Mtodo de los momentos Mtodo de la mxima verosimilitud Mtodo de los mnimos cuadradosEjemplo del mtodo de los momentosLa media y la varianza son momentos de primer y segundo orden respectivamenteEjemplo de aplicacin a la distribucin gammaSi la variable aleatoria X sigue una distribucin gamma de parmetros y , su valor esperado y su varianza valen: Por tanto podemos expresar y comoVar( X)E( X)2E( X)Var( X) E( X) ( X) Var 2donde E(X) y Var (X) se estiman a partir de la muestra (por medio de y s2)XEstimacin de parmetros por el mtodo de mxima verosimilitudLa idea es determinar, para una muestra de datos dada y para una distribucinelegida adecuadamente, el conjunto de valores ms probables de los parmetros,dados los datos que se observaron.Para eso se define la funcin de verosimilitud, y se busca determinar los valoresde los parmetros que la hacen mximaLa funcin de verosimilitud de los parmetros, para una sola observacin x, esla PDF, pero debe interpretarse considerando a x como dato, y a los parmetroscomo variables o incgnitas.Ej: para la distribucin gaussiana:La funcin de verosimilitud para n observaciones independientes (xi, i=1, 2, , n) es el producto de las n funciones individuales:Tomando logaritmos y planteando las derivadas parciales respecto a los parmetros y , se obtiene: Anulando las derivadas, seobtiene:Para la distribucin gausiana, es posible obtener una expresin analtica delos estimadores de mxima verosimilitud. Esto no es habitual para otrasdistribuciones, y se hace necesario resolver las ecuaciones iterativamente.En Matlab, hay rutinas que estiman parmetros por mxima verosimilitud(MLE) para muchas distribuciones, dando adems intervalos de confianza delos estimadores.normfit, gamfit, binofit, etc, etcEstimacin de la varianza de la media en presencia de dependencia serial La estimacin de la varianza de la distribucin muestral de la media de n observaciones independientes es:Los datos atmosfricos no suelen cumplir la condicin de independencia debido a la presencia de persistencia (ej. temperatura media diaria). En ese caso la frmula anterior no es vlida siendoSe aprecia que los promedios de n = 10 valores para la serie conautocorrelacin 1= 0.6 estn ms dispersos alrededor del valor medio que para la otra serie con 1= 0.Lo que se hace es, a partir de ciertas hiptesis definir un tamao de muestra efectivo:Wilks, p. 144