ca.wikipedia.org

Distribució khi quadrat - Viquipèdia, l'enciclopèdia lliure

De la Viquipèdia, l'enciclopèdia lliure

Infotaula distribució de probabilitat{\displaystyle \chi ^{2}}

Funció de densitat de probabilitat

Funció de distribució de probabilitat

Tipusfamília exponencial, Distribució khi quadrat no central, distribució gamma, generalized chi-squared distribution (en) Tradueix i distribució de probabilitat contínua Modifica el valor a Wikidata
Notació{\displaystyle \chi ^{2}(k)\;} o {\displaystyle \chi _{k}^{2}\!}
Paràmetres{\displaystyle k\in (0,\infty )} (graus de llibertat)
Suport{\displaystyle x>0} Modifica el valor a Wikidata
fdp{\displaystyle {\frac {1}{2^{k/2}\Gamma (k/2)}}\;x^{k/2-1}e^{-x/2}\,\ x>0}
FD{\displaystyle {\frac {1}{\Gamma (k/2)}}\;\gamma \left({\frac {k}{2}},\,{\frac {x}{2}}\right)\;}
Esperança matemàtica{\displaystyle k}
Mediana{\displaystyle \approx k{\bigg (}1-{\frac {2}{9k}}{\bigg )}^{3}\;}
Moda{\displaystyle k-2,\ {\text{si}}\ k\geq 2}
Variància{\displaystyle 2k\;}
Coeficient de simetria{\displaystyle {\sqrt {8/k}}\,}
Curtosi{\displaystyle {\frac {12}{\nu }}} Modifica el valor a Wikidata
Entropia{\displaystyle {\frac {k}{2}}+\ln(2\Gamma ({\frac {k}{2}}))+(1-{\frac {k}{2}})\psi ({\frac {k}{2}})}
FGM{\displaystyle (1-2t)^{-\nu /2},\ t\in (-\infty ,1/2)} Modifica el valor a Wikidata
FC{\displaystyle (1-2\mathrm {i} t)^{-\nu /2}} Modifica el valor a Wikidata
EOMChi-squared_distribution Modifica el valor a Wikidata
MathworldChi-SquaredDistribution Modifica el valor a Wikidata

En Teoria de la probabilitat i Estadística la distribució distribució khi quadrat {\displaystyle \chi ^{2}}(pronunciat [xi] o [ci]), també anomenada khi quadrat de Pearson, amb {\displaystyle k} de llibertat és la distribució de la suma dels quadrats de {\displaystyle k} variables aleatòries normals estàndard independents. És un cas particular de la distribució gamma i es pot estendre a un nombre no enter de graus de llibertat. És molt important en Estadística ja que intervé en nombrosos tests estadístics, com el de la {\displaystyle t} de Student o de la {\displaystyle \chi ^{2}} de Pearson, així com en la construcció de diversos intervals de confiança.

La referència bàsica d'aquest article és Johnson et al.[1].

Definició, funció de densitat i funció de distribució

[modifica]

Siguin {\displaystyle Z_{1},\dots ,Z_{k}} variables aleatòries independents, totes amb distribució normal estàndard {\displaystyle {\mathcal {N}}(0,1)}. La variable aleatòria {\displaystyle Q=Z_{1}^{2}+\cdots +Z_{k}^{2}}es diu que té una distribució {\displaystyle \chi ^{2}} amb {\displaystyle k} graus de llibertat i s'escriu {\displaystyle Q\sim \chi _{k}^{2}} o {\displaystyle Q\sim \chi ^{2}(k)} .

La funció de densitat és {\displaystyle f(x;\,k)={\begin{cases}{\dfrac {x^{{\frac {k}{2}}-1}e^{-{\frac {x}{2}}}}{2^{\frac {k}{2}}\Gamma \left({\frac {k}{2}}\right)}},&{\text{si}}\ x>0,\\0,&{\text{en cas contrari}},\end{cases}}} on {\displaystyle \Gamma (a)} és la funció gamma. Per tant, tenim que la distribució coincideix amb una distribució gamma amb paràmetre de forma {\displaystyle k/2} i paràmetre d'escala 2, {\displaystyle Q\sim \Gamma {\Big (}{\frac {k}{2}},2{\Big )}} .

Prova

Comencem pel cas {\displaystyle k=1}. Sigui {\displaystyle Q=Z^{2}}, amb {\displaystyle Z\sim {\mathcal {N}}(0,1)}. La funció de distribució de {\displaystyle Q}, {\displaystyle F_{Q}(x)=P(Q\leq x)} valdrà:

on {\displaystyle F_{Z}} és la funció de distribució de {\displaystyle Z} .

Derivant obtenim la funció de densitat de {\displaystyle Q}, {\displaystyle f_{Q}}: per a {\displaystyle x\geq 0}, {\displaystyle f_{Q}(x)=F'_{Z}({\sqrt {x}})\,{\frac {1}{2{\sqrt {x}}}}+F'_{Z}(-{\sqrt {x}})\,{\frac {1}{2{\sqrt {x}}}}={\frac {1}{\sqrt {2\pi }}}\,{\frac {e^{-x/2}}{\sqrt {x}}}.} Per tant, identifiquem que {\displaystyle Q} té una distribució gamma amb paràmetre de forma 1/2 i paràmetre d'escala 2: {\displaystyle Q\sim \Gamma {\Big (}{\frac {1}{2}},2{\Big )}} .

Anem ara al cas general: podem escriure {\displaystyle Q=Q_{1}+\cdots +Q_{k},}on {\displaystyle Q_{1},\dots ,Q_{k}} són independents i {\displaystyle Q_{i}\sim \Gamma {\Big (}{\frac {1}{2}},2{\Big )}}. Llavors, pel caràcter reproductiu de les distribucions gamma, {\displaystyle Q\sim \Gamma {\Big (}{\frac {k}{2}},2{\Big )}}, i, per tant, tindrà la densitat que hem indicat abans.

La funció de distribució es pot escriure en termes de la funció gamma incompleta: {\displaystyle F(x;k)={\begin{cases}{\dfrac {1}{\Gamma ({\frac {k}{2}})}}\gamma {\big (}{\dfrac {k}{2}},{\dfrac {x}{2}}{\big )},&{\text{si}}\ x\geq 0\\0,&{\text{si}}\ x<0,\end{cases}}}on {\displaystyle \gamma (\nu ,x)} és la funció gamma incompleta inferior.

Extensió a graus de llibertat no enters

[modifica]

La funció {\displaystyle f(x;k)} està ben definida i és una funció de densitat per a qualsevol {\displaystyle k\in (0,\infty )}: en efecte, fixat qualsevol nombre real {\displaystyle k>0}, tenim que {\displaystyle f(x;k)\geq 0} i {\displaystyle \int _{-\infty }^{\infty }f(x;k)\,dx=1}. Aleshores, una variable aleatòria amb aquesta densitat es diu que té una distribució {\displaystyle \chi ^{2}} amb {\displaystyle k} graus de llibertat. Alternativament, la distribució {\displaystyle \Gamma {\Big (}{\frac {k}{2}},2{\Big )}} està definida per a qualsevol {\displaystyle k\in (0,\infty )}. A partir d'ara, suposarem que {\displaystyle k\in (0,\infty )}. i especificarem quan suposem que {\displaystyle k} és un nombre natural.

Moments, funció generatriu de moments i funció característica

[modifica]

Aquestes propietats es dedueixen particularitzant les corresponents propietats de la distribució gamma. Si {\displaystyle Q\sim \chi ^{2}(k)} aleshores té moments de tots els ordres, que valen {\displaystyle E[Q]=k\quad {\text{i}}\quad E[Q^{n}]=k(k+2)\cdots (k+2n-2),\ n\geq 2.}Utilitzant la funció Gamma es pot escriure

{\displaystyle E[Q^{n}]=2^{n}\,{\frac {\Gamma {\big (}(k/2)+n{\big )}}{\Gamma (k/2)}}.}

En particular, {\displaystyle E[Q^{2}]=k(k+2),} d'on {\displaystyle {\text{Var}}(Q)=E[Q^{2}]-(E[Q])^{2}=2k.} Així,

{\displaystyle E[Q]=k\quad {\text{i}}\quad {\text{Var}}(Q)=2k.}

Si {\displaystyle X} és una variable aleatòria positiva, {\displaystyle X\geq 0}, aleshores per a qualsevol {\displaystyle r>0} podem calcular {\displaystyle E[X^{-r}]=E{\Big [}{\frac {1}{X^{r}}}{\Big ]},}però pot donar {\displaystyle +\infty } . Quan dona finit, llavors es diu que la variable {\displaystyle X} té moment d'ordre negatiu {\displaystyle -r}.[2]

Sigui {\displaystyle Q\sim \chi ^{2}(k)}. Llavors, si {\displaystyle r\in (0,\nu /2)} , {\displaystyle Q} té moment d'ordre negatiu {\displaystyle -r} i val [2]{\displaystyle E[Q^{-r}]={\frac {\Gamma {\Big (}{\frac {\nu }{2}}-r{\Big )}}{2^{r}\,\Gamma {\Big (}{\frac {\nu }{2}}{\Big )}}}.}Per exemple, si {\displaystyle \nu =4} , llavors {\displaystyle Q} té moment negatiu d'ordre -1 i val {\displaystyle E[Q^{-1}]={\frac {1}{2}}.}Aquesta propietat s'utilitza per a calcular els moments de distribucions de quocients (o ratios) de variables aleatòries independents quan al denominador hi ha una distribució khi quadrat, com en el cas d'una distribució {\displaystyle t} de Student o una distribució {\displaystyle F}.

La funció generatriu de moments és {\displaystyle M(t)={\frac {1}{(1-2t)^{k/2}}},\quad t\in (-\infty ,{\frac {1}{2}}).}

La funció característica és {\displaystyle \varphi (t)={\frac {1}{(1-2it)^{k/2}}},\quad t\in \mathbb {R} .}

Del caràcter reproductiu de les distribucions gamma es dedueix el de les distribucions {\displaystyle \chi ^{2}}: Siguin {\displaystyle Q_{1},\dots ,Q_{n}} independents, amb distribucions {\displaystyle Q_{i}\sim \chi ^{2}(k_{i})}, {\displaystyle 1=1,\dots ,n}. Llavors, {\displaystyle \sum _{i=1}^{n}Q_{i}\sim \chi ^{2}{\big (}\sum _{i=1}^{n}k_{i}{\big )}.}

Propietat.:[3] Siguin {\displaystyle Q_{1}\sim \chi ^{2}(k_{1})} i {\displaystyle Q_{2}\sim \chi ^{2}(k_{2})}. Suposem que {\displaystyle Q=Q_{1}-Q_{2}} és independent de {\displaystyle Q_{2}}. Aleshores {\displaystyle Q\sim \chi ^{2}(k_{1}-k_{2})}.

Aproximació per la distribució normal

[modifica]

En aquesta secció considerarem la distribució {\displaystyle \chi ^{2}} amb un nombre enter de graus de llibertat. D'acord amb el teorema central del límit, si {\displaystyle Q_{k}\sim \chi ^{2}(k)}, aleshores{\displaystyle \lim _{k\to \infty }{\frac {Q_{k}-k}{\sqrt {2k}}}={\mathcal {N}}(0,1),\quad {\text{en distribució.}}}En altres paraules, per a {\displaystyle k} gran, {\displaystyle Q_{k}} és aproximadament normal {\displaystyle {\mathcal {N}}(k,2k)}.

Però aquesta aproximació demana {\displaystyle k} força gran. La següent aproximació, deguda a Fisher,[4] és més ràpida {\displaystyle \lim _{k\to \infty }{\Big (}{\sqrt {2Q_{k}}}-{\sqrt {2k-1}}{\Big )}={\mathcal {N}}(0,1),\quad {\text{en distribució.}}}Equivalentment, per a {\displaystyle k} gran, {\displaystyle {\sqrt {2Q_{k}}}} és aproximadament normal {\displaystyle {\mathcal {N}}({\sqrt {2k-1}},1)} .

Segons Johnson et al[5] encara és més ràpida l'aproximació deguda a Wilson and Hilferty:[6] per a {\displaystyle k} gran, {\displaystyle {\sqrt[{3}]{Q_{k}/k}}} és aproximadament normal {\displaystyle {\mathcal {N}}{\big (}1-{\frac {2}{9k}},{\frac {2}{9k}}{\big )}.}

La distribució χ² i les mostres de poblacions normals

[modifica]

El següent resultat té una importància fonamental en la inferència estadística basada en mostres de poblacions normals.

A partir d'aquest teorema i del fet que {\displaystyle {\overline {X}}\sim {\mathcal {N}}(\mu ,\sigma ^{2}/n)}, tenim que la variable aleatòria (estadístic){\displaystyle T={\frac {{\overline {X}}-\mu }{S/{\sqrt {n}}}}} té una distribució {\displaystyle t} de Sudent amb {\displaystyle n-1} graus de llibertat: {\displaystyle T\sim t(n-1)}, on

{\displaystyle S^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}{\big (}X_{i}-{\overline {X}}{\big )}^{2},} és la variància mostral.

Prova

Aquesta demostració està extreta de DeGroot.[8]

Pas previ: reducció a una mostra d'una població normal estàndard. Siguin {\displaystyle Z_{i}={\frac {X_{i}-\mu }{\sigma }},\ i=1,\dots ,n,} que son variables independents amb distribució {\displaystyle {\mathcal {N}}(0,1)}. Tenim que {\displaystyle {\overline {X}}=\sigma {\overline {Z}}+\mu .}Llavors, {\displaystyle X_{i}-{\overline {X}}=\sigma Z_{i}+\mu -(\sigma {\overline {Z}}+\mu )=\sigma (Z_{i}-{\overline {Z}}).}Per tant, {\displaystyle {\frac {1}{\sigma ^{2}}}\sum _{i=1}^{n}(X_{i}-{\overline {X}})^{2}=\sum _{i=1}^{n}(Z_{i}-{\overline {Z}})^{2}.}Així, n'hi ha prou amb demostrar que si {\displaystyle Z_{1},\dots ,Z_{n}} són independents, totes amb llei {\displaystyle {\mathcal {N}}(0,1)}, aleshores

  1. {\displaystyle \sum _{i=1}^{n}{\big (}Z_{i}-{\overline {Z}}{\big )}^{2}\sim \chi ^{2}(n-1).}
  2. Les variables aleatòries {\displaystyle {\overline {Z}}} i {\displaystyle \sum _{i=1}^{n}{\big (}Z_{i}-{\overline {Z}}{\big )}^{2}} són independents.

Per demostrar aquestes propietats utilitzarem l'anomenada matriu de Helmert de dimensió {\displaystyle n}:[9]{\displaystyle {\boldsymbol {H}}={\begin{pmatrix}{\frac {1}{\sqrt {n}}}&{\frac {1}{\sqrt {n}}}&{\frac {1}{\sqrt {n}}}&{\frac {1}{\sqrt {n}}}&\cdots &{\frac {1}{\sqrt {n}}}&{\frac {1}{\sqrt {n}}}\\{\frac {1}{\sqrt {2}}}&-{\frac {1}{\sqrt {2}}}&0&0&\cdots &0&0\\{\frac {1}{\sqrt {6}}}&{\frac {1}{\sqrt {6}}}&-{\frac {2}{\sqrt {6}}}&0&\cdots &0&0\\{\frac {1}{\sqrt {12}}}&{\frac {1}{\sqrt {12}}}&{\frac {1}{\sqrt {12}}}&-{\frac {3}{\sqrt {12}}}&\cdots &0&0\\\vdots &\vdots &\vdots &\vdots &&\vdots &\vdots \\{\frac {1}{\sqrt {n(n-1)}}}&{\frac {1}{\sqrt {n(n-1)}}}&{\frac {1}{\sqrt {n(n-1)}}}&{\frac {1}{\sqrt {n(n-1)}}}&\cdots &{\frac {1}{\sqrt {n(n-1)}}}&-{\frac {n-1}{\sqrt {n(n-1)}}}\end{pmatrix}}}que és una matriu ortogonal, és a dir, {\displaystyle {\boldsymbol {H}}^{-1}={\boldsymbol {H}}',}on {\displaystyle {\boldsymbol {H}}'} denota la matriu transposada de {\displaystyle {\boldsymbol {H}}}. Aquesta matriu té la següent propietat: sigui {\displaystyle {\boldsymbol {z}}=(z_{1},\dots ,z_{n})} (escriurem tots els vectors en columna) i {\displaystyle {\boldsymbol {y}}=(y_{1},\dots ,y_{n})^{\prime }={\boldsymbol {Hz}}.}Aleshores, tenim que {\displaystyle \sum _{i=1}^{n}(z_{i}-{\overline {z}})^{2}=\sum _{i=2}^{n}y_{i}^{2}.\qquad (1)} En efecte, d'una banda, {\displaystyle y_{1}={\frac {1}{\sqrt {n}}}\sum _{i=1}^{n}z_{i}={\sqrt {n}}\,{\overline {z}}.}D'altra banda, desenvolupant els quadrats de l'esquerra de (1) s'obté {\displaystyle \sum _{i=1}^{n}(z_{i}-{\overline {z}})^{2}=\sum _{i=1}^{n}z_{i}^{2}-n({\overline {z}})^{2}={\boldsymbol {z'z}}-n({\overline {z}})^{2}.}El costat de la dreta de (1) és {\displaystyle \sum _{i=2}^{n}y_{i}^{2}=\sum _{i=1}^{n}y_{i}^{2}-y_{1}^{2}={\boldsymbol {y'y}}-y_{1}^{2}={\boldsymbol {z'H'Hz}}-n({\overline {z}})^{2}={\boldsymbol {z'z}}-n({\overline {z}})^{2},}amb la qual cosa queda provada la igualtat (1).

Ara considerem el vector normal multidimensional {\displaystyle {\boldsymbol {Z}}=(Z_{1},\dots ,Z_{n})'}, i sigui {\displaystyle {\boldsymbol {Y}}=(Y_{1},\dots ,Y_{n})'} donat per{\displaystyle {\boldsymbol {Y}}={\boldsymbol {HZ}}.}Per les propietats dels vectors normals multidimensionals, del fet que {\displaystyle Z_{1},\dots ,Z_{n}} són independents, totes amb llei {\displaystyle {\mathcal {N}}(0,1)} i que {\displaystyle {\boldsymbol {H}}} és ortogonal, es dedueix que {\displaystyle Y_{1},\dots ,Y_{n}} són independents, totes amb llei {\displaystyle {\mathcal {N}}(0,1)}. Llavors,

{\displaystyle \sum _{i=1}^{n}(Z_{i}-{\overline {Z}})^{2}=\sum _{i=2}^{n}Y_{i}^{2}\sim \chi ^{2}(n-1).}La independència entre {\displaystyle {\overline {Z}}} i {\displaystyle \sum _{i=1}^{n}{\big (}Z_{i}-{\overline {Z}}{\big )}^{2}} es dedueix de les relacions {\displaystyle {\overline {Z}}={\frac {1}{\sqrt {n}}}\,Y_{1}\quad {\text{i}}\quad \sum _{i=1}^{n}(Z_{i}-{\overline {Z}})^{2}=\sum _{i=2}^{n}Y_{i}^{2},}

i de què {\displaystyle Y_{1}} i {\displaystyle (Y_{2},\dots ,Y_{n})} són independents.

Relació amb altres distribucions

[modifica]

{\displaystyle P(Q_{k}>a)=P(Y\leq {\frac {k}{2}}-1),} on {\displaystyle Y} és una variable aleatòria amb una distribució de Poisson de paràmetre {\displaystyle a/2}.

Prova

Escrivim {\displaystyle m=k/2}. Llavors, {\displaystyle P(Q_{k}>a)={\frac {1}{2^{m}\Gamma (m)}}\int _{a}^{\infty }x^{m-1}e^{-x/2}\,dx.}Ara integrem per parts iteradament, començant per {\displaystyle u=x^{m-1}} i {\displaystyle e^{-x/2}\,dt=dv}.

Noteu que aquesta propietat és equivalent a la que es formula a la pàgina de la distribució de Poisson: Si {\displaystyle Y} és una variable amb distribució de Poisson de paràmetre {\displaystyle \lambda }, aleshores [11] per a {\displaystyle n=0,\,1,2,\dots },

{\displaystyle P(Y\leq n)=P(Q_{2(n+1)}>2\lambda ),}

on {\displaystyle Q_{2(n+1)}\sim \chi ^{2}{\big (}2(n+1){\big )}}.

La distribució khi quadrat té moltes aplicacions en inferència estadística, per exemple en el test khi quadrat i en l'estimació de variàncies. També està involucrada en el problema d'estimar la mitjana d'una població normalment distribuïda i en el problema d'estimar el pendent d'una recta de regressió lineal, a través del seu paper en la distribució t de Student, i participa en tots els problemes d'anàlisi de variància, pel seu paper en la distribució F de Snedecor, que és la distribució del quocient de dues variables aleatòries de distribució khi-quadrat i independents. També té ús al contrast de {\displaystyle k} poblacions amb els contrasts d'homogeneïtat i al d'independència.

  1. Johnson, Kotz i Balakrishnan, 1994, Chapter 18.
  2. 2,0 2,1 David, H. A. «Moments of Negative Order and Ratio-Statistics». Journal of the Royal Statistical Society. Series B (Methodological), 17, 1, 1955, pàg. 122–123. ISSN: 0035-9246.
  3. Seber, G. A. F.. Linear regression analysis. 2a edició. Hoboken, N.J.: Wiley-Interscience, 2003, p. 13. ISBN 0-471-41540-5.
  4. Fisher, Ronald A. Stastistical Methods for Social Workers. Edimburg: Oliver & Boyd, 1925, p. 63.
  5. Johnson, Kotz i Balakrishnan, 1994, p. 426.
  6. Wilson, Edwin B.; Hilferty, Margaret M. «The Distribution of Chi-Square» (en anglès). Proceedings of the National Academy of Sciences, 17, 12, 12-1931, pàg. 684–688. DOI: 10.1073/pnas.17.12.684. ISSN: 0027-8424. PMC: PMC1076144. PMID: 16577411.
  7. Williams, D. Weighing the odds : a course in probability and statistics. Cambridge: Cambridge University Press, 2001, p. 164. ISBN 0-521-80356-X.
  8. DeGroot, Morris H. Probabilidad y estadística. 2a. ed. Wilmington, Delawere, E.U.A.: Addison-Wesley Iberoamericaca, 1988, p. 373-374. ISBN 0-201-64405-3.
  9. Seber, G. A. F.. A matrix handbook for statisticians. Hoboken, N.J.: Wiley-Interscience, 2008, p. 149. ISBN 978-0-470-22678-0.
  10. Johnson, Kotz i Balakrishnan, 1994, p. 450.
  11. Johnson, Norman Lloyd. Univariate discrete distributions.. 2nd ed.. Nova York: Wiley, 1992, p. 162, formula (4.38). ISBN 0-471-54897-9.