Qui-quadrado
Distribuição Qui-quadrado | |
---|---|
Parâmetros | graus de liberdade |
Suporte | if , caso contrário |
f.d.p. | |
f.d.a. | |
Média | |
Mediana | |
Moda | |
Variância | |
Obliquidade | |
Curtose | |
Entropia | |
Função Geradora de Momentos | |
Função Característica | [1] |
A distribuição χ2 ou qui-quadrado é uma das distribuições mais utilizadas em estatística inferencial, principalmente para realizar testes de χ2. Este teste serve para avaliar quantitativamente a relação entre o resultado de um experimento e a distribuição esperada para o fenômeno. Isto é, ele nos diz com quanta certeza os valores observados podem ser aceitos como regidos pela teoria em questão. Muitos outros testes de hipótese usam, também, a distribuição χ2.
Teste de χ2
[editar | editar código-fonte]Dado um experimento onde foram realizadas N medidas de uma variável aleatória X. Em cada medida, a variável X assume os valores x1, x2, ...,xN. Gostaríamos de testar se a distribuição experimental dos valores x1, x2, ..., xk, ..., xN é consistente com a distribuição esperada para o fenômeno, f(X). Em outras palavras, temos que avaliar como esperaríamos que as N medidas estivessem distribuídas e então comparar com a distribuição observada. Primeiramente, em geral x é uma variável contínua, de forma que não podemos nos referir ao valor esperado de medidas com um único valor de x[2] (se x for contínuo, a probabilidade de X assumir um exato valor é zero). Logo, precisamos definir intervalos a ≤ x ≤ b e calcular o número esperado de medidas que devem estar dentro de cada intervalo j, em que j = 1, 2, …, n e n é o número de intervalos definidos. O número de medidas esperadas para o intervalo j, Ej, será, então,
- ,
onde Prj é a probabilidade de X assumir um valor dentro do intervalo j. Essa probabilidade obviamente depende da distribuição f(X) e é normalizada:
É natural analisar a diferença entre o número de amostras observadas dentro de cada intervalo, Oj, e o número esperado:
- ,
de forma que quanto menor forem estes valores, melhores serão as chances de nossa hipótese para f(X) ser verdadeira. Porém, não podemos esperar que os dois valores Oj e Ej coincidam perfeitamente para qualquer número finito de medidas que realizarmos. Na verdade, se imaginarmos uma situação onde realizamos o procedimento de contar o número Oj muitas vezes, esperamos que a média de Oj seja Ej, com um desvio padrão σj=Ej1/2.[2] Logo, esperamos que
seja da ordem de unidade, se nossa hipótese for verdadeira. Definimos, portanto, a variável χk2, com k graus de liberdade estatísticos, como sendo
indicando o quanto as distribuições experimental e teórica são parecidas. Se χ2 ≤ n, há uma boa concordância entre as distribuições, e se χ2 >> n é bem provável que a hipótese para f(X) seja falsa. Os graus de liberdade k são definidos como a diferença entre o número de medidas realizadas e o número de restrições feitas aos valores das medidas.[2]
É possível estudar as discrepâncias em experimentos que envolvam duas variáveis, em diferentes níveis. Os valores observados podem ser anotados em um quadro da seguinte forma:
Variável X | Variável Y | Total | |||
---|---|---|---|---|---|
Y1 | Y2 | ... | Ym | ||
X1 | O11 | O12 | ... | O1m | L1 |
X2 | O21 | O22 | ... | O2m | L2 |
... | ... | ... | ... | ... | ... |
Xn | On1 | On2 | ... | Onm | Lm |
Total | C1 | C2 | ... | Cn | T |
O objetivo é observar o nível de relação existente entre as variáveis estudadas. Nesse caso, a estatística de teste é dado por:
onde as frequências esperadas são dadas por:
Distribuição χ2
[editar | editar código-fonte]A probabilidade da distribuição qui quadrado não é simétrica como a da distribuição normal. Dessa forma, para aumentar seu estado de simetria, é necessário aumentar o seu grau de liberdade, portanto a relação entre simetria e grau de liberdade é diretamente proporcional.
A variável , por si só, apresenta uma função densidade de probabilidade. Esta função apresenta qual a probabilidade de a variável assumir um valor entre e , e é dada por:
Exemplos desta função para diversos k estão plotados na figura ao lado.
Em posse desta expressão, pode-se calcular a probabilidade de, num teste de χ2, obter-se um valor igual ou maior ao valor encontrado, , calculando a integral
Desta forma, encontramos um modo quantitativo para determinar a concordância entre distribuição experimental e teórica. Em geral, para evitar o cálculo desta integral, se recorre a tabelas que apresentam os valores das probabilidades para cada intervalo de confiança e para cada grau de liberdade.
É interessante analisar que a média da distribuição χ2 é k. Isto é se repetirmos o teste de χ2 muitas vezes (para várias medidas coletadas diferentes), esperamos que a média dos valores de χ2 encontrados tenda para o número de graus de liberdade estatísticos.
A distribuição qui-quadrado pode ser simulada a partir da distribuição normal. Por definição, se forem k distribuições normais padronizadas (ou seja, média 0 e desvio padrão 1) independentes, então a soma de seus quadrados é uma distribuição qui-quadrado com k graus de liberdade:
a definição é que a soma de duas qui-quadrado independentes também é uma qui-quadrado:
Exemplo[carece de fontes]
[editar | editar código-fonte]Podemos aplicar o teste de χ2 para analisar quão boa é a concordância entre um conjunto de medidas e a relação esperada .[2] Por exemplo, suponhamos que desejamos testar a hipótese de que a trajetória do lançamento de um projétil é uma parábola. O projétil sairá de uma altura de , com uma velocidade inicial horizontal de e num local onde a gravidade vale . Esperamos, portanto, que a altura do projétil em função da sua distância em relação ao ponto de partida seja:
Para testar a hipótese, fazemos 10 medidas de x e de y em tempos específicos. A tabela abaixo mostra os valores encontrados.
i | (×i,yi) |
---|---|
1 | (50,98) |
2 | (80,95) |
3 | (110,92) |
4 | (140,90) |
5 | (170,85) |
6 | (200,80) |
7 | (230,72) |
8 | (260,62) |
9 | (290,53) |
10 | (320,40) |
Para os valores encontrados, a incerteza na medida de x é desprezível e a de y é . Como não calculamos nenhum parâmetro a partir dos valores medidos, o número de graus de liberdade é o mesmo do número de medidas, 10. Com estes valores, podemos calcular o valor de χ2:
ou, ainda:
De posse do valor "normalizado" de , podemos usar uma tabela para descobrir a probabilidade de se obter este valor ou mais, e assim saber com quanta certeza podemos dizer que os valores encontradas realmente estão distribuídos como esperado. Neste caso, para 10 graus de liberdade:
O que descobrimos foi que a probabilidade de que as medidas obtidas realmente estejam sendo governadas pela lei prevista é de apenas 2,9%, ou seja, deveríamos rejeitar esta hipótese. Isto é, temos apenas 2,9% de certeza que a trajetória do projétil foi realmente uma parábola e que os grandes desvios observados foram apenas flutuações estatísticas.
Poderíamos ter avaliado a concordância experimental com a teórica fazendo os gráficos e comparando-os "à olho". Teríamos visto que o projétil caiu bem antes do que o previsto, sugerindo que estejamos esquecendo fatores de resistência do ar (no modelo previsto, consideramos apenas a força da gravidade, e ignoramos qualquer atrito que pudesse haver entre ar e projétil, que de fato existe, principalmente para velocidades grandes como 100 m/s).
Distribuições relacionadas
[editar | editar código-fonte]- Se U for uma distribuição uniforme no intervalo (0,1), então -2 log U é uma distribuição qui-quadrado com 2 graus de liberdade.
Nomenclatura
[editar | editar código-fonte]O símbolo χ2, a segunda potência de χ (ou ), envolve a forma minúscula de letra do alfabeto grego chamada qui[3] (também chamada, menos frequentemente, chi em português[4]). Devido a semelhança da letra grega com a letra xis x do alfabeto latino é comum a ocorrência de confusões, motivo pelo qual alguns autores optam por utilizar o nome da letra por extenso, em expressões como qui-quadrado. Essa é a forma recomendada pelo Glossário Inglês-Português de Estatística da Sociedade Portuguesa de Estatística e da Associação Brasileira de Estatística.[5]
- ↑ M.A. Sanders. «Characteristic function of the central chi-squared distribution» (PDF). Consultado em 6 de março de 2009. Arquivado do original (PDF) em 15 de julho de 2011
- ↑ a b c d TAYLOR, John R., “An Introduction to Error Analysis: The Study of Uncertainties in Physical Measurements”, 1997, 2.ed.
- ↑ «Qui». Dicionário Priberam da Língua Portuguesa. Priberam Informática
- ↑ Pedro Mateus (25 de novembro de 2010). «Sobre o nome e grafia da letra qui (alfabeto grego)». Ciberdúvidas da Língua Portuguesa. Consultado em 15 de março de 2014
- ↑ [1]