Média e covariância amostrais

A média amostral ou média empírica e a covariância amostral são cálculos de estatística feitos a partir de uma coleta de dados em uma ou mais variáveis aleatórias. A média amostral é um vetor onde cada um dos elementos é a média da amostra de uma das variáveis aleatórias, ou seja, cada um dos elementos é a média aritmética dos valores observados de uma das variáveis. A matriz da covariância de amostra é quadrada, cujo i, j elemento é a covariância da amostra (uma estimativa da covariância da população ) entre os conjuntos de valores observados de duas das variáveis e cujo i, i elemento é a variância da amostra de valores observados de uma das variáveis . Se apenas uma variável teve valores observados , em seguida, a média da amostra é um único número (a média aritmética dos valores observados para a variável) e a matriz da covariância de amostra é simplesmente um único valor (a variância da amostra de valores observados de que variável).

Média amostral

Seja x i j {\displaystyle x_{ij}} a i-ésima observação desenhada independentemente (i=1,...,N) no jth. Estas observações podem ser organizadas em N vetores coluna, cada um com entradas K e com K × 1 vetor coluna dando a ith observações de todas as variáveis sendo denotado x i {\displaystyle \mathbf {x} _{i}} (i=1,...,N).

A média do vetor da amostra x ¯ {\displaystyle \mathbf {\bar {x}} } é um vetor coluna cujo j th elemento x ¯ j {\displaystyle {\bar {x}}_{j}} é o valor médio das observações N da j th da variável:

x ¯ j = 1 N i = 1 N x i j , j = 1 , , K . {\displaystyle {\bar {x}}_{j}={\frac {1}{N}}\sum _{i=1}^{N}x_{ij},\quad j=1,\ldots ,K.}

Assim, a média amostral do vetor contém a média das observações para cada variável, e é escrita:

x ¯ = 1 N i = 1 N x i . {\displaystyle \mathbf {\bar {x}} ={\frac {1}{N}}\sum _{i=1}^{N}\mathbf {x} _{i}.}

Covariância amostral

A matriz da covariância amostral é definida por K-x - K matriz Q = [ q j k ] {\displaystyle \textstyle \mathbf {Q} =\left[q_{jk}\right]} com entradas:

q j k = 1 N 1 i = 1 N ( x i j x ¯ j ) ( x i k x ¯ k ) , {\displaystyle q_{jk}={\frac {1}{N-1}}\sum _{i=1}^{N}\left(x_{ij}-{\bar {x}}_{j}\right)\left(x_{ik}-{\bar {x}}_{k}\right),}

Onde, q j k {\displaystyle q_{jk}} é a estimativa da covariância entre a variável jth e o kth variável da população subjacente aos dados.

Em termos dos vetores de observação, a covariância da amostra é:

Q = 1 N 1 i = 1 N ( x i x ¯ ) ( x i x ¯ ) T , {\displaystyle \mathbf {Q} ={1 \over {N-1}}\sum _{i=1}^{N}(\mathbf {x} _{i}-\mathbf {\bar {x}} )(\mathbf {x} _{i}-\mathbf {\bar {x}} )^{\mathrm {T} },}

Por outro lado, organizando os vetores de observação como as colunas de uma matriz, de modo que

F = [ x 1 x 2 x N ] {\displaystyle \mathbf {F} ={\begin{bmatrix}\mathbf {x} _{1}&\mathbf {x} _{2}&\dots &\mathbf {x} _{N}\end{bmatrix}}} ,

que é uma matriz de linhas K e colunas N. Assim, a matriz de covariância de amostra pode ser calculada com:

Q = 1 N 1 ( F x ¯ 1 N T ) ( F x ¯ 1 N T ) T {\displaystyle \mathbf {Q} ={\frac {1}{N-1}}(\mathbf {F} -\mathbf {\bar {x}} \,\mathbf {1} _{N}^{\mathrm {T} })(\mathbf {F} -\mathbf {\bar {x}} \,\mathbf {1} _{N}^{\mathrm {T} })^{\mathrm {T} }} ,

onde, 1 N {\displaystyle \mathbf {1} _{N}} é o “N” por 1 do vetor.

Se as observações são dispostas como as linhas, em vez de colunas, de modo que x ¯ {\displaystyle \mathbf {\bar {x}} } é agora um 1 × K vetor linha e M = F T {\displaystyle \mathbf {M} =\mathbf {F} ^{\mathrm {T} }} > é uma matriz × K N' j cuja coluna é o vetor de observações n na variável “j”, em seguida, transpomos os lugares rendimentos apropriados:

Q = 1 N 1 ( M 1 N x ¯ ) T ( M 1 N x ¯ ) . {\displaystyle \mathbf {Q} ={\frac {1}{N-1}}(\mathbf {M} -\mathbf {1} _{N}\mathbf {\bar {x}} )^{\mathrm {T} }(\mathbf {M} -\mathbf {1} _{N}\mathbf {\bar {x}} ).}

Discussão

A média amostral e a matriz de covariância amostral são estimativas imparciais da média e a matriz de covariância do vetor aleatório X {\displaystyle \textstyle \mathbf {X} } , um vetor linha cujos j th elemento (j = 1, ..., K) é uma das variáveis aleatórias.[1] A matriz da covariância da amostra tem N 1 {\displaystyle \textstyle N-1} no denominador, em vez de N {\displaystyle \textstyle N} devido a uma variação na função de Bessel: Em suma, a covariância da amostra baseia-se na diferença entre cada observação e a média amostral, mas a média amostral é correlacionada com cada observação. Se a média da população ( E ( X ) {\displaystyle \operatorname {E} (\mathbf {X} )} )é conhecida, a estimativa imparcial análoga

q j k = 1 N i = 1 N ( x i j E ( X j ) ) ( x i k E ( X k ) ) , {\displaystyle q_{jk}={\frac {1}{N}}\sum _{i=1}^{N}\left(x_{ij}-\operatorname {E} (X_{j})\right)\left(x_{ik}-\operatorname {E} (X_{k})\right),} usando a média da população , temos N {\displaystyle \textstyle N} no denominador.

Este é um exemplo do por que em probabilidade e estatística é essencial distinguir variável aleatória (letras maiúsculas) e o valor observado das variáveis aleatórias (letras minúsculas).

O valor máximo estimado

q j k = 1 N i = 1 N ( x i j x ¯ j ) ( x i k x ¯ k ) {\displaystyle q_{jk}={\frac {1}{N}}\sum _{i=1}^{N}\left(x_{ij}-{\bar {x}}_{j}\right)\left(x_{ik}-{\bar {x}}_{k}\right)}

para a distribuição Gaussiana caso tem N no denominador também. A proporção de 1 / N a 1 / ( N- 1 ) se aproxima de 1 para grande N , de modo que a estimativa máxima da probabilidade é aproximadamente igual à estimativa imparcial quando o amostra é grande.

Variância da média amostral

Para cada variável aleatória, a média amostral é um bom estimador da média da população , onde um "bom" estimador é definido como sendo eficiente e imparcial. Claro que o estimador provavelmente não será o verdadeiro valor da população significa que diferentes amostras retiradas da mesma distribuição dará diferentes médias amostrais e, portanto, diferentes estimativas da média verdadeira. Assim, a média amostral é uma variável aleatória, não uma constante e, consequentemente, tem a sua própria distribuição. Para uma amostra aleatória de observações n no “j th variável aleatória , a própria distribuição da média amostral tem média igual à média da população E ( X j ) {\displaystyle E(X_{j})} e variância igual a σ j 2 N , {\displaystyle {\frac {\sigma _{j}^{2}}{N}},} , onde σ j 2 {\displaystyle \sigma _{j}^{2}} é a variância da variável aleatória “X” j.

Amostras ponderadas

Numa amostra ponderada, para cada vetor x i {\displaystyle \textstyle {\textbf {x}}_{i}} (cada conjunto de observações individuais em cada um dos K variáveis aleatórias) é atribuído um peso w i 0 {\displaystyle \textstyle w_{i}\geq 0} . Sem perda de generalidade, suponha que os pesos são constantes normais:

i = 1 N w i = 1. {\displaystyle \sum _{i=1}^{N}w_{i}=1.}

(Se eles não estiverem, dividir os pesos por sua soma). Em seguida, o vetor ponderado x ¯ {\displaystyle \textstyle \mathbf {\bar {x}} } é dado pela

x ¯ = i = 1 N w i x i . {\displaystyle \mathbf {\bar {x}} =\sum _{i=1}^{N}w_{i}\mathbf {x} _{i}.}

E os elementos q j k {\displaystyle q_{jk}} da matriz de covariância ponderada Q {\displaystyle \textstyle \mathbf {Q} } são [2]

q j k = i = 1 N w i ( i = 1 N w i ) 2 i = 1 N w i 2 i = 1 N w i ( x i j x ¯ j ) ( x i k x ¯ k ) . {\displaystyle q_{jk}={\frac {\sum _{i=1}^{N}w_{i}}{\left(\sum _{i=1}^{N}w_{i}\right)^{2}-\sum _{i=1}^{N}w_{i}^{2}}}\sum _{i=1}^{N}w_{i}\left(x_{ij}-{\bar {x}}_{j}\right)\left(x_{ik}-{\bar {x}}_{k}\right).}

Se todos os pesos são os mesmos , w i = 1 / N {\displaystyle \textstyle w_{i}=1/N} , a média ponderada e covariância reduzir para a média amostral e covariância acima.

Crítica

A média amostral e covariância de amostra são amplamente utilizados em estatísticas e aplicações, e são medidas extremamente comuns de localização e dispersão, respectivamente, provavelmente o mais comum: eles são facilmente calculado e possuir características desejáveis.

No entanto, eles sofrem de certos inconvenientes; nomeadamente, eles não são estatísticas robustas, o que significa que eles são sensivelmente discrepantes. Como robustez é muitas vezes uma característica desejada, particularmente em aplicações do mundo real, alternativas robustas pode revelar-se desejável , nomeadamente estatísticas quantis baseadas na mediana da amostra para localização, ,[3] e intervalo interquartil (IQR) para dispersão. Outras alternativas incluem corte e Winsorising.

Referências

  1. Richard Arnold Johnson; Dean W. Wichern (2007). Applied Multivariate Statistical Analysis. [S.l.]: Pearson Prentice Hall. ISBN 978-0-13-187715-3. Consultado em 10 de agosto de 2012 
  2. Mark Galassi, Jim Davies, James Theiler, Brian Gough, Gerard Jungman, Michael Booth, and Fabrice Rossi. GNU Scientific Library - Reference manual, Version 1.15, 2011. Sec. 21.7 Weighted Samples
  3. The World Question Center 2006: The Sample Mean, Bart Kosko
  • Portal de probabilidade e estatística