Como calcular a média aritmética. Como calcular a média

A forma mais comum de indicadores estatísticos utilizados na investigação socioeconómica é o valor médio, que é uma característica quantitativa generalizada de uma característica de uma população estatística. Os valores médios são, por assim dizer, “representantes” de toda a série de observações. Em muitos casos, a média pode ser determinada através do índice médio inicial (ARR) ou da sua fórmula lógica: . Assim, por exemplo, para calcular o salário médio dos empregados de uma empresa, é necessário dividir o fundo salarial total pelo número de empregados: O numerador do rácio inicial da média é o seu indicador definidor. Para os salários médios, esse indicador determinante é o fundo salarial. Para cada indicador utilizado na análise socioeconómica, apenas um rácio inicial verdadeiro pode ser compilado para calcular a média. Deve-se acrescentar também que para estimar com maior precisão o desvio padrão para amostras pequenas (com número de elementos inferior a 30), a expressão abaixo da raiz não deve ser usada no denominador n, A n- 1.

Conceito e tipos de médias

Valor médio- este é um indicador geral de uma população estatística que elimina diferenças individuais nos valores das quantidades estatísticas, permitindo comparar diferentes populações entre si. Existe 2 aulas valores médios: poder e estrutural. As médias estruturais incluem moda E mediana , mas mais frequentemente usado médias de potência Vários tipos.

Médias de potência

As médias de potência podem ser simples E pesada.

Uma média simples é calculada quando existem duas ou mais quantidades estatísticas desagrupadas, dispostas em ordem aleatória, usando a seguinte fórmula geral de média de potência (para diferentes valores de k (m)):

A média ponderada é calculada a partir das estatísticas agrupadas utilizando a seguinte fórmula geral:

Onde x - valor médio do fenômeno em estudo; x i – i-ésima versão da característica média;

f i – peso da i-ésima opção.

Onde X são os valores dos valores estatísticos individuais ou do meio dos intervalos de agrupamento;
m é um expoente, cujo valor determina os seguintes tipos de médias de potência:
quando m = -1 média harmônica;
em m = 0 média geométrica;
com m = 1 média aritmética;
quando m = 2 raiz quadrada média;
em m = 3 a média é cúbica.

Utilizando fórmulas gerais de médias simples e ponderadas para diferentes expoentes m, obtemos fórmulas particulares de cada tipo, que serão discutidas detalhadamente a seguir.

Média aritmética

Média aritmética – momento inicial de primeira ordem, expectativa matemática dos valores de uma variável aleatória com grande número de testes;

A média aritmética é o valor médio mais comumente utilizado, obtido substituindo m=1 na fórmula geral. Média aritmética simples tem o seguinte formato:

ou

Onde X são os valores das grandezas para as quais o valor médio deve ser calculado; N é o número total de valores de X (o número de unidades na população em estudo).

Por exemplo, um aluno foi aprovado em 4 provas e recebeu as seguintes notas: 3, 4, 4 e 5. Vamos calcular a nota média usando a fórmula da média aritmética simples: (3+4+4+5)/4 = 16/4 = 4. Média aritmética pesada tem o seguinte formato:

Onde f é o número de quantidades com o mesmo valor X (frequência). >Por exemplo, um aluno foi aprovado em 4 provas e obteve as seguintes notas: 3, 4, 4 e 5. Vamos calcular a nota média usando a fórmula da média aritmética ponderada: (3*1 + 4*2 + 5*1)/4 = 16/4 = 4 . Se os valores X forem especificados como intervalos, os pontos médios dos intervalos X serão usados ​​​​para cálculos, que são definidos como a meia soma dos limites superior e inferior do intervalo. E se o intervalo X não tiver um limite inferior ou superior (intervalo aberto), então, para encontrá-lo, use o intervalo (a diferença entre o limite superior e inferior) do intervalo adjacente X. Por exemplo, uma empresa possui 10 funcionários com até 3 anos de experiência, 20 com 3 a 5 anos de experiência, 5 funcionários com mais de 5 anos de experiência. Em seguida calculamos o tempo médio de serviço dos colaboradores através da fórmula da média aritmética ponderada, tomando como X o ponto médio dos intervalos de tempo de serviço (2, 4 e 6 anos): (2*10+4*20+6*5)/(10+20+5) = 3,71 anos.

Função MÉDIA

Esta função calcula a média (aritmética) de seus argumentos.

MÉDIA(número1; número2; ...)

Número1, número2, ... são de 1 a 30 argumentos para os quais a média é calculada.

Os argumentos devem ser números ou nomes, matrizes ou referências contendo números. Se o argumento, que é uma matriz ou referência, contiver textos, booleanos ou células vazias, tais valores serão ignorados; entretanto, as células que contêm valores zero são contadas.

Função MÉDIA

Calcula a média aritmética dos valores fornecidos na lista de argumentos. Além de números, o cálculo pode incluir texto e valores lógicos, como VERDADEIRO e FALSO.

MÉDIA(valor1,valor2,...)

Valor1, valor2,... são de 1 a 30 células, intervalos de células ou valores para os quais a média é calculada.

Os argumentos devem ser números, nomes, matrizes ou referências. Matrizes e links contendo texto são interpretados como 0 (zero). O texto vazio ("") é interpretado como 0 (zero). Argumentos contendo o valor TRUE são interpretados como 1, Argumentos contendo o valor FALSE são interpretados como 0 (zero).

A média aritmética é a mais utilizada, mas há momentos em que é necessário utilizar outros tipos de médias. Vamos considerar esses casos mais detalhadamente.

Média harmônica

Média harmônica para determinar a soma média dos recíprocos;

Média harmônicaé usado quando os dados de origem não contêm frequências f para valores individuais de X, mas são apresentados como seu produto Xf. Tendo designado Xf=w, expressamos f=w/X, e, substituindo essas notações na fórmula da média aritmética ponderada, obtemos a fórmula da média harmônica ponderada:

Assim, a média harmônica ponderada é utilizada quando as frequências f são desconhecidas e w=Xf é conhecido. Nos casos em que todos w = 1, ou seja, valores individuais de X ocorrem uma vez, a fórmula dos primos harmônicos médios é aplicada: ou Por exemplo, um carro viajava do ponto A ao ponto B a uma velocidade de 90 km/h e voltava a uma velocidade de 110 km/h. Para determinar a velocidade média, aplicamos a fórmula do harmônico médio simples, pois no exemplo é dada a distância w 1 =w 2 (a distância do ponto A ao ponto B é a mesma que de B a A), que é igual ao produto da velocidade (X) e do tempo ( f). Velocidade média = (1+1)/(1/90+1/110) = 99 km/h.

Função SRGARM

Retorna a média harmônica de um conjunto de dados. A média harmônica é a recíproca da média aritmética dos recíprocos.

SRGARM(número1,número2, ...)

Número1, número2, ... são de 1 a 30 argumentos para os quais a média é calculada. Você pode usar uma matriz ou uma referência de matriz em vez de argumentos separados por ponto e vírgula.

A média harmônica é sempre menor que a média geométrica, que é sempre menor que a média aritmética.

Média geométrica

Média geométrica para estimar a taxa média de crescimento de variáveis ​​​​aleatórias, encontrando o valor de uma característica equidistante dos valores mínimo e máximo;

Média geométrica usado na determinação de mudanças relativas médias. A média geométrica fornece o resultado de média mais preciso se a tarefa for encontrar um valor de X que seja equidistante dos valores máximo e mínimo de X. Por exemplo, entre 2005 e 2008índice de inflação na Rússia foi: em 2005 - 1.109; em 2006 - 1.090; em 2007 - 1.119; em 2008 - 1.133. Como o índice de inflação é uma variação relativa (índice dinâmico), o valor médio deve ser calculado pela média geométrica: (1,109*1,090*1,119*1,133)^(1/4) = 1,1126, ou seja, para o período a partir de 2005 até 2008, os preços anuais cresceram em média 11,26%. Um cálculo errado utilizando a média aritmética daria um resultado incorreto de 11,28%.

Função SRGEOM

Retorna a média geométrica de uma matriz ou intervalo de números positivos. Por exemplo, a função SRGEOM pode ser usada para calcular a taxa média de crescimento se for especificada uma renda composta com taxas variáveis.

SRGEOM (número1; número2; ...)

Número1, número2, ... são de 1 a 30 argumentos para os quais a média geométrica é calculada. Você pode usar uma matriz ou uma referência de matriz em vez de argumentos separados por ponto e vírgula.

Quadrado médio

Média quadrada – momento inicial de segunda ordem.

Quadrado médio utilizado nos casos em que os valores iniciais de X podem ser positivos e negativos, por exemplo, no cálculo de desvios médios. A principal aplicação da média quadrática é medir a variação dos valores de X.

Cúbico médio

A cúbica média é o momento inicial de terceira ordem.

Cúbico médioé usado muito raramente, por exemplo, no cálculo dos índices de pobreza para países em desenvolvimento (TIN-1) e para países desenvolvidos (TIN-2), propostos e calculados pela ONU.

Na maioria dos casos, os dados estão concentrados em torno de algum ponto central. Assim, para descrever qualquer conjunto de dados, basta indicar o valor médio. Consideremos sequencialmente três características numéricas que são utilizadas para estimar o valor médio da distribuição: média aritmética, mediana e moda.

Média

A média aritmética (muitas vezes chamada simplesmente de média) é a estimativa mais comum da média de uma distribuição. É o resultado da divisão da soma de todos os valores numéricos observados pelo seu número. Para uma amostra composta por números X 1, X 2, …, Xn, média amostral (denotada por ) é igual a = (X 1 + X 2 +… + Xn) / n, ou

onde está a média da amostra, n- tamanho da amostra, Xeu– i-ésimo elemento da amostra.

Baixe a nota em ou formato, exemplos em formato

Considere calcular a média aritmética dos retornos anuais médios de cinco anos de 15 fundos mútuos de risco muito alto (Figura 1).

Arroz. 1. Retornos médios anuais de 15 fundos mútuos de risco muito alto

A média amostral é calculada da seguinte forma:

Este é um bom retorno, especialmente em comparação com o retorno de 3-4% que os depositantes de bancos ou cooperativas de crédito receberam durante o mesmo período. Se classificarmos os retornos, é fácil perceber que oito fundos têm retornos acima da média e sete abaixo da média. A média aritmética atua como ponto de equilíbrio, de modo que os fundos com baixos retornos equilibram os fundos com retornos elevados. Todos os elementos da amostra estão envolvidos no cálculo da média. Nenhuma das outras estimativas da média de uma distribuição possui esta propriedade.

Quando você deve calcular a média aritmética? Como a média aritmética depende de todos os elementos da amostra, a presença de valores extremos afeta significativamente o resultado. Nessas situações, a média aritmética pode distorcer o significado dos dados numéricos. Portanto, ao descrever um conjunto de dados contendo valores extremos, é necessário indicar a mediana ou a média aritmética e a mediana. Por exemplo, se retirarmos da amostra os retornos do fundo RS Emerging Growth, a média amostral dos retornos dos 14 fundos diminui quase 1%, para 5,19%.

Mediana

A mediana representa o valor médio de uma matriz ordenada de números. Se a matriz não contiver números repetidos, metade de seus elementos será menor e a outra metade será maior que a mediana. Se a amostra contiver valores extremos, é melhor usar a mediana em vez da média aritmética para estimar a média. Para calcular a mediana de uma amostra, primeiro ela deve ser ordenada.

Esta fórmula é ambígua. Seu resultado depende se o número é par ou ímpar n:

  • Se a amostra contém um número ímpar de elementos, a mediana é (n+1)/2-ésimo elemento.
  • Se a amostra contiver um número par de elementos, a mediana situa-se entre os dois elementos centrais da amostra e é igual à média aritmética calculada sobre estes dois elementos.

Para calcular a mediana de uma amostra contendo os retornos de 15 fundos mútuos de risco muito alto, primeiro é necessário classificar os dados brutos (Figura 2). Então a mediana será oposta ao número do elemento intermediário da amostra; em nosso exemplo nº 8. O Excel tem uma função especial =MEDIAN() que também funciona com arrays não ordenados.

Arroz. 2. Mediana de 15 fundos

Assim, a mediana é 6,5. Isto significa que o retorno de metade dos fundos de risco muito elevado não excede 6,5 e o retorno da outra metade o excede. Observe que a mediana de 6,5 não é muito maior que a média de 6,08.

Se retirarmos da amostra o retorno do fundo RS Emerging Growth, então a mediana dos 14 fundos restantes diminui para 6,2%, ou seja, não tão significativamente quanto a média aritmética (Figura 3).

Arroz. 3. Mediana de 14 fundos

Moda

O termo foi cunhado pela primeira vez por Pearson em 1894. Moda é o número que ocorre com mais frequência em uma amostra (o mais elegante). A moda descreve bem, por exemplo, a reação típica dos motoristas a um semáforo para parar de andar. Um exemplo clássico do uso da moda é a escolha do tamanho do sapato ou da cor do papel de parede. Se uma distribuição tiver vários modos, então ela é considerada multimodal ou multimodal (tem dois ou mais “picos”). A multimodalidade da distribuição fornece informações importantes sobre a natureza da variável em estudo. Por exemplo, em inquéritos sociológicos, se uma variável representa uma preferência ou atitude em relação a algo, então a multimodalidade pode significar que existem várias opiniões distintamente diferentes. A multimodalidade também serve como indicador de que a amostra não é homogênea e as observações podem ser geradas por duas ou mais distribuições “sobrepostas”. Ao contrário da média aritmética, os valores discrepantes não afetam a moda. Para variáveis ​​aleatórias distribuídas continuamente, como o retorno médio anual dos fundos mútuos, a moda às vezes não existe (ou não faz sentido). Como esses indicadores podem assumir valores muito diferentes, valores repetidos são extremamente raros.

Quartis

Quartis são as métricas mais utilizadas para avaliar a distribuição de dados ao descrever as propriedades de grandes amostras numéricas. Enquanto a mediana divide a matriz ordenada pela metade (50% dos elementos da matriz são menores que a mediana e 50% são maiores), os quartis dividem o conjunto de dados ordenados em quatro partes. Os valores de Q 1 , mediana e Q 3 são os percentis 25, 50 e 75, respectivamente. O primeiro quartil Q 1 é um número que divide a amostra em duas partes: 25% dos elementos são menores e 75% são maiores que o primeiro quartil.

O terceiro quartil Q 3 é um número que também divide a amostra em duas partes: 75% dos elementos são menores e 25% são maiores que o terceiro quartil.

Para calcular quartis em versões do Excel anteriores a 2007, use a função =QUARTILE(array,part). A partir do Excel 2010, duas funções são usadas:

  • =QUARTIL.ON(matriz,parte)
  • =QUARTIL.EXC(matriz,parte)

Essas duas funções fornecem valores ligeiramente diferentes (Figura 4). Por exemplo, ao calcular os quartis de uma amostra contendo os retornos médios anuais de 15 fundos mútuos de risco muito alto, Q 1 = 1,8 ou –0,7 para QUARTILE.IN e QUARTILE.EX, respectivamente. A propósito, a função QUARTILE, utilizada anteriormente, corresponde à moderna função QUARTILE.ON. Para calcular quartis no Excel usando as fórmulas acima, a matriz de dados não precisa ser ordenada.

Arroz. 4. Calculando quartis no Excel

Vamos enfatizar novamente. Excel pode calcular quartis para uma variável série discreta, contendo os valores de uma variável aleatória. O cálculo dos quartis para uma distribuição baseada em frequência é apresentado abaixo na seção.

Média geométrica

Ao contrário da média aritmética, a média geométrica permite estimar o grau de mudança de uma variável ao longo do tempo. A média geométrica é a raiz nº grau do trabalho n quantidades (no Excel é usada a função =SRGEOM):

G= (X 1 * X 2 *… * X n) 1/n

Um parâmetro semelhante - o valor médio geométrico da taxa de lucro - é determinado pela fórmula:

G = [(1 + R 1) * (1 + R 2) * … * (1 + R n)] 1/n – 1,

Onde R eu– taxa de lucro para euº período de tempo.

Por exemplo, suponha que o investimento inicial seja de US$ 100.000. No final do primeiro ano, ele cai para US$ 50.000 e, no final do segundo ano, recupera para o nível inicial de US$ 100.000. A taxa de retorno desse investimento ao longo de dois anos. O período de um ano é igual a 0, pois os valores inicial e final dos recursos são iguais entre si. Porém, a média aritmética das taxas de retorno anuais é = (–0,5 + 1) / 2 = 0,25 ou 25%, uma vez que a taxa de retorno no primeiro ano R 1 = (50.000 – 100.000) / 100.000 = –0,5, e no segundo R 2 = (100.000 – 50.000) / 50.000 = 1. Ao mesmo tempo, o valor médio geométrico da taxa de lucro de dois anos é igual a: G = [(1–0,5) * (1+ 1 )] 1/2 – 1 = ½ – 1 = 1 – 1 = 0. Assim, a média geométrica reflete com mais precisão a mudança (mais precisamente, a ausência de mudanças) no volume de investimento ao longo de um período de dois anos do que a média aritmética.

Fatos interessantes. Em primeiro lugar, a média geométrica será sempre menor que a média aritmética dos mesmos números. Exceto no caso em que todos os números obtidos são iguais entre si. Em segundo lugar, considerando as propriedades de um triângulo retângulo, você pode entender por que a média é chamada de geométrica. A altura de um triângulo retângulo, rebaixado até a hipotenusa, é a média proporcional entre as projeções dos catetos na hipotenusa, e cada cateto é a média proporcional entre a hipotenusa e sua projeção na hipotenusa (Fig. 5). Isso fornece uma maneira geométrica de construir a média geométrica de dois (comprimentos) segmentos: você precisa construir um círculo na soma desses dois segmentos como um diâmetro, então a altura restaurada do ponto de sua conexão até a intersecção com o círculo dará o valor desejado:

Arroz. 5. Natureza geométrica da média geométrica (figura da Wikipedia)

A segunda propriedade importante dos dados numéricos é a sua variação, caracterizando o grau de dispersão dos dados. Duas amostras diferentes podem diferir tanto em médias quanto em variâncias. No entanto, como mostrado na Fig. 6 e 7, duas amostras podem ter as mesmas variações, mas médias diferentes, ou as mesmas médias e variações completamente diferentes. Os dados que correspondem ao polígono B na Fig. 7, mudam muito menos do que os dados sobre os quais o polígono A foi construído.

Arroz. 6. Duas distribuições simétricas em forma de sino com o mesmo spread e valores médios diferentes

Arroz. 7. Duas distribuições simétricas em forma de sino com os mesmos valores médios e spreads diferentes

Existem cinco estimativas de variação de dados:

  • escopo,
  • intervalo interquartil,
  • dispersão,
  • desvio padrão,
  • o coeficiente de variação.

Escopo

O intervalo é a diferença entre o maior e o menor elemento da amostra:

Alcance = XMáx. – XMínimo

O intervalo de uma amostra contendo os retornos médios anuais de 15 fundos mútuos de risco muito alto pode ser calculado usando a matriz ordenada (ver Figura 4): Intervalo = 18,5 – (–6,1) = 24,6. Isto significa que a diferença entre os rendimentos médios anuais mais elevados e mais baixos dos fundos de risco muito elevado é de 24,6%.

O intervalo mede a dispersão geral dos dados. Embora o intervalo amostral seja uma estimativa muito simples da dispersão global dos dados, o seu ponto fraco é que não leva em conta exactamente como os dados estão distribuídos entre os elementos mínimo e máximo. Este efeito é claramente visível na Fig. 8, que ilustra amostras com o mesmo intervalo. A escala B demonstra que se uma amostra contém pelo menos um valor extremo, o intervalo da amostra é uma estimativa muito imprecisa da dispersão dos dados.

Arroz. 8. Comparação de três amostras com o mesmo intervalo; o triângulo simboliza o suporte da escala e sua localização corresponde à média amostral

Intervalo interquartil

O intervalo interquartil, ou médio, é a diferença entre o terceiro e o primeiro quartil da amostra:

Intervalo interquartil = Q 3 – Q 1

Este valor permite estimar a dispersão de 50% dos elementos e não levar em consideração a influência dos elementos extremos. O intervalo interquartil de uma amostra contendo os retornos médios anuais de 15 fundos mútuos de risco muito alto pode ser calculado usando os dados da Fig. 4 (por exemplo, para a função QUARTILE.EXC): Intervalo interquartil = 9,8 – (–0,7) = 10,5. O intervalo delimitado pelos números 9,8 e -0,7 costuma ser chamado de metade intermediária.

Ressalta-se que os valores de Q 1 e Q 3 , e consequentemente o intervalo interquartil, não dependem da presença de outliers, pois seu cálculo não leva em consideração nenhum valor que seja menor que Q 1 ou maior do que Q3. As medidas resumidas, como a mediana, o primeiro e o terceiro quartis e o intervalo interquartil, que não são afetadas por valores discrepantes, são chamadas de medidas robustas.

Embora o intervalo e o intervalo interquartil forneçam estimativas da dispersão global e média de uma amostra, respetivamente, nenhuma destas estimativas tem em conta exatamente como os dados são distribuídos. Variância e desvio padrão estão desprovidos dessa desvantagem. Esses indicadores permitem avaliar até que ponto os dados flutuam em torno do valor médio. Variância da amostraé uma aproximação da média aritmética calculada a partir dos quadrados das diferenças entre cada elemento amostral e a média amostral. Para uma amostra X 1, X 2, ... X n, a variância da amostra (denotada pelo símbolo S 2 é dada pela seguinte fórmula:

Em geral, a variância amostral é a soma dos quadrados das diferenças entre os elementos da amostra e a média amostral, dividida por um valor igual ao tamanho da amostra menos um:

Onde - média aritmética, n- tamanho da amostra, XI - eu o elemento de seleção X. No Excel anterior à versão 2007, a função =VARIN() era utilizada para calcular a variância amostral; desde a versão 2010, é utilizada a função =VARIAN().

A estimativa mais prática e amplamente aceita da distribuição de dados é desvio padrão da amostra. Este indicador é denotado pelo símbolo S e é igual à raiz quadrada da variância da amostra:

No Excel anterior à versão 2007, a função =STDEV.() era utilizada para calcular o desvio padrão da amostra, desde a versão 2010, a função =STDEV.V() é utilizada. Para calcular essas funções, a matriz de dados pode estar desordenada.

Nem a variância amostral nem o desvio padrão amostral podem ser negativos. A única situação em que os indicadores S 2 e S podem ser zero é se todos os elementos da amostra forem iguais entre si. Neste caso completamente improvável, o intervalo e o intervalo interquartil também são zero.

Os dados numéricos são inerentemente voláteis. Qualquer variável pode assumir muitos valores diferentes. Por exemplo, diferentes fundos mútuos têm diferentes taxas de retorno e perda. Devido à variabilidade dos dados numéricos, é muito importante estudar não apenas estimativas de média, que são de natureza resumida, mas também estimativas de variância, que caracterizam a dispersão dos dados.

A dispersão e o desvio padrão permitem avaliar a dispersão dos dados em torno do valor médio, ou seja, determinar quantos elementos da amostra são menores que a média e quantos são maiores. A dispersão tem algumas propriedades matemáticas valiosas. No entanto, seu valor é o quadrado da unidade de medida – porcentagem quadrada, dólar quadrado, polegada quadrada, etc. Portanto, uma medida natural de dispersão é o desvio padrão, que é expresso em unidades comuns de porcentagem de renda, dólares ou polegadas.

O desvio padrão permite estimar a quantidade de variação dos elementos da amostra em torno do valor médio. Em quase todas as situações, a maioria dos valores observados situa-se na faixa de mais ou menos um desvio padrão da média. Consequentemente, conhecendo a média aritmética dos elementos da amostra e o desvio padrão da amostra, é possível determinar o intervalo ao qual pertence o grosso dos dados.

O desvio padrão dos retornos dos 15 fundos mútuos de risco muito alto é de 6,6 (Figura 9). Isto significa que a rentabilidade da maior parte dos fundos difere do valor médio em não mais de 6,6% (ou seja, flutua na faixa de –S= 6,2 – 6,6 = –0,4 para +S= 12,8). Na verdade, o retorno anual médio de cinco anos de 53,3% (8 em 15) dos fundos situa-se dentro deste intervalo.

Arroz. 9. Desvio padrão da amostra

Observe que, ao somar as diferenças quadradas, os itens da amostra que estão mais distantes da média recebem maior peso do que os itens que estão mais próximos da média. Esta propriedade é a principal razão pela qual a média aritmética é mais frequentemente usada para estimar a média de uma distribuição.

O coeficiente de variação

Ao contrário das estimativas anteriores de dispersão, o coeficiente de variação é uma estimativa relativa. É sempre medido em percentagem e não nas unidades dos dados originais. O coeficiente de variação, denotado pelos símbolos CV, mede a dispersão dos dados em torno da média. O coeficiente de variação é igual ao desvio padrão dividido pela média aritmética e multiplicado por 100%:

Onde S- desvio padrão da amostra, - média amostral.

O coeficiente de variação permite comparar duas amostras cujos elementos são expressos em unidades de medida diferentes. Por exemplo, o gestor de um serviço de entrega de correio pretende renovar a sua frota de camiões. Ao carregar pacotes, há duas restrições a serem consideradas: o peso (em libras) e o volume (em pés cúbicos) de cada pacote. Suponha que em uma amostra contendo 200 sacas, o peso médio seja 26,0 libras, o desvio padrão do peso seja 3,9 libras, o volume médio da sacola seja 8,8 pés cúbicos e o desvio padrão do volume seja 2,2 pés cúbicos. Como comparar a variação de peso e volume das embalagens?

Como as unidades de medida de peso e volume diferem entre si, o gestor deve comparar a distribuição relativa dessas quantidades. O coeficiente de variação do peso é CV W = 3,9 / 26,0 * 100% = 15%, e o coeficiente de variação do volume é CV V = 2,2 / 8,8 * 100% = 25%. Assim, a variação relativa no volume dos pacotes é muito maior do que a variação relativa no seu peso.

Formulário de distribuição

A terceira propriedade importante de uma amostra é a forma de sua distribuição. Essa distribuição pode ser simétrica ou assimétrica. Para descrever a forma de uma distribuição, é necessário calcular sua média e mediana. Se os dois forem iguais, a variável é considerada distribuída simetricamente. Se o valor médio de uma variável for maior que a mediana, sua distribuição apresenta assimetria positiva (Fig. 10). Se a mediana for maior que a média, a distribuição da variável é negativamente distorcida. A assimetria positiva ocorre quando a média aumenta para valores excepcionalmente altos. A assimetria negativa ocorre quando a média diminui para valores anormalmente pequenos. Uma variável é distribuída simetricamente se não assume nenhum valor extremo em nenhuma direção, de modo que valores grandes e pequenos da variável se cancelam.

Arroz. 10. Três tipos de distribuições

Os dados mostrados na escala A são distorcidos negativamente. Esta figura mostra uma cauda longa e uma inclinação para a esquerda causada pela presença de valores anormalmente pequenos. Esses valores extremamente pequenos deslocam o valor médio para a esquerda, tornando-o menor que a mediana. Os dados apresentados na escala B estão distribuídos simetricamente. As metades esquerda e direita da distribuição são imagens espelhadas de si mesmas. Valores grandes e pequenos se equilibram, e a média e a mediana são iguais. Os dados apresentados na escala B estão positivamente distorcidos. Esta figura mostra uma cauda longa e uma inclinação para a direita causada pela presença de valores invulgarmente elevados. Esses valores muito grandes deslocam a média para a direita, tornando-a maior que a mediana.

No Excel, estatísticas descritivas podem ser obtidas usando um suplemento Pacote de análise. Vá até o cardápio DadosAnálise de dados, na janela que se abre, selecione a linha Estatísticas descritivas e clique OK. Na janela Estatísticas descritivas certifique-se de indicar Intervalo de entrada(Fig. 11). Se você quiser ver estatísticas descritivas na mesma planilha dos dados originais, selecione o botão de opção Intervalo de saída e especifique a célula onde o canto superior esquerdo das estatísticas exibidas deve ser colocado (no nosso exemplo, $C$1). Se você deseja enviar dados para uma nova planilha ou pasta de trabalho, basta selecionar o botão de opção apropriado. Marque a caixa ao lado Estatísticas resumidas. Se desejar, você também pode escolher Nível de dificuldade,k-ésimo menor ek-ésimo maior.

Se estiver em depósito Dados na área Análise você não vê o ícone Análise de dados, você precisa instalar o complemento primeiro Pacote de análise(ver, por exemplo,).

Arroz. 11. Estatísticas descritivas dos retornos anuais médios de cinco anos de fundos com níveis de risco muito elevados, calculados através do add-in Análise de dados Programas Excel

O Excel calcula uma série de estatísticas discutidas acima: média, mediana, moda, desvio padrão, variância, intervalo ( intervalo), mínimo, máximo e tamanho da amostra ( verificar). O Excel também calcula algumas estatísticas que são novas para nós: erro padrão, curtose e assimetria. Erro padrão igual ao desvio padrão dividido pela raiz quadrada do tamanho da amostra. Assimetria caracteriza o desvio da simetria da distribuição e é uma função que depende do cubo das diferenças entre os elementos da amostra e do valor médio. A curtose é uma medida da concentração relativa de dados em torno da média em comparação com as caudas da distribuição e depende das diferenças entre os elementos da amostra e a média elevada à quarta potência.

Cálculo de estatísticas descritivas para uma população

A média, o spread e o formato da distribuição discutidos acima são características determinadas a partir da amostra. Entretanto, se o conjunto de dados contiver medidas numéricas de toda a população, seus parâmetros poderão ser calculados. Tais parâmetros incluem o valor esperado, a dispersão e o desvio padrão da população.

Valor esperado igual à soma de todos os valores da população dividida pelo tamanho da população:

Onde µ - valor esperado, Xeu- eu a observação da variável X, N- volume da população em geral. No Excel, para calcular a expectativa matemática, utiliza-se a mesma função da média aritmética: =MÉDIA().

Variância populacional igual à soma dos quadrados das diferenças entre os elementos da população geral e o tapete. expectativa dividida pelo tamanho da população:

Onde σ2– dispersão da população em geral. No Excel anterior à versão 2007, a função =VARP() é usada para calcular a variância de uma população, começando com a versão 2010 =VARP().

Desvio padrão populacional igual à raiz quadrada da variância populacional:

No Excel anterior à versão 2007, a função =STDEV() é usada para calcular o desvio padrão de uma população, começando com a versão 2010 =STDEV.Y(). Observe que as fórmulas para a variância populacional e o desvio padrão são diferentes das fórmulas para cálculo da variância amostral e do desvio padrão. Ao calcular estatísticas de amostra S2 E S o denominador da fração é n-1, e ao calcular parâmetros σ2 E σ - volume da população em geral N.

Regra prática

Na maioria das situações, uma grande proporção de observações concentra-se em torno da mediana, formando um cluster. Em conjuntos de dados com assimetria positiva, este cluster está localizado à esquerda (ou seja, abaixo) da expectativa matemática, e em conjuntos com assimetria negativa, este cluster está localizado à direita (ou seja, acima) da expectativa matemática. Para dados simétricos, a média e a mediana são iguais, e as observações agrupam-se em torno da média, formando uma distribuição em forma de sino. Se a distribuição não estiver claramente distorcida e os dados estiverem concentrados em torno de um centro de gravidade, uma regra prática que pode ser usada para estimar a variabilidade é que se os dados tiverem uma distribuição em forma de sino, então aproximadamente 68% das observações estão dentro um desvio padrão do valor esperado. Aproximadamente 95% das observações não estão a mais de dois desvios padrão da expectativa matemática e 99,7% das observações não estão a mais de três desvios padrão da expectativa matemática.

Assim, o desvio padrão, que é uma estimativa da variação média em torno do valor esperado, ajuda a compreender como as observações estão distribuídas e a identificar outliers. A regra geral é que, para distribuições em forma de sino, apenas um valor em vinte difere da expectativa matemática em mais de dois desvios padrão. Portanto, valores fora do intervalo μ ± 2σ, podem ser considerados outliers. Além disso, apenas três em cada 1000 observações diferem da expectativa matemática em mais de três desvios padrão. Assim, valores fora do intervalo μ ± 3σ são quase sempre discrepantes. Para distribuições altamente distorcidas ou sem formato de sino, a regra prática de Bienamay-Chebyshev pode ser aplicada.

Há mais de cem anos, os matemáticos Bienamay e Chebyshev descobriram independentemente a propriedade útil do desvio padrão. Eles descobriram que para qualquer conjunto de dados, independentemente da forma da distribuição, a percentagem de observações que se encontram a uma distância de k desvios padrão da expectativa matemática, não menos (1 – 1/ 2)*100%.

Por exemplo, se k= 2, a regra Bienname-Chebyshev afirma que pelo menos (1 – (1/2) 2) x 100% = 75% das observações devem estar no intervalo μ ± 2σ. Esta regra é válida para qualquer k, excedendo um. A regra Bienamay-Chebyshev é muito geral e válida para distribuições de qualquer tipo. Especifica o número mínimo de observações, a distância a partir da qual a expectativa matemática não excede um valor especificado. No entanto, se a distribuição for em forma de sino, a regra prática estima com mais precisão a concentração de dados em torno do valor esperado.

Cálculo de estatísticas descritivas para uma distribuição baseada em frequência

Se os dados originais não estiverem disponíveis, a distribuição de frequência torna-se a única fonte de informação. Nessas situações, é possível calcular valores aproximados de indicadores quantitativos da distribuição, como média aritmética, desvio padrão e quartis.

Se os dados amostrais forem representados como uma distribuição de frequência, uma aproximação da média aritmética pode ser calculada assumindo que todos os valores dentro de cada classe estão concentrados no ponto médio da classe:

Onde - média amostral, n- número de observações ou tamanho da amostra, Com- número de classes na distribuição de frequência, eu j- ponto médio jª aula, fj- frequência correspondente j-ª aula.

Para calcular o desvio padrão de uma distribuição de frequência, assume-se também que todos os valores dentro de cada classe estão concentrados no ponto médio da classe.

Para entender como os quartis de uma série são determinados com base nas frequências, considere o cálculo do quartil inferior com base nos dados de 2013 sobre a distribuição da população russa pela renda monetária per capita média (Fig. 12).

Arroz. 12. Parcela da população russa com renda média per capita em dinheiro por mês, rublos

Para calcular o primeiro quartil de uma série de variação de intervalo, você pode usar a fórmula:

onde Q1 é o valor do primeiro quartil, xQ1 é o limite inferior do intervalo que contém o primeiro quartil (o intervalo é determinado pela frequência acumulada que primeiro ultrapassa 25%); i – valor do intervalo; Σf – soma das frequências de toda a amostra; provavelmente sempre igual a 100%; SQ1–1 – frequência acumulada do intervalo anterior ao intervalo contendo o quartil inferior; fQ1 – frequência do intervalo que contém o quartil inferior. A fórmula para o terceiro quartil difere porque em todos os lugares você precisa usar Q3 em vez de Q1 e substituir ¾ em vez de ¼.

No nosso exemplo (Fig. 12), o quartil inferior está no intervalo 7.000,1 – 10.000, cuja frequência acumulada é de 26,4%. O limite inferior deste intervalo é de 7.000 rublos, o valor do intervalo é de 3.000 rublos, a frequência acumulada do intervalo anterior ao intervalo que contém o quartil inferior é de 13,4%, a frequência do intervalo que contém o quartil inferior é de 13,0%. Assim: Q1 = 7.000 + 3.000 * (¼ * 100 – 13,4) / 13 = 9.677 rublos.

Armadilhas associadas à estatística descritiva

Nesta postagem, vimos como descrever um conjunto de dados usando várias estatísticas que avaliam sua média, dispersão e distribuição. A próxima etapa é a análise e interpretação dos dados. Até agora, estudamos as propriedades objetivas dos dados e agora passamos à sua interpretação subjetiva. O pesquisador enfrenta dois erros: um tema de análise escolhido incorretamente e uma interpretação incorreta dos resultados.

A análise dos retornos de 15 fundos mútuos de risco muito elevado é bastante imparcial. Ele tirou conclusões totalmente objetivas: todos os fundos mútuos têm retornos diferentes, o spread dos retornos dos fundos varia de -6,1 a 18,5 e o retorno médio é de 6,08. A objetividade da análise dos dados é garantida pela escolha correta dos indicadores quantitativos resumidos de distribuição. Foram considerados diversos métodos para estimar a média e a dispersão dos dados, sendo indicadas suas vantagens e desvantagens. Como você escolhe as estatísticas certas para fornecer uma análise objetiva e imparcial? Se a distribuição dos dados for ligeiramente distorcida, você deve escolher a mediana em vez da média? Qual indicador caracteriza com mais precisão a distribuição dos dados: desvio padrão ou intervalo? Deveríamos salientar que a distribuição é positivamente assimétrica?

Por outro lado, a interpretação dos dados é um processo subjetivo. Pessoas diferentes chegam a conclusões diferentes ao interpretar os mesmos resultados. Todo mundo tem seu próprio ponto de vista. Alguém considera bons os retornos médios anuais totais de 15 fundos com um nível de risco muito elevado e está bastante satisfeito com os rendimentos recebidos. Outros podem achar que estes fundos têm retornos demasiado baixos. Assim, a subjetividade deve ser compensada pela honestidade, neutralidade e clareza de conclusões.

Problemas éticos

A análise de dados está inextricavelmente ligada a questões éticas. Você deve criticar as informações divulgadas por jornais, rádio, televisão e Internet. Com o tempo, você aprenderá a ser cético não apenas em relação aos resultados, mas também em relação aos objetivos, ao assunto e à objetividade da pesquisa. O famoso político britânico Benjamin Disraeli disse melhor: “Existem três tipos de mentiras: mentiras, mentiras malditas e estatísticas”.

Conforme observado na nota, surgem questões éticas na escolha dos resultados que devem ser apresentados no relatório. Tanto os resultados positivos como os negativos devem ser publicados. Além disso, ao fazer um relatório ou relatório escrito, os resultados devem ser apresentados de forma honesta, neutra e objetiva. Há uma distinção a ser feita entre apresentações malsucedidas e desonestas. Para isso, é necessário determinar quais eram as intenções do locutor. Às vezes o falante omite informações importantes por ignorância, e às vezes é deliberado (por exemplo, se ele usa a média aritmética para estimar a média de dados claramente distorcidos para obter o resultado desejado). Também é desonesto suprimir resultados que não correspondem ao ponto de vista do pesquisador.

São utilizados materiais do livro Levin et al. Statistics for Managers. – M.: Williams, 2004. – pág. 178–209

A função QUARTIL foi mantida para compatibilidade com versões anteriores do Excel.

O valor médio é o mais valioso do ponto de vista analítico e uma forma universal de expressão para indicadores estatísticos. A média mais comum - a média aritmética - possui uma série de propriedades matemáticas que podem ser utilizadas em seu cálculo. Ao mesmo tempo, no cálculo de uma média específica, é sempre aconselhável confiar na sua fórmula lógica, que é a razão entre o volume do atributo e o volume da população. Para cada média existe apenas uma relação inicial verdadeira, cuja implementação, dependendo dos dados disponíveis, pode exigir diferentes formas de médias. No entanto, em todos os casos em que a natureza do valor calculado implica a presença de pesos, é impossível utilizar as suas fórmulas não ponderadas em vez de fórmulas de média ponderada.

O valor médio é o valor mais característico do atributo para a população e o tamanho do atributo da população distribuído em proporções iguais entre as unidades da população.

A característica para a qual o valor médio é calculado é chamada média .

O valor médio é um indicador calculado pela comparação de valores absolutos ou relativos. O valor médio é denotado

O valor médio reflete a influência de todos os fatores que influenciam o fenômeno em estudo e é a resultante deles. Ou seja, extinguindo os desvios individuais e eliminando a influência dos casos, o valor médio, refletindo a medida geral dos resultados desta ação, funciona como um padrão geral do fenômeno em estudo.

Condições para usar valores médios:

Ø homogeneidade da população em estudo. Se alguns elementos de uma população sujeita à influência de um fator aleatório tiverem valores da característica em estudo significativamente diferentes dos demais, então esses elementos afetarão o tamanho da média dessa população. Neste caso, a média não expressará o valor mais típico do atributo para a população. Se o fenômeno em estudo for heterogêneo, requer sua divisão em grupos contendo elementos homogêneos. Nesse caso, são calculadas as médias dos grupos - médias dos grupos, expressando o valor mais característico do fenômeno em cada grupo, e a seguir é calculado o valor médio geral para todos os elementos, caracterizando o fenômeno como um todo. É calculado como a média das médias dos grupos, ponderada pelo número de elementos da população incluídos em cada grupo;

Ø um número suficiente de unidades no total;

Ø os valores máximo e mínimo da característica na população em estudo.

Valor médio (indicador)é uma característica quantitativa generalizada de uma característica em um agregado sistemático sob condições específicas de lugar e tempo.

Nas estatísticas, são utilizadas as seguintes formas (tipos) de médias, chamadas de potência e estruturais:

Ø média aritmética(simples e ponderado);

simples

Este termo possui outros significados, veja significado médio.

Média(em matemática e estatística) conjuntos de números - a soma de todos os números dividida pelo seu número. É uma das medidas de tendência central mais comuns.

Foi proposto (juntamente com a média geométrica e a média harmônica) pelos pitagóricos.

Casos especiais da média aritmética são a média (população geral) e a média amostral (amostra).

Introdução

Vamos denotar o conjunto de dados X = (x 1 , x 2 , …, x n), então a média da amostra é geralmente indicada por uma barra horizontal sobre a variável (x ¯ (\displaystyle (\bar (x))), pronunciada " x com uma linha").

A letra grega μ é usada para denotar a média aritmética de toda a população. Para uma variável aleatória para a qual o valor médio é determinado, μ é média probabilística ou a expectativa matemática de uma variável aleatória. Se o conjunto Xé uma coleção de números aleatórios com uma média probabilística μ, então para qualquer amostra x eu deste conjunto μ = E( x eu) é a expectativa matemática desta amostra.

Na prática, a diferença entre μ e x ¯ (\displaystyle (\bar (x))) é que μ é uma variável típica porque você pode ver uma amostra em vez de toda a população. Portanto, se a amostra for representada aleatoriamente (em termos de teoria da probabilidade), então x ¯ (\displaystyle (\bar (x))) (mas não μ) pode ser tratado como uma variável aleatória com uma distribuição de probabilidade na amostra ( a distribuição de probabilidade da média).

Ambas as quantidades são calculadas da mesma maneira:

X ¯ = 1 n ∑ i = 1 n x i = 1 n (x 1 + ⋯ + x n) . (\displaystyle (\bar (x))=(\frac (1)(n))\soma _(i=1)^(n)x_(i)=(\frac (1)(n))(x_ (1)+\cpontos +x_(n)).)

Se Xé uma variável aleatória, então a expectativa matemática X pode ser considerada como a média aritmética dos valores em medições repetidas de uma quantidade X. Esta é uma manifestação da lei dos grandes números. Portanto, a média amostral é usada para estimar o valor esperado desconhecido.

Foi provado em álgebra elementar que a média n+ 1 número acima da média n números se e somente se o novo número for maior que a média antiga, menor se e somente se o novo número for menor que a média, e não muda se e somente se o novo número for igual à média. O mais n, menor será a diferença entre as médias nova e antiga.

Observe que existem várias outras "médias" disponíveis, incluindo a média de potência, a média de Kolmogorov, a média harmônica, a média aritmética-geométrica e várias médias ponderadas (por exemplo, média aritmética ponderada, média geométrica ponderada, média harmônica ponderada).

Exemplos

  • Para três números, você precisa somá-los e dividir por 3:
x 1 + x 2 + x 3 3 . (\displaystyle (\frac (x_(1)+x_(2)+x_(3))(3)).)
  • Para quatro números, você precisa somá-los e dividir por 4:
x 1 + x 2 + x 3 + x 4 4 . (\displaystyle (\frac (x_(1)+x_(2)+x_(3)+x_(4))(4)).)

Ou mais simples 5+5=10, 10:2. Como estávamos somando 2 números, o que significa quantos números somamos, dividimos por esse número.

Variável aleatória contínua

Para uma quantidade continuamente distribuída f (x) (\displaystyle f(x)), a média aritmética no intervalo [ a ; b ] (\displaystyle ) é determinado através de uma integral definida:

F (x) ¯ [ uma ; b ] = 1 b − a ∫ a b f (x) d x (\displaystyle (\overline (f(x)))_()=(\frac (1)(b-a))\int _(a)^(b) f(x)dx)

Alguns problemas de uso da média

Falta de robustez

Artigo principal: Robustez nas estatísticas

Embora as médias aritméticas sejam frequentemente utilizadas como médias ou tendências centrais, este conceito não é uma estatística robusta, o que significa que a média aritmética é fortemente influenciada por "grandes desvios". Vale ressaltar que para distribuições com grande coeficiente de assimetria, a média aritmética pode não corresponder ao conceito de “média”, e os valores da média de estatísticas robustas (por exemplo, a mediana) podem descrever melhor a central tendência.

Um exemplo clássico é o cálculo da renda média. A média aritmética pode ser mal interpretada como uma mediana, o que pode levar à conclusão de que há mais pessoas com rendimentos mais elevados do que realmente existem. O rendimento “médio” é interpretado como significando que a maioria das pessoas tem rendimentos em torno deste número. Este rendimento “médio” (no sentido da média aritmética) é superior ao rendimento da maioria das pessoas, uma vez que um rendimento elevado com um grande desvio da média torna a média aritmética altamente distorcida (em contraste, o rendimento médio na mediana “resiste” a tal distorção). Contudo, este rendimento “médio” nada diz sobre o número de pessoas próximas do rendimento mediano (e nada diz sobre o número de pessoas próximas do rendimento modal). No entanto, se considerarmos levianamente os conceitos de “média” e “maioria das pessoas”, podemos tirar a conclusão errada de que a maioria das pessoas tem rendimentos mais elevados do que realmente têm. Por exemplo, um relatório do rendimento líquido “médio” em Medina, Washington, calculado como a média aritmética de todos os rendimentos líquidos anuais dos residentes, produziria um número surpreendentemente grande devido a Bill Gates. Considere a amostra (1, 2, 2, 2, 3, 9). A média aritmética é 3,17, mas cinco dos seis valores estão abaixo dessa média.

Juros compostos

Artigo principal: Retorno do Investimento

Se os números multiplicar, mas não dobrar, você precisa usar a média geométrica, não a média aritmética. Na maioria das vezes, esse incidente ocorre no cálculo do retorno do investimento financeiro.

Por exemplo, se uma ação caiu 10% no primeiro ano e subiu 30% no segundo, então é incorreto calcular o aumento “médio” nesses dois anos como a média aritmética (-10% + 30%) / 2 = 10%; a média correta neste caso é dada pela taxa composta de crescimento anual, que dá uma taxa de crescimento anual de apenas cerca de 8,16653826392% ≈ 8,2%.

A razão para isso é que as porcentagens têm um novo ponto de partida a cada vez: 30% é 30% de um número inferior ao preço no início do primeiro ano: se uma ação começou em US$ 30 e caiu 10%, ela valerá US$ 27 no início do segundo ano. Se a ação subisse 30%, valeria US$ 35,1 no final do segundo ano. A média aritmética desse crescimento é de 10%, mas como a ação subiu apenas US$ 5,1 em 2 anos, o crescimento médio de 8,2% dá um resultado final de US$ 35,1:

[$ 30 (1 - 0,1) (1 + 0,3) = $ 30 (1 + 0,082) (1 + 0,082) = $ 35,1]. Se usarmos a média aritmética de 10% da mesma forma, não obteremos o valor real: [$30 (1 + 0,1) (1 + 0,1) = $36,3].

Juros compostos ao final de 2 anos: 90% * 130% = 117%, ou seja, o aumento total é de 17%, e a média anual de juros compostos é de 117% ≈ 108,2% (\displaystyle (\sqrt (117\% ))\approx 108,2\%) , ou seja, um aumento médio anual de 8,2%.

instruções

Artigo principal: Estatísticas de destino

Ao calcular a média aritmética de alguma variável que muda ciclicamente (como fase ou ângulo), deve-se tomar cuidado especial. Por exemplo, a média de 1° e 359° seria 1 ∘ + 359 ∘ 2 = (\displaystyle (\frac (1^(\circ )+359^(\circ ))(2))=) 180°. Este número está incorreto por dois motivos.

  • Primeiro, as medidas angulares são definidas apenas para a faixa de 0° a 360° (ou de 0 a 2π quando medidas em radianos). Portanto, o mesmo par de números poderia ser escrito como (1° e −1°) ou como (1° e 719°). Os valores médios de cada par serão diferentes: 1 ∘ + (− 1 ∘) 2 = 0 ∘ (\displaystyle (\frac (1^(\circ )+(-1^(\circ )))(2 ))=0 ^(\circ )) , 1 ∘ + 719 ∘ 2 = 360 ∘ (\displaystyle (\frac (1^(\circ )+719^(\circ ))(2))=360^(\ circ )) .
  • Em segundo lugar, neste caso, um valor de 0° (equivalente a 360°) será um valor médio geometricamente melhor, uma vez que os números se desviam menos de 0° do que de qualquer outro valor (o valor 0° tem a menor variância). Comparar:
    • o número 1° desvia-se de 0° em apenas 1°;
    • o número 1° desvia da média calculada de 180° em 179°.

O valor médio de uma variável cíclica calculada usando a fórmula acima será deslocado artificialmente em relação à média real no meio do intervalo numérico. Por isso, a média é calculada de forma diferente, ou seja, o número com menor variância (o ponto central) é selecionado como valor médio. Além disso, em vez de subtração, é usada a distância modular (ou seja, a distância circunferencial). Por exemplo, a distância modular entre 1° e 359° é 2°, não 358° (no círculo entre 359° e 360°==0° - um grau, entre 0° e 1° - também 1°, no total -2°).

4.3. Valores médios. A essência e o significado dos valores médios

Tamanho médio nas estatísticas é um indicador geral que caracteriza o nível típico de um fenômeno em condições específicas de lugar e tempo, refletindo o valor de uma característica variável por unidade de uma população qualitativamente homogênea. Na prática económica, é utilizada uma vasta gama de indicadores, calculados como valores médios.

Por exemplo, um indicador geral do rendimento dos trabalhadores de uma sociedade por ações (JSC) é o rendimento médio de um trabalhador, determinado pela relação entre o fundo salarial e as prestações sociais para o período em análise (ano, trimestre, mês ) ao número de trabalhadores do JSC.

Calcular a média é uma das técnicas comuns de generalização; o indicador médio reflete o que é comum (típico) para todas as unidades da população em estudo, ao mesmo tempo que ignora as diferenças das unidades individuais. Em cada fenómeno e no seu desenvolvimento existe uma combinação acidentes E necessário. No cálculo das médias, devido à ação da lei dos grandes números, a aleatoriedade se anula e se equilibra, sendo assim possível abstrair das características sem importância do fenômeno, dos valores quantitativos da característica em cada caso específico . A capacidade de abstrair da aleatoriedade dos valores individuais e das flutuações reside no valor científico das médias como generalizando características das populações.

Onde surge a necessidade de generalização, o cálculo de tais características leva à substituição de muitos valores individuais diferentes do atributo média um indicador que caracteriza todo o conjunto de fenômenos, que permite identificar padrões inerentes aos fenômenos sociais de massa que são invisíveis nos fenômenos individuais.

A média reflete o nível característico, típico e real dos fenômenos em estudo, caracteriza esses níveis e suas mudanças no tempo e no espaço.

A média é uma característica resumida das leis do processo nas condições em que ocorre.

4.4. Tipos de médias e métodos para calculá-las

A escolha do tipo de média é determinada pelo conteúdo econômico de um determinado indicador e pelos dados iniciais. Em cada caso específico, é utilizado um dos valores médios: aritmética, garmônico, geométrico, quadrático, cúbico etc. As médias listadas pertencem à classe calmo média.

Além das médias de potência, na prática estatística são utilizadas médias estruturais, que são consideradas moda e mediana.

Detenhamo-nos mais detalhadamente nas médias de potência.

Média aritmética

O tipo mais comum de média é média aritmética.É utilizado nos casos em que o volume de uma característica variável para toda a população é a soma dos valores das características de suas unidades individuais. Os fenômenos sociais são caracterizados pela aditividade (sumidade) dos volumes de característica variável; isso determina o âmbito de aplicação da média aritmética e explica sua prevalência como indicador geral, por exemplo: o fundo salarial total é a soma dos salários de Para todos os trabalhadores, a colheita bruta é a soma dos produtos produzidos em toda a época de sementeira.

Para calcular a média aritmética, você precisa dividir a soma de todos os valores dos recursos pelo seu número.

A média aritmética é usada na forma média simples e média ponderada. A forma inicial e definidora é a média simples.

Média aritmética simples igual à soma simples dos valores individuais da característica que está sendo calculada a média, dividida pelo número total desses valores (é utilizado nos casos em que existem valores individuais desagrupados da característica):

Onde
- valores individuais da variável (variantes); eu - o número de unidades da população.

Além disso, os limites de soma não serão indicados nas fórmulas. Por exemplo, você precisa encontrar a produção média de um trabalhador (mecânico) se souber quantas peças cada um dos 15 trabalhadores produziu, ou seja, são fornecidos vários valores individuais da característica, unid.:

21; 20; 20; 19; 21; 19; 18; 22; 19; 20; 21; 20; 18; 19; 20.

A média aritmética simples é calculada usando a fórmula (4.1), 1 pc.:

A média das opções que se repetem um número diferente de vezes, ou, como dizem, têm pesos diferentes, é chamada pesada. Os pesos são os números de unidades em diferentes grupos da população (opções idênticas são combinadas em um grupo).

Média aritmética ponderada- média dos valores agrupados, - é calculada pela fórmula:

, (4.2)

Onde
- peso (frequência de repetição de sinais idênticos);

- a soma dos produtos da magnitude dos recursos e suas frequências;

- o número total de unidades populacionais.

Ilustramos a técnica de cálculo da média aritmética ponderada usando o exemplo discutido acima. Para fazer isso, agruparemos os dados de origem e os colocaremos em uma tabela. 4.1.

Tabela 4.1

Distribuição de trabalhadores para produção de peças

De acordo com a fórmula (4.2), a média aritmética ponderada é igual a, unid.:

Em alguns casos, os pesos podem ser apresentados não como valores absolutos, mas como valores relativos (em percentagens ou frações de uma unidade). Então a fórmula para a média aritmética ponderada ficará assim:

Onde
- particularidade, ou seja, a participação de cada frequência na soma total de todos

Se as frequências forem contadas em frações (coeficientes), então
= 1, e a fórmula para a média aritmeticamente ponderada tem a forma:

Cálculo da média aritmética ponderada a partir das médias dos grupos realizado de acordo com a fórmula:

,

Onde f-número de unidades em cada grupo.

Os resultados do cálculo da média aritmética das médias dos grupos são apresentados na tabela. 4.2.

Tabela 4.2

Distribuição dos trabalhadores por tempo médio de serviço

Neste exemplo, as opções não são dados individuais sobre o tempo de serviço de trabalhadores individuais, mas sim a média de cada oficina. Libra f são o número de trabalhadores nas lojas. Assim, a experiência média de trabalho dos trabalhadores em toda a empresa será de anos:

.

Cálculo da média aritmética em séries de distribuição

Se os valores da característica que está sendo calculada a média forem especificados na forma de intervalos (“de - até”), ou seja, séries intervalares da distribuição, então no cálculo da média aritmética, os pontos médios desses intervalos são tomados como os valores das características dos grupos, resultando na formação de uma série discreta. Considere o seguinte exemplo (Tabela 4.3).

Vamos passar de uma série intervalar para uma série discreta, substituindo os valores dos intervalos por seus valores médios/(média simples

Tabela 4.3

Distribuição dos trabalhadores do JSC por nível salarial mensal

Grupos de trabalhadores

Número de trabalhadores

No meio do intervalo

salários, esfregue.

pessoas, f

esfregar., X

900 ou mais

os valores dos intervalos abertos (primeiro e último) são condicionalmente equiparados aos intervalos adjacentes a eles (segundo e penúltimo).

Com este cálculo da média, alguma imprecisão é permitida, uma vez que se supõe a distribuição uniforme das unidades da característica dentro do grupo. No entanto, quanto mais estreito for o intervalo e quanto mais unidades houver, menor será o erro.

Depois de encontrados os pontos médios dos intervalos, os cálculos são feitos da mesma forma que em uma série discreta - as opções são multiplicadas pelas frequências (pesos) e a soma dos produtos é dividida pela soma das frequências (pesos) , mil rublos:

.

Portanto, o nível salarial médio dos trabalhadores do JSC é de 729 rublos. por mês.

Calcular a média aritmética geralmente envolve muito tempo e trabalho. Porém, em alguns casos, o procedimento de cálculo da média pode ser simplificado e facilitado se utilizar suas propriedades. Apresentamos (sem prova) algumas propriedades básicas da média aritmética.

Propriedade 1. Se todos os valores individuais de uma característica (ou seja, todas as opções) reduzir ou aumentar euvezes, então o valor médio nova característica diminuirá ou aumentará correspondentemente em euuma vez.

Propriedade 2. Se todas as variantes da característica que está sendo calculada a média forem reduzidascosturar ou aumentar pelo número A, então a média aritmética correspondena verdade diminuirá ou aumentará no mesmo número A.

Propriedade 3. Se os pesos de todas as opções médias forem reduzidos ou aumentar em Para vezes, então a média aritmética não mudará.

Como pesos médios, em vez de indicadores absolutos, podem ser utilizados pesos específicos no total geral (ações ou percentagens). Isso simplifica os cálculos da média.

Para simplificar os cálculos da média, seguem o caminho da redução dos valores das opções e frequências. A maior simplificação é alcançada quando, como A o valor de uma das opções centrais, que possui maior frequência, é selecionado como / - o valor do intervalo (para séries com intervalos iguais). A quantidade A é chamada de ponto de referência, portanto este método de cálculo da média é chamado de “método de contagem a partir do zero condicional” ou "no caminho dos momentos."

Vamos supor que todas as opções X primeiro diminuiu no mesmo número A e depois diminuiu em eu uma vez. Obtemos uma nova série variacional de distribuição de novas opções .

Então novas opções será expresso:

,

e sua nova média aritmética , -momento de primeira ordem-Fórmula:

.

É igual à média das opções originais, primeiro reduzida em A, e então em eu uma vez.

Para obter a média real é necessário um momento de primeira ordem eu 1 , multiplique por eu e adicione A:

.

Este método de cálculo da média aritmética de uma série de variação é denominado "no caminho dos momentos." Este método é usado em linhas em intervalos iguais.

O cálculo da média aritmética pelo método dos momentos é ilustrado pelos dados da Tabela. 4.4.

Tabela 4.4

Distribuição das pequenas empresas da região por valor dos ativos fixos de produção (FPF) em 2000.

Grupos de empresas por valor FPO, mil rublos.

Número de empresas f

Pontos médios de intervalos x

14-16 16-18 18-20 20-22 22-24

Encontrando o momento de primeira ordem

.

Então, tomando A = 19 e sabendo que eu= 2, calcule X, mil rublos.:

Tipos de valores médios e métodos de cálculo

Na fase de processamento estatístico, podem ser definidos diversos problemas de pesquisa, para cuja solução é necessário selecionar a média adequada. Nesse caso, é necessário guiar-se pela seguinte regra: as grandezas que representam o numerador e o denominador da média devem estar logicamente relacionadas entre si.

  • médias de potência;
  • médias estruturais.

Vamos apresentar as seguintes convenções:

As quantidades para as quais a média é calculada;

Média, onde a barra acima indica que ocorre a média dos valores individuais;

Frequência (repetibilidade dos valores característicos individuais).

Várias médias são derivadas da fórmula geral da média de potência:

(5.1)

quando k = 1 - média aritmética; k = -1 - média harmônica; k = 0 - média geométrica; k = -2 - raiz quadrada média.

Os valores médios podem ser simples ou ponderados. Médias ponderadas São valores que levam em consideração que algumas variantes de valores de atributos podem ter números diferentes e, portanto, cada opção deve ser multiplicada por este número. Em outras palavras, as “escalas” são os números de unidades agregadas em diferentes grupos, ou seja, Cada opção é “ponderada” pela sua frequência. A frequência f é chamada peso estatístico ou peso médio.

Média aritmética- o tipo de média mais comum. É utilizado quando o cálculo é realizado sobre dados estatísticos desagrupados, onde é necessário obter o prazo médio. A média aritmética é o valor médio de uma característica, após a qual o volume total da característica no agregado permanece inalterado.

Fórmula da média aritmética ( simples) tem a forma

onde n é o tamanho da população.

Por exemplo, o salário médio dos empregados de uma empresa é calculado como a média aritmética:

Os indicadores determinantes aqui são o salário de cada funcionário e o número de funcionários da empresa. No cálculo da média, o valor total dos salários permaneceu o mesmo, mas distribuído igualmente entre todos os empregados. Por exemplo, você precisa calcular o salário médio dos trabalhadores de uma pequena empresa que emprega 8 pessoas:

Ao calcular valores médios, os valores individuais da característica calculada podem ser repetidos, portanto, o valor médio é calculado usando dados agrupados. Neste caso estamos falando de usar média aritmética ponderada, que tem a forma

(5.3)

Portanto, precisamos calcular o preço médio das ações de uma sociedade por ações nas negociações em bolsa de valores. Sabe-se que as transações foram realizadas no prazo de 5 dias (5 transações), a quantidade de ações vendidas à taxa de venda foi distribuída da seguinte forma:

1 - 800 ak. - 1010 rublos.

2 - 650 mil. - 990 rublos.

3 - 700 ak. - 1015 rublos.

4 - 550 ak. - 900 rublos.

5 - 850 ak. - 1150 rublos.

O índice inicial para determinação do preço médio das ações é a relação entre o valor total das transações (TVA) e a quantidade de ações vendidas (KPA).

Para encontrar o valor médio no Excel (seja numérico, texto, porcentagem ou outro valor), existem várias funções. E cada um deles tem características e vantagens próprias. Na verdade, nesta tarefa podem ser estabelecidas certas condições.

Por exemplo, os valores médios de uma série de números no Excel são calculados usando funções estatísticas. Você também pode inserir manualmente sua própria fórmula. Vamos considerar várias opções.

Como encontrar a média aritmética dos números?

Para encontrar a média aritmética, você precisa somar todos os números do conjunto e dividir a soma pela quantidade. Por exemplo, as notas de um aluno em ciência da computação: 3, 4, 3, 5, 5. O que está incluído no trimestre: 4. Encontramos a média aritmética usando a fórmula: =(3+4+3+5+5) /5.

Como fazer isso rapidamente usando funções do Excel? Tomemos por exemplo uma série de números aleatórios em uma string:

Ou: crie a célula ativa e simplesmente insira a fórmula manualmente: =MÉDIA(A1:A8).

Agora vamos ver o que mais a função AVERAGE pode fazer.


Vamos encontrar a média aritmética dos dois primeiros e dos três últimos números. Fórmula: =MÉDIA(A1:B1,F1:H1). Resultado:



Média de condição

A condição para encontrar a média aritmética pode ser um critério numérico ou textual. Usaremos a função: =AVERAGEIF().

Encontre a média aritmética dos números maiores ou iguais a 10.

Função: =MÉDIASE(A1:A8,">=10")


O resultado do uso da função AVERAGEIF sob a condição ">=10":

O terceiro argumento – “Intervalo médio” – é omitido. Em primeiro lugar, não é obrigatório. Em segundo lugar, o intervalo analisado pelo programa contém APENAS valores numéricos. As células especificadas no primeiro argumento serão pesquisadas de acordo com a condição especificada no segundo argumento.

Atenção! O critério de pesquisa pode ser especificado na célula. E faça um link para ele na fórmula.

Vamos encontrar o valor médio dos números usando o critério de texto. Por exemplo, a média de vendas do produto “mesas”.

A função ficará assim: =AVERAGEIF($A$2:$A$12,A7,$B$2:$B$12). Intervalo – uma coluna com nomes de produtos. O critério de pesquisa é um link para uma célula com a palavra “tabelas” (você pode inserir a palavra “tabelas” em vez do link A7). Intervalo de média – as células das quais os dados serão retirados para calcular o valor médio.

Como resultado do cálculo da função, obtemos o seguinte valor:

Atenção! Para um critério de texto (condição), o intervalo médio deve ser especificado.

Como calcular o preço médio ponderado no Excel?

Como descobrimos o preço médio ponderado?

Fórmula: =SOMAPRODUTO(C2:C12,B2:B12)/SOMA(C2:C12).


Usando a fórmula SUMPRODUCT, descobrimos a receita total após a venda de toda a quantidade de mercadorias. E a função SUM soma a quantidade de mercadorias. Ao dividir a receita total da venda de mercadorias pelo número total de unidades de mercadorias, encontramos o preço médio ponderado. Este indicador leva em consideração o “peso” de cada preço. Sua participação na massa total de valores.

Desvio padrão: fórmula no Excel

Existem desvios padrão para a população geral e para a amostra. No primeiro caso, esta é a raiz da variância geral. No segundo, a partir da variância amostral.

Para calcular este indicador estatístico, é compilada uma fórmula de dispersão. A raiz é extraída dele. Mas no Excel existe uma função pronta para encontrar o desvio padrão.


O desvio padrão está vinculado à escala dos dados de origem. Isto não é suficiente para uma representação figurativa da variação da faixa analisada. Para obter o nível relativo de dispersão dos dados, o coeficiente de variação é calculado:

desvio padrão / média aritmética

A fórmula no Excel é assim:

STDEV (intervalo de valores) / MÉDIA (intervalo de valores).

O coeficiente de variação é calculado como uma porcentagem. Portanto, definimos o formato percentual na célula.