Análise de regressão passo a passo. Fundamentos da Regressão Linear

Análise de regressão e correlação - métodos de pesquisa estatística. Essas são as formas mais comuns de mostrar a dependência de um parâmetro em uma ou mais variáveis ​​independentes.

Abaixo, usando exemplos práticos concretos, consideraremos essas duas análises muito populares entre os economistas. Daremos também um exemplo de obtenção de resultados quando combinados.

Análise de regressão no Excel

Mostra a influência de alguns valores (independente, independente) na variável dependente. Por exemplo, como o número de população economicamente ativa depende do número de empresas, salários e outros parâmetros. Ou: como os investimentos estrangeiros, os preços da energia etc. afetam o nível do PIB.

O resultado da análise permite priorizar. E com base nos principais fatores, prever, planejar o desenvolvimento de áreas prioritárias, tomar decisões de gestão.

A regressão acontece:

  • linear (y = a + bx);
  • parabólico (y = a + bx + cx 2);
  • exponencial (y = a * exp(bx));
  • potência (y = a*x^b);
  • hiperbólico (y = b/x + a);
  • logarítmico (y = b * 1n(x) + a);
  • exponencial (y = a * b^x).

Considere o exemplo de construir um modelo de regressão no Excel e interpretar os resultados. Vamos pegar um tipo linear de regressão.

Tarefa. Em 6 empresas, foram analisados ​​o salário médio mensal e o número de funcionários que saíram. É necessário determinar a dependência do número de funcionários aposentados do salário médio.

O modelo de regressão linear tem a seguinte forma:

Y \u003d a 0 + a 1 x 1 + ... + a k x k.

Onde a são os coeficientes de regressão, x são as variáveis ​​que influenciam ek é o número de fatores.

Em nosso exemplo, Y é o indicador de demissão de trabalhadores. O fator que influencia é o salário (x).

O Excel possui funções internas que podem ser usadas para calcular os parâmetros de um modelo de regressão linear. Mas o suplemento Analysis ToolPak fará isso mais rápido.

Ative uma poderosa ferramenta analítica:

Uma vez ativado, o complemento estará disponível na guia Dados.

Agora vamos lidar diretamente com a análise de regressão.



Em primeiro lugar, prestamos atenção ao quadrado R e aos coeficientes.

R-quadrado é o coeficiente de determinação. Em nosso exemplo, é 0,755, ou 75,5%. Isso significa que os parâmetros calculados do modelo explicam em 75,5% a relação entre os parâmetros estudados. Quanto maior o coeficiente de determinação, melhor o modelo. Bom - acima de 0,8. Pobre - menos de 0,5 (tal análise dificilmente pode ser considerada razoável). Em nosso exemplo - "não é ruim".

O coeficiente 64,1428 mostra qual será Y se todas as variáveis ​​do modelo considerado forem iguais a 0. Ou seja, outros fatores não descritos no modelo também afetam o valor do parâmetro analisado.

O coeficiente -0,16285 mostra o peso da variável X sobre Y. Ou seja, o salário médio mensal neste modelo afeta o número de desistentes com um peso de -0,16285 (este é um pequeno grau de influência). O sinal “-” indica um impacto negativo: quanto maior o salário, menor a desistência. O que é justo.



Análise de correlação no Excel

A análise de correlação ajuda a estabelecer se existe uma relação entre os indicadores em uma ou duas amostras. Por exemplo, entre o tempo de operação da máquina e o custo dos reparos, o preço do equipamento e a duração da operação, a altura e o peso das crianças, etc.

Se houver uma relação, então se um aumento em um parâmetro leva a um aumento (correlação positiva) ou a uma diminuição (negativa) no outro. A análise de correlação ajuda o analista a determinar se o valor de um indicador pode prever o possível valor de outro.

O coeficiente de correlação é denotado r. Varia de +1 a -1. A classificação das correlações para diferentes áreas será diferente. Quando o valor do coeficiente é 0, não há relação linear entre as amostras.

Considere como usar o Excel para encontrar o coeficiente de correlação.

A função CORREL é usada para encontrar os coeficientes emparelhados.

Tarefa: Determinar se existe relação entre o tempo de operação de um torno e o custo de sua manutenção.

Coloque o cursor em qualquer célula e pressione o botão fx.

  1. Na categoria "Estatístico", selecione a função CORREL.
  2. Argumento "Array 1" - o primeiro intervalo de valores - o tempo da máquina: A2: A14.
  3. Argumento "Array 2" - o segundo intervalo de valores - o custo dos reparos: B2:B14. Clique OK.

Para determinar o tipo de conexão, você precisa observar o número absoluto do coeficiente (cada campo de atividade tem sua própria escala).

Para análise de correlação de vários parâmetros (mais de 2), é mais conveniente usar "Análise de Dados" (complemento "Pacote de Análise"). Na lista, você precisa selecionar uma correlação e designar uma matriz. Tudo.

Os coeficientes resultantes serão exibidos na matriz de correlação. Como este:

Análise de correlação-regressão

Na prática, essas duas técnicas são frequentemente usadas em conjunto.

Exemplo:


Agora os dados da análise de regressão estão visíveis.

Na modelagem estatística, a análise de regressão é um estudo utilizado para avaliar a relação entre as variáveis. Este método matemático inclui muitos outros métodos para modelar e analisar múltiplas variáveis ​​quando o foco está na relação entre uma variável dependente e uma ou mais variáveis ​​independentes. Mais especificamente, a análise de regressão ajuda a entender como o valor típico da variável dependente muda se uma das variáveis ​​independentes mudar enquanto as outras variáveis ​​independentes permanecem fixas.

Em todos os casos, a pontuação alvo é uma função das variáveis ​​independentes e é chamada de função de regressão. Na análise de regressão, também é interessante caracterizar a mudança na variável dependente em função da regressão, que pode ser descrita usando uma distribuição de probabilidade.

Tarefas de análise de regressão

Esse método de pesquisa estatística é amplamente utilizado para previsão, onde seu uso tem uma vantagem significativa, mas às vezes pode levar a ilusões ou falsas relações, por isso é recomendável usá-lo com cuidado nessa questão, pois, por exemplo, correlação não significa causalidade.

Um grande número de métodos foi desenvolvido para realizar análises de regressão, como regressão linear e de mínimos quadrados ordinários, que são paramétricos. Sua essência é que a função de regressão é definida em termos de um número finito de parâmetros desconhecidos que são estimados a partir dos dados. A regressão não paramétrica permite que sua função esteja em um determinado conjunto de funções, que podem ser de dimensão infinita.

Como método de pesquisa estatística, a análise de regressão na prática depende da forma do processo de geração de dados e de como ele se relaciona com a abordagem de regressão. Uma vez que a verdadeira forma do processo de geração de dados é tipicamente um número desconhecido, a análise de regressão de dados geralmente depende, até certo ponto, de suposições sobre o processo. Essas suposições às vezes são testáveis ​​se houver dados suficientes disponíveis. Os modelos de regressão costumam ser úteis mesmo quando as suposições são violadas moderadamente, embora possam não ter o melhor desempenho.

Em um sentido mais restrito, a regressão pode se referir especificamente à estimação de variáveis ​​de resposta contínuas, em oposição às variáveis ​​de resposta discretas usadas na classificação. O caso de uma variável de saída contínua também é chamado de regressão métrica para distingui-la de problemas relacionados.

História

A forma mais antiga de regressão é o conhecido método dos mínimos quadrados. Foi publicado por Legendre em 1805 e por Gauss em 1809. Legendre e Gauss aplicaram o método ao problema de determinar a partir de observações astronômicas as órbitas dos corpos ao redor do Sol (principalmente cometas, mas mais tarde também planetas menores recém-descobertos). Gauss publicou um desenvolvimento adicional da teoria dos mínimos quadrados em 1821, incluindo uma variante do teorema de Gauss-Markov.

O termo "regressão" foi cunhado por Francis Galton no século 19 para descrever um fenômeno biológico. A linha inferior era que o crescimento de descendentes do crescimento de ancestrais, como regra, regride para a média normal. Para Galton, a regressão tinha apenas esse significado biológico, mas mais tarde seu trabalho foi retomado por Udni Yoley e Karl Pearson e levado a um contexto estatístico mais geral. No trabalho de Yule e Pearson, a distribuição conjunta da resposta e das variáveis ​​explicativas é considerada gaussiana. Esta suposição foi rejeitada por Fischer nos jornais de 1922 e 1925. Fisher sugeriu que a distribuição condicional da variável de resposta é gaussiana, mas a distribuição conjunta não precisa ser. Nesse sentido, a sugestão de Fisher está mais próxima da formulação de Gauss de 1821. Antes de 1970, às vezes levava até 24 horas para obter o resultado de uma análise de regressão.

Os métodos de análise de regressão continuam sendo uma área de pesquisa ativa. Nas últimas décadas, novos métodos foram desenvolvidos para regressão robusta; regressões envolvendo respostas correlacionadas; métodos de regressão que acomodam vários tipos de dados ausentes; regressão não paramétrica; métodos de regressão bayesiana; regressões nas quais as variáveis ​​preditoras são medidas com erro; regressões com mais preditores do que observações e inferências causais com regressão.

Modelos de regressão

Os modelos de análise de regressão incluem as seguintes variáveis:

  • Parâmetros desconhecidos, denotados como beta, que podem ser escalares ou vetoriais.
  • Variáveis ​​independentes, X.
  • Variáveis ​​dependentes, Y.

Em diferentes áreas da ciência onde a análise de regressão é aplicada, diferentes termos são usados ​​em vez de variáveis ​​dependentes e independentes, mas em todos os casos o modelo de regressão relaciona Y a uma função de X e β.

A aproximação é geralmente formulada como E (Y | X) = F (X, β). Para realizar a análise de regressão, a forma da função f deve ser determinada. Mais raramente, é baseado no conhecimento sobre a relação entre Y e X que não depende de dados. Se tal conhecimento não estiver disponível, então uma forma F flexível ou conveniente é escolhida.

Variável dependente Y

Suponhamos agora que o vetor de parâmetros desconhecidos β tem comprimento k. Para realizar uma análise de regressão, o usuário deve fornecer informações sobre a variável dependente Y:

  • Se N pontos de dados da forma (Y, X) são observados, onde N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Se exatamente N = K são observados, e a função F é linear, então a equação Y = F(X, β) pode ser resolvida exatamente, não aproximadamente. Isso se resume a resolver um conjunto de N-equações com N-incógnitas (os elementos de β) que tem uma solução única, desde que X seja linearmente independente. Se F não é linear, uma solução pode não existir ou pode haver muitas soluções.
  • A situação mais comum é onde existem N > pontos para os dados. Nesse caso, há informações suficientes nos dados para estimar o valor único de β que melhor se ajusta aos dados, e o modelo de regressão quando aplicado aos dados pode ser visto como um sistema sobrescrito em β.

Neste último caso, a análise de regressão fornece ferramentas para:

  • Encontrar uma solução para parâmetros desconhecidos β, que irá, por exemplo, minimizar a distância entre o valor medido e o valor previsto de Y.
  • Sob certas suposições estatísticas, a análise de regressão usa informações em excesso para fornecer informações estatísticas sobre os parâmetros desconhecidos β e os valores previstos da variável dependente Y.

Número necessário de medições independentes

Considere um modelo de regressão que possui três parâmetros desconhecidos: β 0 , β 1 e β 2 . Vamos supor que o experimentador faça 10 medições no mesmo valor da variável independente do vetor X. Nesse caso, a análise de regressão não fornece um conjunto único de valores. O melhor que você pode fazer é estimar a média e o desvio padrão da variável dependente Y. Da mesma forma, medindo dois valores diferentes de X, você pode obter dados suficientes para uma regressão com duas incógnitas, mas não para três ou mais incógnitas .

Se as medições do experimentador fossem feitas em três valores diferentes da variável vetorial independente X, a análise de regressão forneceria um conjunto único de estimativas para os três parâmetros desconhecidos em β.

No caso de regressão linear geral, a afirmação acima é equivalente ao requisito de que a matriz X T X seja invertível.

Premissas Estatísticas

Quando o número de medições N é maior que o número de parâmetros desconhecidos ke os erros de medição ε i , então, via de regra, o excesso de informação contido nas medições é distribuído e usado para previsões estatísticas sobre parâmetros desconhecidos. Esse excesso de informação é chamado de grau de liberdade da regressão.

Suposições subjacentes

As suposições clássicas para análise de regressão incluem:

  • A amostragem é representativa da previsão de inferência.
  • O erro é uma variável aleatória com valor médio zero, que é condicional às variáveis ​​explicativas.
  • As variáveis ​​independentes são medidas sem erros.
  • Como variáveis ​​independentes (preditores), eles são linearmente independentes, ou seja, não é possível expressar nenhum preditor como uma combinação linear dos demais.
  • Os erros são não correlacionados, ou seja, a matriz de covariância do erro das diagonais e cada elemento diferente de zero é a variância do erro.
  • A variância do erro é constante entre as observações (homocedasticidade). Se não, então os mínimos quadrados ponderados ou outros métodos podem ser usados.

Essas condições suficientes para a estimativa dos mínimos quadrados possuem as propriedades requeridas, em particular essas premissas significam que as estimativas dos parâmetros serão objetivas, consistentes e eficientes, principalmente quando consideradas na classe das estimativas lineares. É importante notar que os dados reais raramente satisfazem as condições. Ou seja, o método é usado mesmo que as suposições não estejam corretas. A variação das suposições às vezes pode ser usada como uma medida de quão útil é o modelo. Muitas dessas suposições podem ser relaxadas em métodos mais avançados. Os relatórios de análise estatística geralmente incluem análise de testes em relação a dados de amostra e metodologia para a utilidade do modelo.

Além disso, variáveis ​​em alguns casos referem-se a valores medidos em localizações de pontos. Pode haver tendências espaciais e autocorrelações espaciais em variáveis ​​que violem os pressupostos estatísticos. A regressão geográfica ponderada é o único método que lida com esses dados.

Na regressão linear, a característica é que a variável dependente, que é Y i , é uma combinação linear de parâmetros. Por exemplo, a regressão linear simples usa uma variável independente, xi, e dois parâmetros, β 0 e β 1, para modelar n-pontos.

Na regressão linear múltipla, existem várias variáveis ​​independentes ou suas funções.

Quando amostrados aleatoriamente de uma população, seus parâmetros permitem obter uma amostra de um modelo de regressão linear.

Nesse aspecto, o método dos mínimos quadrados é o mais popular. Fornece estimativas de parâmetros que minimizam a soma dos quadrados dos resíduos. Esse tipo de minimização (típica da regressão linear) dessa função leva a um conjunto de equações normais e a um conjunto de equações lineares com parâmetros, que são resolvidos para obter estimativas de parâmetros.

Assumindo ainda que o erro populacional geralmente se propaga, o pesquisador pode usar essas estimativas de erros padrão para criar intervalos de confiança e realizar testes de hipóteses sobre seus parâmetros.

Análise de regressão não linear

Um exemplo onde a função não é linear em relação aos parâmetros indica que a soma dos quadrados deve ser minimizada com um procedimento iterativo. Isso introduz muitas complicações que definem as diferenças entre métodos lineares e não lineares de mínimos quadrados. Consequentemente, os resultados da análise de regressão ao usar um método não linear às vezes são imprevisíveis.

Cálculo de poder e tamanho da amostra

Aqui, via de regra, não existem métodos consistentes em relação ao número de observações em relação ao número de variáveis ​​independentes no modelo. A primeira regra foi proposta por Dobra e Hardin e se parece com N = t^n, onde N é o tamanho da amostra, n é o número de variáveis ​​explicativas e t é o número de observações necessárias para alcançar a precisão desejada se o modelo tivesse apenas uma variável explicativa. Por exemplo, um pesquisador constrói um modelo de regressão linear usando um conjunto de dados que contém 1.000 pacientes (N). Se o pesquisador decidir que são necessárias cinco observações para determinar com precisão a linha (m), então o número máximo de variáveis ​​explicativas que o modelo pode suportar é 4.

Outros métodos

Embora os parâmetros de um modelo de regressão sejam geralmente estimados usando o método dos mínimos quadrados, existem outros métodos que são usados ​​com muito menos frequência. Por exemplo, estes são os seguintes métodos:

  • Métodos Bayesianos (por exemplo, o método Bayesiano de regressão linear).
  • Uma regressão percentual usada para situações em que a redução de erros percentuais é considerada mais apropriada.
  • Os menores desvios absolutos, que são mais robustos na presença de outliers levando à regressão quantílica.
  • Regressão não paramétrica que requer um grande número de observações e cálculos.
  • A distância da métrica de aprendizado que é aprendida na busca de uma métrica de distância significativa no espaço de entrada fornecido.

Programas

Todos os principais pacotes de software estatístico são executados usando análise de regressão de mínimos quadrados. A regressão linear simples e a análise de regressão múltipla podem ser usadas em alguns aplicativos de planilhas, bem como em algumas calculadoras. Embora muitos pacotes de software estatístico possam realizar vários tipos de regressão não paramétrica e robusta, esses métodos são menos padronizados; diferentes pacotes de software implementam métodos diferentes. Um software de regressão especializado foi desenvolvido para uso em áreas como análise de pesquisa e neuroimagem.

Na presença de uma correlação entre o fator e os sinais resultantes, os médicos muitas vezes têm que determinar em que medida o valor de um sinal pode mudar quando outro é alterado por uma unidade de medida geralmente aceita ou estabelecida pelo próprio pesquisador.

Por exemplo, como se altera o peso corporal de escolares da 1ª série (meninas ou meninos) se a altura aumentar 1 cm. Para isso, utiliza-se o método de análise de regressão.

Na maioria das vezes, o método de análise de regressão é usado para desenvolver escalas normativas e padrões para o desenvolvimento físico.

  1. Definição de regressão. A regressão é uma função que permite, com base no valor médio de um atributo, determinar o valor médio de outro atributo correlacionado com o primeiro.

    Para isso, utiliza-se o coeficiente de regressão e vários outros parâmetros. Por exemplo, você pode calcular o número de resfriados em média para determinados valores da temperatura média mensal do ar no período outono-inverno.

  2. Definição do coeficiente de regressão. O coeficiente de regressão é o valor absoluto pelo qual o valor de um atributo muda em média quando outro atributo associado a ele muda pela unidade de medida estabelecida.
  3. Fórmula do coeficiente de regressão. R y / x \u003d r xy x (σ y / σ x)
    onde R y / x - coeficiente de regressão;
    r xy - coeficiente de correlação entre as características x e y;
    (σ y e σ x) - desvios padrão das características x e y.

    Em nosso exemplo;
    σ x = 4,6 (desvio padrão da temperatura do ar no período outono-inverno;
    σ y = 8,65 (desvio padrão do número de resfriados infecciosos).
    Assim, R y/x é o coeficiente de regressão.
    R y / x \u003d -0,96 x (4,6 / 8,65) \u003d 1,8, ou seja com uma diminuição na temperatura média mensal do ar (x) em 1 grau, o número médio de resfriados infecciosos (y) no período outono-inverno mudará em 1,8 casos.

  4. Equação de Regressão. y \u003d M y + R y / x (x - M x)
    onde y é o valor médio do atributo, que deve ser determinado quando o valor médio de outro atributo (x) mudar;
    x - valor médio conhecido de outra característica;
    R y/x - coeficiente de regressão;
    M x, M y - valores médios conhecidos das características x e y.

    Por exemplo, o número médio de resfriados infecciosos (y) pode ser determinado sem medições especiais em qualquer valor médio da temperatura média mensal do ar (x). Portanto, se x \u003d - 9 °, R y / x \u003d 1,8 doenças, M x \u003d -7 °, M y \u003d 20 doenças, então y \u003d 20 + 1,8 x (9-7) \u003d 20 + 3,6 = 23,6 doenças.
    Esta equação é aplicada no caso de uma relação em linha reta entre duas características (x e y).

  5. Objetivo da equação de regressão. A equação de regressão é usada para traçar a linha de regressão. Este último permite, sem medidas especiais, determinar qualquer valor médio (y) de um atributo, se o valor (x) de outro atributo mudar. Com base nesses dados, um gráfico é construído - linha de regressão, que pode ser usado para determinar o número médio de resfriados em qualquer valor da temperatura média mensal dentro do intervalo entre os valores calculados do número de resfriados.
  6. Regressão sigma (fórmula).
    onde σ Ru/x - sigma (desvio padrão) da regressão;
    σ y é o desvio padrão da característica y;
    r xy - coeficiente de correlação entre as características x e y.

    Então, se σ y é o desvio padrão do número de resfriados = 8,65; r xy - o coeficiente de correlação entre o número de resfriados (y) e a temperatura média mensal do ar no período outono-inverno (x) é - 0,96, então

  7. Objetivo da regressão sigma. Dá uma característica da medida da diversidade da característica resultante (y).

    Por exemplo, caracteriza a diversidade do número de resfriados em um determinado valor da temperatura média mensal do ar no período outono-inverno. Assim, o número médio de resfriados à temperatura do ar x 1 \u003d -6 ° pode variar de 15,78 doenças a 20,62 doenças.
    Em x 2 = -9°, o número médio de resfriados pode variar de 21,18 doenças a 26,02 doenças, etc.

    O sigma de regressão é usado na construção de uma escala de regressão, que reflete o desvio dos valores do atributo efetivo de seu valor médio plotado na linha de regressão.

  8. Dados necessários para calcular e traçar a escala de regressão
    • coeficiente de regressão - Ry/x;
    • equação de regressão - y \u003d M y + R y / x (x-M x);
    • regressão sigma - σ Rx/y
  9. A sequência de cálculos e representação gráfica da escala de regressão.
    • determinar o coeficiente de regressão pela fórmula (ver parágrafo 3). Por exemplo, deve-se determinar quanto o peso corporal mudará em média (em uma certa idade, dependendo do sexo) se a altura média mudar em 1 cm.
    • de acordo com a fórmula da equação de regressão (consulte o parágrafo 4), determine qual será a média, por exemplo, peso corporal (y, y 2, y 3 ...) * para um determinado valor de crescimento (x, x 2, x 3 ...).
      ________________
      * O valor de "y" deve ser calculado para pelo menos três valores conhecidos de "x".

      Ao mesmo tempo, são conhecidos os valores médios de peso corporal e altura (M x e M y) para uma determinada idade e sexo

    • calcule o sigma da regressão, conhecendo os valores correspondentes de σ y e r xy e substituindo seus valores na fórmula (ver parágrafo 6).
    • com base nos valores conhecidos x 1, x 2, x 3 e seus valores médios correspondentes y 1, y 2 y 3, bem como o menor (y - σ ru / x) e o maior (y + σ ru / x) valores \u200b\u200b(y) constroem uma escala de regressão.

      Para uma representação gráfica da escala de regressão, os valores x, x 2 , x 3 (eixo y) são marcados primeiro no gráfico, ou seja, constrói-se uma linha de regressão, por exemplo, a dependência do peso corporal (y) da altura (x).

      Então, nos pontos correspondentes y 1 , y 2 , y 3 os valores numéricos do sigma de regressão são marcados, ou seja, no gráfico encontre os menores e maiores valores de y 1 , y 2 , y 3 .

  10. Uso prático da escala de regressão. Escalas e padrões normativos estão sendo desenvolvidos, em particular para o desenvolvimento físico. De acordo com a escala padrão, é possível fazer uma avaliação individual do desenvolvimento das crianças. Ao mesmo tempo, o desenvolvimento físico é avaliado como harmonioso se, por exemplo, a uma certa altura, o peso corporal da criança estiver dentro de um sigma de regressão para a unidade média calculada de peso corporal - (y) para uma determinada altura (x) ( y ± 1 σ Ry / x).

    O desenvolvimento físico é considerado desarmônico em termos de peso corporal se o peso corporal da criança para uma certa altura estiver dentro do segundo sigma de regressão: (y ± 2 σ Ry/x)

    O desenvolvimento físico será acentuadamente desarmônico devido ao excesso e insuficiência de peso corporal se o peso corporal para uma certa altura estiver dentro do terceiro sigma da regressão (y ± 3 σ Ry/x).

De acordo com os resultados de um estudo estatístico do desenvolvimento físico de meninos de 5 anos, sabe-se que sua altura média (x) é de 109 cm e seu peso corporal médio (y) é de 19 kg. O coeficiente de correlação entre altura e peso corporal é de +0,9, os desvios padrão são apresentados na tabela.

Requerido:

  • calcule o coeficiente de regressão;
  • usando a equação de regressão, determine qual será o peso corporal esperado de meninos de 5 anos com altura igual a x1 = 100 cm, x2 = 110 cm, x3 = 120 cm;
  • calcule o sigma de regressão, construa uma escala de regressão, apresente os resultados de sua solução graficamente;
  • tirar as devidas conclusões.

A condição do problema e os resultados de sua solução são apresentados na tabela resumo.

tabela 1

Condições do problema Resultados da solução do problema
equação de regressão regressão sigma escala de regressão (peso corporal esperado (em kg))
M σ r xy R s/x X No σRx/y y - σ Ró/х y + σ Ró/х
1 2 3 4 5 6 7 8 9 10
Altura (x) 109 centímetros ± 4,4 cm +0,9 0,16 100 cm 17,56kg ± 0,35 kg 17,21kg 17,91kg
Peso corporal (y) 19kg ± 0,8 kg 110 centímetros 19,16kg 18,81kg 19,51kg
120 centímetros 20,76kg 20,41kg 21,11kg

Decisão.

Conclusão. Assim, a escala de regressão dentro dos valores calculados de peso corporal permite determiná-lo para qualquer outro valor de crescimento ou avaliar o desenvolvimento individual da criança. Para fazer isso, restaure a perpendicular à linha de regressão.

  1. Vlasov V. V. Epidemiologia. - M.: GEOTAR-MED, 2004. - 464 p.
  2. Lisitsyn Yu.P. Saúde Pública e Saúde. Livro didático para o ensino médio. - M.: GEOTAR-MED, 2007. - 512 p.
  3. Medik V.A., Yuriev V.K. Um curso de palestras sobre saúde pública e cuidados de saúde: Parte 1. Saúde pública. - M.: Medicina, 2003. - 368 p.
  4. Minyaev V.A., Vishnyakov N.I. e outros Medicina social e organização de saúde (Guia em 2 volumes). - São Petersburgo, 1998. -528 p.
  5. Kucherenko V.Z., Agarkov N.M. e outros Higiene social e organização dos cuidados de saúde (Tutorial) - Moscou, 2000. - 432 p.
  6. S. Glantz. Estatísticas médico-biológicas. Por do inglês. - M., Prática, 1998. - 459 p.

Após a análise de correlação ter revelado a presença de relações estatísticas entre as variáveis ​​e avaliado o grau de sua estanqueidade, geralmente procede-se à descrição matemática de um determinado tipo de dependência usando a análise de regressão. Para isso, é selecionada uma classe de funções que relaciona o indicador efetivo y e os argumentos x 1, x 2, ..., x aos argumentos mais informativos são selecionados, estimativas de valores desconhecidos dos parâmetros do link equação são calculadas e as propriedades da equação resultante são analisadas.

A função f (x 1, x 2, ..., x k) que descreve a dependência do valor médio do recurso efetivo y nos valores dados dos argumentos é chamada de função de regressão (equação). O termo "regressão" (lat. - regressão - recuo, retorno a algo) foi introduzido pelo psicólogo e antropólogo inglês F. Galton e está associado exclusivamente às especificidades de um dos primeiros exemplos concretos em que esse conceito foi utilizado. Assim, processando dados estatísticos relacionados à análise da hereditariedade do crescimento, F. Galton descobriu que, se os pais se desviam da altura média de todos os pais em x polegadas, seus filhos se desviam da altura média de todos os filhos em menos de x polegadas. A tendência revelada foi chamada de "regressão ao estado médio". Desde então, o termo "regressão" tem sido amplamente utilizado na literatura estatística, embora em muitos casos não caracterize com precisão o conceito de dependência estatística.

Para uma descrição precisa da equação de regressão, é necessário conhecer a lei de distribuição do indicador efetivo y. Na prática estatística, geralmente deve-se limitar-se à busca de aproximações adequadas para a função de regressão verdadeira desconhecida, pois o pesquisador não tem conhecimento exato da lei condicional da distribuição de probabilidade do indicador de resultado analisado y para valores dados do argumento x.

Considere a relação entre verdadeiro f(x) = M(y1x), modelo de regressão? e o escore y da regressão. Seja o indicador efetivo y relacionado ao argumento x pela razão:

onde - e é uma variável aleatória com uma lei de distribuição normal, com Me \u003d 0 e D e \u003d y 2. A verdadeira função de regressão neste caso é: f(x) = M(y/x) = 2x 1,5.

Suponha que não conheçamos a forma exata da equação de regressão verdadeira, mas temos nove observações sobre uma variável aleatória bidimensional relacionada pela razão yi = 2x1,5 + e, mostrada na Fig. 1

Figura 1 - Arranjo mútuo da verdade f(x) e teórica? modelos de regressão

Localização dos pontos na fig. 1 permite que você se limite à classe de dependências lineares do formulário? = em 0 + em 1 x. Usando o método dos mínimos quadrados, encontramos uma estimativa da equação de regressão y = b 0 +b 1 x. Para comparação, na Fig. 1 mostra gráficos da função de regressão verdadeira y \u003d 2x 1,5, a função de regressão de aproximação teórica? = em 0 + em 1 x .

Uma vez que cometemos um erro ao escolher a classe da função de regressão, e isso é bastante comum na prática da pesquisa estatística, nossas conclusões e estimativas estatísticas acabarão sendo errôneas. E não importa o quanto aumentemos o volume de observações, nossa estimativa amostral de y não estará próxima da verdadeira função de regressão f(x). Se escolhermos corretamente a classe de funções de regressão, então a imprecisão na descrição de f (x) usando? só pode ser explicada pelo tamanho limitado da amostra.

Para melhor restaurar o valor condicional do indicador efetivo y(x) e a função de regressão desconhecida f(x) = M(y/x) a partir dos dados estatísticos iniciais, os seguintes critérios de adequação (funções de perda) são usados ​​com mais frequência .

Método dos mínimos quadrados. De acordo com ele, o desvio quadrado dos valores observados do indicador efetivo y, (i = 1,2,..., n) dos valores do modelo é minimizado. = f(x i), onde x i é o valor do vetor de argumentos na i-ésima observação:

Método de menos módulos. Segundo ele, a soma dos desvios absolutos dos valores observados do indicador efetivo dos valores modulares é minimizada. E nós conseguimos = f(x i), média de regressão mediana absoluta? |yi - f(хi)| >min.

A análise de regressão é um método de análise estatística da dependência de uma variável aleatória y em variáveis ​​x j = (j = 1,2, ..., k), consideradas na análise de regressão como variáveis ​​não aleatórias, independentemente da verdadeira lei de distribuição xj.

Geralmente assume-se que a variável aleatória y tem uma lei de distribuição normal com uma expectativa matemática condicional y, que é uma função dos argumentos x/ (/ = 1, 2, ..., k) e uma constante, independente do argumentos, variância y 2 .

Em geral, o modelo linear de análise de regressão tem a forma:

S = S k j=0 dentro j c j(x 1 , x 2 . . .. ,x k)+E

onde c j é alguma função de suas variáveis ​​- x 1 , x 2 . . .. ,x k , E é uma variável aleatória com expectativa matemática zero e variância y 2 .

Na análise de regressão, o tipo de equação de regressão é escolhido com base na natureza física do fenômeno em estudo e nos resultados da observação.

As estimativas de parâmetros desconhecidos da equação de regressão são geralmente encontradas pelo método dos mínimos quadrados. Abaixo, vamos nos debruçar sobre esse problema com mais detalhes.

Equação de regressão linear bidimensional. Suponhamos, com base na análise do fenômeno em estudo, que na "média" y tenha uma função linear de x, ou seja, existe uma equação de regressão

y \u003d M (y / x) \u003d em 0 + em 1 x)

onde M(y1x) é a expectativa matemática condicional de uma variável aleatória y para um dado x; em 0 e em 1 - parâmetros desconhecidos da população geral, que devem ser estimados a partir dos resultados das observações amostrais.

Suponha que para estimar os parâmetros em 0 e em 1, uma amostra de tamanho n seja retirada de uma população geral bidimensional (x, y), onde (x, y,) é o resultado da i-ésima observação (i = 1, 2,..., n). Neste caso, o modelo de análise de regressão tem a forma:

y j = em 0 + em 1 x+e j .

onde e j .- variáveis ​​aleatórias independentes normalmente distribuídas com expectativa matemática zero e variância y 2 , ou seja, M e j . = 0;

D e j .= y 2 para todo i = 1, 2,..., n.

De acordo com o método dos mínimos quadrados, como estimativas dos parâmetros desconhecidos em 0 e em 1, deve-se tomar tais valores das características da amostra b 0 e b 1 que minimizem a soma dos desvios quadrados dos valores do resultado característica y i da expectativa matemática condicional? eu

Consideraremos a metodologia para determinar a influência das características de marketing no lucro de uma empresa usando o exemplo de dezessete empresas típicas com tamanhos médios e indicadores de atividade econômica.

Na resolução do problema foram tidas em conta as seguintes características, identificadas como as mais significativas (importantes) em resultado de um inquérito por questionário:

* atividade inovadora da empresa;

* planejamento da gama de produtos;

* formação de política de preços;

* relações Públicas;

* sistema de comercialização;

* sistema de incentivo aos funcionários.

Com base em um sistema de comparações por fatores, foram construídas matrizes quadradas de adjacência, nas quais foram calculados os valores das prioridades relativas para cada fator: atividade inovadora da empresa, planejamento da gama de produtos, política de preços, publicidade, relações públicas, sistema de vendas, sistema de incentivo ao empregado.

As estimativas de prioridades para o fator “relacionamento com o público” foram obtidas a partir de uma pesquisa com especialistas da empresa. As seguintes designações são aceitas: > (melhor), > (melhor ou igual), = (igual),< (хуже или одинаково), <

Em seguida, foi resolvido o problema de uma avaliação abrangente do nível de marketing da empresa. Ao calcular o indicador, a significância (peso) das características particulares consideradas foi determinada e o problema de convolução linear de indicadores particulares foi resolvido. O processamento dos dados foi realizado de acordo com programas especialmente desenvolvidos.

Em seguida, é calculada uma avaliação abrangente do nível de marketing da empresa - o coeficiente de marketing, inserido na tabela 1. Além disso, a tabela acima inclui indicadores que caracterizam a empresa como um todo. Os dados da tabela serão usados ​​para análise de regressão. O resultado é lucro. Juntamente com o coeficiente de marketing, os seguintes indicadores foram usados ​​como sinais de fator: o volume de produção bruta, o custo dos ativos fixos, o número de funcionários, o coeficiente de especialização.

Tabela 1 - Dados iniciais para análise de regressão


Com base nos dados da tabela e com base nos fatores com os valores mais significativos dos coeficientes de correlação, foram construídas funções de regressão da dependência do lucro dos fatores.

A equação de regressão no nosso caso terá a forma:

Os coeficientes da equação de regressão falam sobre a influência quantitativa dos fatores discutidos acima na quantidade de lucro. Eles mostram quantos milhares de rublos seu valor muda quando o sinal do fator muda em uma unidade. Como segue da equação, um aumento na proporção do mix de marketing em uma unidade aumenta o lucro em 1.547,7 mil rublos. Isso sugere que há um enorme potencial para melhorar o desempenho econômico das empresas na melhoria das atividades de marketing.

No estudo da eficácia do marketing, a característica do fator mais interessante e mais importante é o fator X5 - o coeficiente de marketing. De acordo com a teoria da estatística, a vantagem da equação de regressão múltipla existente é a capacidade de avaliar a influência isolada de cada fator, incluindo o fator de marketing.

Os resultados da análise de regressão realizada também são mais amplamente utilizados do que para o cálculo dos parâmetros da equação. O critério para classificar (Kef,) as empresas como relativamente melhores ou relativamente piores baseia-se no indicador relativo do resultado:

onde Y facti é o valor real da i-ésima empresa, mil rublos;

Y calculado - o valor do lucro da i-ésima empresa, obtido por cálculo de acordo com a equação de regressão

Em termos do problema a ser resolvido, o valor é chamado de "fator de eficiência". A actividade da empresa pode ser considerada eficaz nos casos em que o valor do coeficiente seja superior a um. Isso significa que o lucro real é maior do que o lucro médio da amostra.

Os valores de lucro real e calculado são apresentados na Tabela. 2.

Tabela 2 - Análise do recurso efetivo no modelo de regressão

A análise da tabela mostra que, no nosso caso, as atividades das empresas 3, 5, 7, 9, 12, 14, 15, 17 para o período em análise podem ser consideradas bem sucedidas.

O objetivo principal da análise de regressão consiste em determinar a forma analítica da relação, em que a mudança no atributo resultante é devido à influência de um ou mais sinais de fator, e o conjunto de todos os outros fatores que também afetam o atributo resultante é tomado como valores constantes e médios. .
Tarefas de análise de regressão:
a) Estabelecer a forma de dependência. Quanto à natureza e forma da relação entre os fenômenos, existem regressões lineares e não lineares positivas e lineares e não lineares negativas.
b) Definição da função de regressão na forma de uma equação matemática de um tipo ou outro e estabelecendo a influência das variáveis ​​explicativas na variável dependente.
c) Estimativa de valores desconhecidos da variável dependente. Usando a função de regressão, você pode reproduzir os valores da variável dependente dentro do intervalo de determinados valores das variáveis ​​explicativas (ou seja, resolver o problema de interpolação) ou avaliar o curso do processo fora do intervalo especificado (ou seja, resolver o problema de extrapolação). O resultado é uma estimativa do valor da variável dependente.

Regressão de pares - a equação da relação de duas variáveis ​​y e x: y=f(x), onde y é a variável dependente (sinal resultante); x - variável explicativa independente (fator-característica).

Existem regressões lineares e não lineares.
Regressão linear: y = a + bx + ε
As regressões não lineares são divididas em duas classes: regressões não lineares em relação às variáveis ​​explicativas incluídas na análise, mas lineares em relação aos parâmetros estimados, e regressões não lineares em relação aos parâmetros estimados.
Regressões não lineares em variáveis ​​explicativas:

Regressões não lineares nos parâmetros estimados:

  • potência y = a x b ε
  • exponencial y = a b x ε
  • exponencial y=e a+b x ε
A construção da equação de regressão se reduz a estimar seus parâmetros. Para estimar os parâmetros de regressões que são lineares em parâmetros, utiliza-se o método dos mínimos quadrados (LSM). O LSM permite obter tais estimativas de parâmetros para as quais a soma dos desvios quadrados dos valores reais do recurso efetivo y dos valores teóricos y x é mínima, ou seja,
.
Para equações lineares e não lineares redutíveis a lineares, o seguinte sistema é resolvido para a e b:

Você pode usar fórmulas prontas que seguem deste sistema:

A proximidade da conexão entre os fenômenos estudados é estimada pelo coeficiente de correlação de pares lineares r xy para regressão linear (-1≤r xy ≤1):

e índice de correlação p xy - para regressão não linear (0≤p xy ≤1):

Uma avaliação da qualidade do modelo construído será dada pelo coeficiente (índice) de determinação, bem como pelo erro médio de aproximação.
O erro médio de aproximação é o desvio médio dos valores calculados dos reais:
.
Limite permitido de valores A - não mais que 8-10%.
O coeficiente de elasticidade médio E mostra quantos por cento em média o resultado y mudará de seu valor médio quando o fator x mudar em 1% de seu valor médio:
.

A tarefa da análise de variância é analisar a variância da variável dependente:
∑(y-y)²=∑(y x -y)²+∑(y-y x)²
onde ∑(y-y)² é a soma total dos desvios quadrados;
∑(y x -y)² - soma dos quadrados dos desvios devido à regressão ("explicada" ou "fatorial");
∑(y-y x)² - soma residual dos desvios quadrados.
A parcela da variância explicada pela regressão na variância total do traço efetivo y é caracterizada pelo coeficiente (índice) de determinação R2:

O coeficiente de determinação é o quadrado do coeficiente ou índice de correlação.

O teste F - avaliação da qualidade da equação de regressão - consiste em testar a hipótese Mas sobre a insignificância estatística da equação de regressão e o indicador de proximidade da conexão. Para isso, é realizada uma comparação do fato F real e da tabela F crítica (tabular) dos valores do critério F de Fisher. O fato F é determinado a partir da razão dos valores das variâncias fatoriais e residuais calculadas para um grau de liberdade:
,
onde n é o número de unidades populacionais; m é o número de parâmetros para as variáveis ​​x.
A tabela F é o valor máximo possível do critério sob a influência de fatores aleatórios para determinados graus de liberdade e nível de significância a. Nível de significância a - a probabilidade de rejeitar a hipótese correta, desde que seja verdadeira. Geralmente a é tomado igual a 0,05 ou 0,01.
Se a tabela F< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F é um fato, então a hipótese H sobre não é rejeitada e a insignificância estatística, a falta de confiabilidade da equação de regressão é reconhecida.
Para avaliar a significância estatística dos coeficientes de regressão e correlação, são calculados o teste t de Student e os intervalos de confiança para cada um dos indicadores. Uma hipótese H sobre a natureza aleatória dos indicadores é apresentada, ou seja, sobre sua insignificante diferença de zero. A avaliação da significância dos coeficientes de regressão e correlação usando o teste t de Student é realizada comparando seus valores com a magnitude do erro aleatório:
; ; .
Erros aleatórios de parâmetros de regressão linear e coeficiente de correlação são determinados pelas fórmulas:



Comparando os valores reais e críticos (tabulares) das estatísticas t - t tabl e t fact - aceitamos ou rejeitamos a hipótese H o.
A relação entre o teste F de Fisher e a estatística t de Student é expressa pela igualdade

Se t tabela< t факт то H o отклоняется, т.е. a , b и r xy не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t o fato de a hipótese H sobre não ser rejeitada e a natureza aleatória da formação de a, b ou r xy ser reconhecida.
Para calcular o intervalo de confiança, determinamos o erro marginal D para cada indicador:
Δ a =t tabela m a , Δb =t tabela m b .
As fórmulas para calcular os intervalos de confiança são as seguintes:
γ a \u003d aΔ a; γ a \u003d a-Δ a; γa =a+Δa
γb = bΔb; γb = b-Δb; γb = b+Δb
Se zero estiver dentro dos limites do intervalo de confiança, ou seja, Se o limite inferior for negativo e o limite superior for positivo, assume-se que o parâmetro estimado é zero, uma vez que não pode assumir simultaneamente valores positivos e negativos.
O valor de previsão y p é determinado substituindo o valor (previsão) correspondente x p na equação de regressão y x =a+b·x . O erro padrão médio da previsão m y x é calculado:
,
Onde
e o intervalo de confiança da previsão é construído:
γ y x = y p Δ y p ; γ y x min=y p -Δ y p ; γ y x max = y p +Δ y p
onde Δ y x = t tabela ·m y x .

Exemplo de solução

Tarefa número 1. Para sete territórios da região dos Urais Para 199X, os valores de dois sinais são conhecidos.
Tabela 1.

Requerido: 1. Para caracterizar a dependência de y em x, calcule os parâmetros das seguintes funções:
a) linear;
b) lei de potência (anteriormente é necessário realizar o procedimento de linearização das variáveis ​​tomando o logaritmo de ambas as partes);
c) demonstrativo;
d) hipérbole equilátero (você também precisa descobrir como pré-linearizar este modelo).
2. Avalie cada modelo através do erro médio de aproximação A e teste F de Fisher.

Solução (Opção nº 1)

Para calcular os parâmetros aeb da regressão linear y=a+b·x (o cálculo pode ser feito usando uma calculadora).
resolva o sistema de equações normais em relação a uma e b:
Com base nos dados iniciais, calculamos ∑y, ∑x, ∑y x, ∑x², ∑y²:
y x yx x2 ano 2 x xy-y xEu
eu68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Total405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
qua valor (Total/n)57,89
y
54,90
x
3166,05
xy
3048,34
3383,68
XX8,1
s 5,74 5,86 XXXXXX
s232,92 34,34 XXXXXX


a=y -b x = 57,89+0,35 54,9 ≈ 76,88

Equação de regressão: y= 76,88 - 0,35X. Com um aumento no salário médio diário em 1 rub. a participação dos gastos com a compra de produtos alimentícios é reduzida em média 0,35% pontos.
Calcule o coeficiente linear de correlação de pares:

A comunicação é moderada, reversa.
Vamos determinar o coeficiente de determinação: r² xy =(-0,35)=0,127
A variação de 12,7% no resultado é explicada pela variação do fator x. Substituindo os valores reais na equação de regressão X, determinamos os valores teóricos (calculados) de y x . Vamos encontrar o valor do erro médio de aproximação A :

Em média, os valores calculados desviam dos reais em 8,1%.
Vamos calcular o critério F:

O valor obtido indica a necessidade de aceitar a hipótese H 0 sobre a natureza aleatória da dependência revelada e a insignificância estatística dos parâmetros da equação e do indicador de proximidade de conexão.
1b. A construção do modelo de potência y=a x b é precedida pelo procedimento de linearização das variáveis. No exemplo, a linearização é feita tomando o logaritmo de ambos os lados da equação:
lg y = lg a + b lg x
Y=C+bY
onde Y=lg(y), X=lg(x), C=lg(a).

Para os cálculos, usamos os dados da Tabela. 1.3.
Tabela 1.3

SX YX Y2 x2 x xy-y x(y-yx)²Eu
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Total12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Quer dizer1,7605 1,7370 3,0572 3,1011 3,0194 XX28,27 8,0
σ 0,0425 0,0484 XXXXXXX
σ20,0018 0,0023 XXXXXXX

Calcule C e b:

C=Y-b X = 1,7605+0,298 1,7370 = 2,278126
Obtemos uma equação linear: Y = 2,278-0,298 X
Após potencializá-lo, obtemos: y=10 2,278 x -0,298
Substituindo nesta equação os valores reais X, obtemos os valores teóricos do resultado. Com base neles, calculamos os indicadores: a estanqueidade da conexão - o índice de correlação p xy e o erro médio de aproximação A .

As características do modelo de potência indicam que ele descreve a relação um pouco melhor do que a função linear.

1c. A construção da equação da curva exponencial y \u003d a b x é precedida pelo procedimento de linearização das variáveis ​​ao obter o logaritmo de ambas as partes da equação:
lg y = lg a + x lg b
Y=C+Bx
Para cálculos, usamos os dados da tabela.

Sx Yx Y2 x2x xy-y x(y-yx)²Eu
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Total12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
qua zn.1,7605 54,9 96,5711 3,1011 3048,34 XX28,68 8,0
σ 0,0425 5,86 XXXXXXX
σ20,0018 34,339 XXXXXXX

Os valores dos parâmetros de regressão A e NO totalizando:

A=Y -B x = 1,7605+0,0023 54,9 = 1,887
Obtém-se uma equação linear: Y=1,887-0,0023x. Potenciamos a equação resultante e a escrevemos na forma usual:
y x = 10 1,887 10 -0,0023x = 77,1 0,9947 x
Estimamos o aperto do relacionamento através do índice de correlação p xy:

3588,01 56,9 3,0 9,00 5,0 4 56,7 0,0162 0,9175 0,000262 3214,89 55,5 1,2 1,44 2,1 5 55 0,0170 0,9354 0,000289 3025,00 56,4 -1,4 1,96 2,5 6 54,3 0,0212 1,1504 0,000449 2948,49 60,8 -6,5 42,25 12,0 7 49,3 0,0181 0,8931 0,000328 2430,49 57,5 -8,2 67,24 16,6 Total405,2 0,1291 7,5064 0,002413 23685,76 405,2 0,0 194,90 56,5 Quer dizer57,9 0,0184 1,0723 0,000345 3383,68 XX27,84 8,1 σ 5,74 0,002145 XXXXXXX σ232,9476 0,000005 XX