Correlação linear múltipla. Coeficientes de correlação

A essência dos métodos de previsão causal é estabelecer uma relação matemática entre as variáveis ​​resultantes e fatoriais.

Uma condição necessária para a aplicação de métodos de previsão causal é a disponibilidade de uma grande quantidade de dados. Se as relações entre as variáveis ​​puderem ser descritas matematicamente corretamente, a precisão da previsão causal será bastante alta.
Os métodos de previsão causal incluem:


  • modelos de regressão multivariada,

  • modelagem de simulação.
Os métodos de previsão causais mais comuns são os modelos de regressão multivariada. .

1.4.1 Modelos de regressão multivariada

Um modelo de regressão multivariada é uma equação com múltiplas variáveis ​​independentes.

Para construir um modelo de regressão multivariada, várias funções podem ser utilizadas, sendo as mais comuns as dependências lineares e de potência:

No modelo linear, os parâmetros(b 1 , b 2 , … b n) são interpretados como o efeito de cada uma das variáveis ​​independentes sobre o valor previsto se todas as outras variáveis ​​independentes forem iguais a zero.

NO modelo de poder os parâmetros são coeficientes de elasticidade. Eles mostram quantos por cento o resultado (y) mudará em média com uma mudança no fator correspondente em 1%, enquanto a ação de outros fatores permanece inalterada. Para calcular os parâmetros de equações de regressão múltipla também é usado método dos mínimos quadrados.

Ao construir modelos de regressão, a qualidade dos dados desempenha um papel decisivo. A coleta de dados cria a base para as previsões, portanto, há vários requisitos e regras que devem ser observados ao coletar dados.


  1. Primeiramente, os dados devem ser observável, ou seja recebido como resultado de medição, não de cálculo.

  1. Em segundo lugar, do array de dados é necessário excluir dados duplicados e fortemente diferentes. Quanto mais dados não repetidos e mais homogênea a população, melhor será a equação. Valores fortemente diferentes são entendidos como observações que não se encaixam na série geral. Por exemplo, os dados sobre os salários dos trabalhadores estão em quatro e cinco dígitos (7.000, 10.000, 15.000), mas um número de seis dígitos (250.000) é encontrado. Obviamente isso é um erro.

  1. A terceira regra (requisito) é uma quantidade bastante grande de dados. Os estatísticos discordam sobre quantos dados são necessários para construir uma boa equação. Segundo alguns, os dados são necessários 4-6 vezes mais número de fatores. Outros afirmam que pelo menos 10 vezes mais número de fatores, então a lei dos grandes números, agindo em pleno vigor, garante o pagamento efetivo de desvios aleatórios da natureza regular da conexão.

Construindo um modelo de regressão multivariada emEMsobressair
Nas planilhas do Excel, é possível construir apenas linear modelo de regressão multivariada.
, (1.19)
Para fazer isso, selecione "Análise de dados", e, em seguida, na janela exibida - ferramenta "regressão"


Figura 1.45 - Caixa de diálogo da ferramenta "Regressão"
Na janela que aparece, você precisa preencher vários campos, incluindo:


  • intervalo de entrada S – um intervalo de dados, de uma coluna, contendo os valores da variável resultante Y.

  • Intervalo de entrada X é o intervalo de dados que contém os valores das variáveis ​​do fator.

Se a primeira linha ou primeira coluna do intervalo de entrada contiver títulos, você deverá marcar a caixa "Tag" .

O padrão é aplicado 95% de nível de confiabilidade. Se você quiser definir um nível diferente, marque a caixa de seleção e insira o nível de confiabilidade desejado no campo ao lado.

Caixa de seleção "Zero Constante" precisa ser verificado apenas se você quiser obter a equação de regressão sem interceptar uma, de modo que a linha de regressão passe pelas origens.
A saída dos resultados do cálculo pode ser organizada de 3 maneiras:


  • dentro o intervalo de células desta planilha (para isso no campo "Intervalo de saída" definir a célula superior esquerda do intervalo onde serão exibidos os resultados do cálculo);

  • no nova planilha (você pode inserir o nome desejado desta planilha no campo ao lado);

  • dentro nova pasta de trabalho .

Caixas de seleção "Restos" e "Restos Padronizados" ordena que sejam incluídos no intervalo de saída.
Para plotar os resíduos para cada variável independente, marque a caixa Gráfico residual.Restos também conhecidos como erros de previsão. Eles são definidos como a diferença entre os valores reais e previstos de Y.
Interpretando parcelas residuais
Não deve haver nenhum padrão nos gráficos de resíduos. Se um padrão é rastreado, isso significa que o modelo não inclui algum desconhecido para nós, mas um fator de atuação natural, sobre o qual não há dados.

Ao marcar a caixa "Seleção de horários" uma série de gráficos será exibida mostrando quão bem a linha de regressão teórica se ajusta às observadas, ou seja, dados reais.

Interpretando gráficos de picking
No Excel, nos gráficos de seleção, os pontos vermelhos indicam valores teóricos S, pontos azuis - dados iniciais. Se os pontos vermelhos se sobrepuserem bem aos pontos azuis, isso indica visualmente uma equação de regressão bem-sucedida.
Um passo necessário na previsão com base em modelos de regressão multivariados é a avaliação da significância estatística da equação de regressão, ou seja, a adequação da equação de regressão construída para uso na previsão. Para resolver esse problema, o MS Excel calcula vários coeficientes. Nomeadamente:


  1. Coeficiente de correlação múltipla

Caracteriza a rigidez e a direção da relação entre o resultado e o de várias variáveis ​​fatoriais. Com uma dependência de dois fatores, o coeficiente de correlação múltipla é calculado pela fórmula:
, (1.20)


  1. Coeficiente múltiplo de determinação ( R 2 ).

R 2 é a proporção da variação do valor teórico em relação aos valores reais de y, explicado pelos fatores incluídos no modelo. O restante dos valores teóricos dependem de outros fatores não envolvidos no modelo. R 2 pode assumir valores de 0 a 1. Se , então a qualidade do modelo é alta. Este indicador é especialmente útil para comparar vários modelos e escolher o melhor.


  1. Coeficiente de determinação normalizado R 2

O indicador R 2 tem uma desvantagem, consistindo no fato de que grandes valores do coeficiente de determinação podem ser alcançados devido ao pequeno número de observações. Normalizado fornece informações sobre qual valor você pode obter em outro conjunto de dados que é muito maior do que neste caso.

Normalizado é calculado pela fórmula:

, (1.21)

onde é o coeficiente de determinação múltiplo normalizado,

Coeficiente múltiplo de determinação,

O volume da população,

Número de variáveis ​​de fator.


  1. erro padrão de regressão indica a quantidade aproximada de erro de previsão. Ele é usado como a quantidade principal para medir a qualidade do modelo estimado. Calculado pela fórmula:
, (1.22)

onde é a soma dos quadrados dos resíduos,

O número de graus de liberdade dos resíduos.
Ou seja, o erro padrão da regressão mostra o valor do quadrado do erro por um grau de liberdade.


RESULTADOS

Estatísticas de regressão

R múltiplo

0.973101

R-quadrado

0.946926

Quadrado R normalizado

0.940682

erro padrão

0.59867

Observações

20

Análise de variação

df

SS

EM

F

Significado F

Regressão

2

108.7071

54.35355

151.6535

1.45E-11

Restante

17

6.092905

0.358406

Total

19

114.8

Chances

erro padrão

estatística t

Valor P

inferior 95%

95% superiores

Inferior 95,0%

Principais 95,0%

Intersecção em Y

1.835307

0.471065

3.89608

0.001162

0.841445

2.829169

0.841445

2.829169

x1

0.945948

0.212576

4.449917

0.000351

0.49745

1.394446

0.49745

1.394446

x2

0.085618

0.060483

1.415561

0.174964

-0.04199

0.213227

-0.04199

0.213227

O método de análise de variância consiste em decompor a soma total dos desvios quadrados da variável no da média em duas partes:


  1. explicado por regressão (ou fatorial),

  2. residual.
, (1.2 3)
A adequação do modelo de regressão para previsão depende de quanto da variação total da característica y explica a variação explicada pela regressão. Obviamente, se a soma dos desvios quadrados explicados pela regressão for maior que o resíduo, então se chega a uma conclusão sobre a significância estatística da equação de regressão. Isso equivale ao fato de que o coeficiente de determinação se aproxima da unidade.
Designações na tabela "Análise de variância":
A segunda coluna da tabela é chamada e significa o número de graus de liberdade. Para variância total, o número de graus de liberdade é: , para variância de fator (ou variância explicada por regressão), , para variância residual.

onde n é o número de observações,

m é o número de variáveis ​​fatoriais do modelo.
A terceira coluna da tabela é chamada . Ele representa a soma dos desvios quadrados. A soma total dos desvios quadrados é determinada pela fórmula:

, (1.24)
Fator soma dos quadrados:

, (1.26)
A quarta coluna é chamada - o valor médio dos desvios quadrados. Determinado pela fórmula:

Com a ajuda do critério F de Fisher, determina-se a significância estatística do coeficiente de determinação da equação de regressão. Para isso, é apresentada uma hipótese nula, que afirma que entre as variáveis ​​resultantes e fatoriais sem conexão. Isso só é possível se todos os parâmetros da equação de regressão linear múltipla e o coeficiente de correlação forem iguais a zero.

Para testar essa hipótese, é necessário calcular o valor real do teste F de Fisher e compará-lo com a tabela. O valor real do critério F é calculado pela fórmula:

, (1.28)

Selecionado de tabelas estatísticas especiais por:


  • dado nível de significância () e

  • o número de graus de liberdade.

No MS Excel, o valor tabular do critério F pode ser determinado usando a função: = FINV(probabilidade; graus de liberdade1; graus de liberdade2)

Por exemplo: =FDISP(0.05;df1;df2)
Nível de significância 1 é selecionado para o mesmo em que os parâmetros do modelo de regressão foram calculados. O padrão é 95%.

Se , então a hipótese proposta é rejeitada e a significância estatística da equação de regressão é reconhecida. No caso de previsões particularmente importantes, recomenda-se aumentar o valor da tabela do critério F em 4 vezes, ou seja, a condição é verificada:
=151.65; = 3.59
O valor calculado excede significativamente o valor tabulado. Isso significa que o coeficiente de determinação é significativamente diferente de zero, portanto, a hipótese da ausência de dependência de regressão deve ser rejeitada.
Agora vamos avaliar a significância dos coeficientes de regressão com base em t-Critério do aluno. Ele permite determinar qual das variáveis ​​fatoriais (x) tem o maior impacto na variável resultante (y).

Os erros padrão são geralmente indicados por . O subscrito indica o parâmetro da equação de regressão para o qual este erro é calculado.

Calculado pela fórmula:

, (1.29)

onde - RMS para a variável resultante,

RMS para o recurso ,

Coeficiente de determinação para a equação múltipla

regressão,

O coeficiente de determinação para a dependência do fator com

todos os outros fatores da equação.

Número de graus de liberdade para a soma dos quadrados dos resíduos

desvios.
No MS Excel, os erros padrão são calculados automaticamente (localizados na 3ª coluna da 3ª tabela).
valor atualt-Critério do aluno no MS Excel está localizado na 4ª coluna da 3ª tabela e é chamado estatística t.
(4ª coluna) = (2ª coluna) / (3ª coluna)

t-statistic = Coeficientes/Erro padrão
Valor da tabelat-Critério do aluno depende do nível de significância aceito (geralmente ; 0,05; 0,01) e do número de graus de liberdade .

onde n é o número de unidades populacionais,

m é o número de fatores na equação.
No MS Excel, o valor tabular do critério do Aluno pode ser determinado usando a função:

STUDRASP(probabilidade; número de graus de liberdade)
Por exemplo: =ESTUDAR(0.05,7)
Se , então conclui-se que o coeficiente da equação de regressão é estatisticamente significativo (confiável) e pode ser incluído no modelo e utilizado para previsão.

1.4.2 Método de simulação de Monte Carlo

O método de simulação recebeu esse nome em homenagem à cidade de Monte Carlo, localizada no Principado de Mônaco, um dos menores países do mundo, localizado na costa do Mediterrâneo, próximo à fronteira da França e da Itália.

O método de simulação de Monte Carlo envolve a geração de valores aleatórios de acordo com as restrições dadas. Ao iniciar a modelagem de simulação, em primeiro lugar, é necessário desenvolver um modelo econômico e matemático (EMM) do indicador previsto, refletindo a relação entre as variáveis ​​dos fatores, bem como o grau e a natureza de sua influência no resultado. Uma vez que, nas condições das condições de mercado modernas, o tema das relações econômicas é simultaneamente afetado por muitos fatores de natureza e direção diferentes, e o grau de sua influência não é determinístico, parece necessário dividir as variáveis ​​EMM em dois grupos: e determinístico;

Em seguida, você deve determinar os tipos de distribuições de probabilidade para cada variável estocástica e os parâmetros de entrada correspondentes, simular os valores das variáveis ​​estocásticas usando o gerador de números aleatórios do MS Excel ou outras ferramentas de software.

A ferramenta "geração de números aleatórios" está disponível para usuários do MS Excel 2007 após ativar o add-in Pacote de análise. A ordem de ativação do add-on é descrita acima (ver página 10, fig. 1.5-1.8). Para executar a simulação no menu DADOS item deve ser selecionado "Análise de dados", na caixa de diálogo que aparece, selecione uma ferramenta da lista "Geração de números aleatórios" e clique em OK.

Figura 1.46 - Interface do menu de análise de dados
Na caixa de diálogo exibida, você deve selecionar o tipo de distribuição de probabilidade para cada variável estocástica e definir os parâmetros de entrada apropriados.

Figura 1.47 - Caixa de diálogo do gerador de números aleatórios
Essa etapa é uma das mais difíceis, portanto, ao realizá-la, é necessário usar o conhecimento e a experiência de especialistas. Selecionando o Tipo de Distribuição de Probabilidade também pode ser realizado com base nas informações estatísticas disponíveis. Na prática, tipos de distribuições de probabilidade como normal, triangular e uniforme são mais frequentemente usados.

Distribuição normal (ou lei de Moivre-Gauss-Laplace) assume que as variantes do parâmetro previsto gravitam em direção ao valor médio. Valores de variáveis ​​que são significativamente diferentes da média, ou seja, localizados nas "caudas" da distribuição, possuem baixa probabilidade.

distribuição triangularé uma derivada da distribuição normal e assume uma distribuição linear crescente à medida que se aproxima da média.

Distribuição uniformeé usado no caso em que todos os valores do indicador variável têm a mesma probabilidade de realização.

Com a importância da variável e impossibilidade de escolher a lei de distribuição pode ser visto em termos de distribuição discreta. Os tipos de distribuições de probabilidade listados acima requerem a definição dos parâmetros de entrada apresentados na Tabela 1.11
Tabela 1.11 - Parâmetros de entrada dos principais tipos de distribuições de probabilidade


Tipo de probabilística

distribuição


Parâmetros de entrada

1 Distribuição normal

  • significa;

  • desvio padrão;

2 Distribuição triangular

  • significa;


3 Distribuição uniforme

  • limites da faixa possível de valores;

4 Distribuição discreta

  • valores específicos da variável;

  • correspondente a probabilidades dadas.

Como resultado de uma série de experimentos, será obtida a distribuição de valores de variáveis ​​estocásticas, com base na qual o valor do indicador previsto deve ser calculado.

O próximo passo necessário é realizar uma análise econômica e estatística dos resultados da simulação, na qual se recomenda calcular as seguintes características estatísticas:


  • significa;

  • desvio padrão;

  • dispersão;

  • valor mínimo e máximo;

  • gama de flutuações;

  • coeficiente de assimetria;

  • excesso.
Os indicadores acima podem ser usados ​​para testar a hipótese de uma distribuição normal. Se a hipótese for confirmada, a regra “três sigma” pode ser usada para fazer uma previsão de intervalo. A regra dos três sigma afirma que se uma variável aleatória X está sujeito à lei de distribuição normal com parâmetros e, é quase certo que seus valores estão no intervalo, ou seja. Para melhorar a clareza e simplificar a interpretação, é aconselhável construir um histograma.


Figura 1.48 - Histograma de valores de indicadores previstos

A implementação dessas etapas permitirá obter uma estimativa probabilística dos valores do indicador previsto (previsão de intervalo).

Hoje, todo mundo que está pelo menos um pouco interessado em mineração de dados provavelmente já ouviu falar sobre regressão linear simples. Já foi escrito no Habré, e Andrew Ng também falou em detalhes em seu conhecido curso de aprendizado de máquina. A regressão linear é um dos métodos básicos e mais simples de aprendizado de máquina, mas os métodos para avaliar a qualidade do modelo construído raramente são mencionados. Neste artigo, tentarei corrigir um pouco essa omissão irritante com o exemplo de análise dos resultados da função summary.lm() na linguagem R. Ao fazer isso, tentarei fornecer as fórmulas necessárias, para que todos os cálculos pode ser facilmente programado em qualquer outra linguagem. Este artigo destina-se a quem já ouviu falar que é possível construir uma regressão linear, mas não se deparou com procedimentos estatísticos para avaliar a sua qualidade.

Modelo de regressão linear

Então, sejam várias variáveis ​​aleatórias independentes X1, X2, ..., Xn (preditores) e uma variável Y dependendo delas (supõe-se que todas as transformações necessárias dos preditores já foram feitas). Além disso, assumimos que a dependência é linear e os erros são normalmente distribuídos, ou seja,

Onde I é uma matriz identidade quadrada n x n.

Então, temos dados que consistem em k observações dos valores Y e Xi e queremos estimar os coeficientes. O método padrão para encontrar estimativas de coeficientes é o método dos mínimos quadrados. E a solução analítica que pode ser obtida aplicando esse método se parece com isso:

Onde b com cap - estimativa de vetor de coeficiente, yé um vetor de valores da variável dependente, e X é uma matriz de tamanho k x n+1 (n é o número de preditores, k é o número de observações), em que a primeira coluna consiste em uns, a segunda - os valores do primeiro preditor, o terceiro - o segundo e assim por diante, e as linhas consistentes com as observações existentes.

A função summary.lm() e avaliação dos resultados

Agora considere um exemplo de construção de um modelo de regressão linear na linguagem R:
> biblioteca (distante) > lm1<-lm(Species~Area+Elevation+Nearest+Scruz+Adjacent, data=gala) >resumo(lm1) Chamada: lm(fórmula = Espécie ~ Área + Elevação + Mais Próximo + Cruzeiro + Adjacente, dados = gala) Resíduos: Mín. Error t value Pr(>|t|) (Intercept) 7.068221 19.154198 0.369 0.715351 Area -0.023938 0.022422 -1.068 0.296318 Elevation 0.319465 0.053663 5.953 3.82e-06 *** Nearest 0.009144 1.054136 0.009 0.993151 Scruz -0.240524 0.215402 -1.117 0.275208 Adjacent -0.074805 0,017700 -4,226 0,000297 *** --- Signif. códigos: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 ' ' 1 Erro padrão residual: 60,98 em 24 graus de liberdade R-quadrado múltiplo: 0,7658, R-quadrado ajustado: 0,7171 F- estatística: 15,7 em 5 e 24 DF, valor p: 6,838e-07
A tabela de gala contém alguns dados sobre as 30 Ilhas Galápagos. Vamos considerar um modelo onde Espécies - o número de diferentes espécies de plantas na ilha é linearmente dependente de várias outras variáveis.

Considere a saída da função summary.lm().
Primeiro vem uma linha que lembra como o modelo foi construído.
Em seguida, vem as informações sobre a distribuição dos resíduos: mínimo, primeiro quartil, mediana, terceiro quartil, máximo. Neste ponto, seria útil não apenas observar alguns quantis dos resíduos, mas também verificar a normalidade deles, por exemplo, usando o teste de Shapiro-Wilk.
Em seguida - o mais interessante - informações sobre os coeficientes. Um pouco de teoria é necessária aqui.
Primeiro escrevemos o seguinte resultado:

onde sigma ao quadrado com um limite é um estimador imparcial para sigma ao quadrado real. Aqui bé o vetor real de coeficientes, e o épsilon capeado é o vetor de resíduos, se tomarmos as estimativas de mínimos quadrados como coeficientes. Ou seja, assumindo que os erros são normalmente distribuídos, o vetor de coeficientes também será distribuído normalmente em torno do valor real, e sua variância pode ser estimada de forma imparcial. Isso significa que você pode testar a hipótese da igualdade dos coeficientes a zero e, portanto, verificar a significância dos preditores, ou seja, se o valor de Xi realmente afeta fortemente a qualidade do modelo construído.
Para testar essa hipótese, precisamos da seguinte estatística, que tem distribuição de Student se o valor real do coeficiente bi for 0:

Onde
é o erro padrão da estimativa do coeficiente e t(k-n-1) é a distribuição de Student com k-n-1 graus de liberdade.

Agora estamos prontos para continuar analisando a saída da função summary.lm().
Então, a seguir estão as estimativas de coeficientes obtidas pelo método dos mínimos quadrados, seus erros padrão, os valores da estatística t e os valores p para ela. Normalmente, o valor p é comparado a algum limiar pré-selecionado suficientemente pequeno, como 0,05 ou 0,01. E se o valor da estatística p for menor que o limite, então a hipótese é rejeitada, se mais, nada de concreto, infelizmente, pode ser dito. Deixe-me lembrá-lo que neste caso, como a distribuição de Student é simétrica em torno de 0, então o valor de p será igual a 1-F(|t|)+F(-|t|), onde F é a distribuição de Student função com k-n-1 graus de liberdade. Além disso, R gentilmente marca com asteriscos coeficientes significativos para os quais o valor de p é suficientemente pequeno. Ou seja, aqueles coeficientes que são muito improváveis ​​de serem 0. Na linha Signif. codes contém apenas a decodificação dos asteriscos: se houver três, então o valor p é de 0 a 0,001, se houver dois, então é de 0,001 a 0,01, e assim por diante. Se não houver ícones, o valor p é maior que 0,1.

Em nosso exemplo, podemos dizer com grande certeza que os preditores Elevation e Adjacent provavelmente afetarão o valor de Species, mas nada definitivo pode ser dito sobre o restante dos preditores. Normalmente, nesses casos, os preditores são removidos um a um e observam como outros indicadores do modelo mudam, por exemplo, BIC ou R-quadrado ajustado, que serão analisados ​​posteriormente.

O valor do erro padrão residual corresponde a uma estimativa simples de sigma com cap, e os graus de liberdade são calculados como k-n-1.

E agora as estatísticas mais importantes, que valem a pena olhar antes de tudo: R-quadrado e R-quadrado ajustado:

onde Yi são os valores reais de Y em cada observação, Yi com limite são os valores previstos pelo modelo, Y com barra é a média de todos os valores reais de Yi.

Vamos começar com a estatística R-quadrado, ou, como às vezes é chamada, o coeficiente de determinação. Mostra como a variância condicional do modelo difere da variância dos valores reais de Y. Se este coeficiente estiver próximo de 1, então a variância condicional do modelo é bastante pequena e é muito provável que o modelo se ajuste ao dados bem. Se o coeficiente R-quadrado for muito menor, por exemplo, menor que 0,5, então, com alto grau de confiança, o modelo não reflete o estado real das coisas.

No entanto, a estatística R-quadrado tem uma séria desvantagem: à medida que o número de preditores aumenta, essa estatística só pode aumentar. Portanto, pode parecer que um modelo com mais preditores é melhor do que um modelo com menos, mesmo que todos os novos preditores não afetem a variável dependente. Aqui podemos relembrar o princípio da navalha de Occam. Seguindo-o, se possível, vale a pena se livrar de preditores desnecessários no modelo, pois ele se torna mais simples e compreensível. Para esses propósitos, a estatística R-quadrado ajustada foi inventada. É um R-quadrado regular, mas com uma penalidade para um grande número de preditores. A ideia principal: se as novas variáveis ​​independentes contribuem muito para a qualidade do modelo, o valor desta estatística aumenta, se não, então vice-versa diminui.

Por exemplo, considere o mesmo modelo de antes, mas agora em vez de cinco preditores, vamos deixar dois:
>lm2<-lm(Species~Elevation+Adjacent, data=gala) >resumo(lm2) Chamada: lm(fórmula = Espécie ~ Elevação + Adjacente, dados = gala) Resíduos: Min 1T Mediana 3Q Max -103,41 -34,33 -11,43 22,57 203,65 Coeficientes: Estimativa Std. Valor de erro t Pr(>|t|) (Interceptar) 1,43287 15,02469 0,095 0,924727 Elevação 0,27657 0,03176 8,707 2,53e-09 *** Adjacente -0,06889 0,01549 -4,447 0,000134 *** --- Signif. códigos: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 ' ' 1 Erro padrão residual: 60,86 em 27 graus de liberdade R-quadrado múltiplo: 0,7376, R-quadrado ajustado: 0,7181 F- estatística: 37,94 em 2 e 27 DF, valor p: 1,434e-08
Como você pode ver, o valor da estatística R-quadrado diminuiu, mas o valor do R-quadrado ajustado aumentou um pouco.

Agora vamos testar a hipótese de que todos os coeficientes dos preditores são iguais a zero. Ou seja, a hipótese de que o valor de Y geralmente depende dos valores de Xi linearmente. Para fazer isso, você pode usar as seguintes estatísticas, que, se a hipótese de que todos os coeficientes são iguais a zero for verdadeira, tem

Coeficiente de correlação múltipla usado como medida do grau de proximidade da relação estatística entre o indicador resultante (variável dependente) y e um conjunto de variáveis ​​explicativas (independentes) ou, em outras palavras, estima a proximidade da influência conjunta dos fatores no resultado.

O coeficiente de correlação múltipla pode ser calculado a partir de várias fórmulas 5, incluindo:

    usando a matriz de coeficientes de correlação pareados

, (3.18)

onde  r- determinante da matriz de coeficientes de correlação pareados y,
,

r 11 - determinante da matriz de correlação interfatorial
;

. (3.19)

Para um modelo em que existem duas variáveis ​​independentes, a fórmula (3.18) é simplificada

. (3.20)

O quadrado do coeficiente de correlação múltipla é coeficiente de determinação R 2. Como no caso de regressão par a par, R 2 indica a qualidade do modelo de regressão e reflete a proporção da variação total do traço resultante y explicado alterando a função de regressão f(x) (ver 2.4). Além disso, o coeficiente de determinação pode ser encontrado pela fórmula

. (3.21)

No entanto, o uso R 2 no caso de regressão múltipla não é muito correto, pois o coeficiente de determinação aumenta quando os regressores são adicionados ao modelo. Isso ocorre porque a variância residual diminui quando variáveis ​​adicionais são introduzidas. E se o número de fatores se aproximar do número de observações, então a variância residual será zero, e o coeficiente de correlação múltipla e, portanto, o coeficiente de determinação, se aproximará da unidade, embora na realidade a relação entre os fatores e o resultado e o poder explicativo da equação de regressão pode ser muito menor.

Para obter uma avaliação adequada de quão bem a variação da característica resultante é explicada pela variação de várias características de fatores, aplique coeficiente de determinação ajustado

(3.22)

O coeficiente de determinação ajustado é sempre menor R 2. Além disso, diferentemente R 2 que é sempre positivo,
também pode assumir um valor negativo.

Exemplo (continuação do exemplo 1). Vamos calcular o coeficiente de correlação múltipla, de acordo com a fórmula (3.20):

O valor do coeficiente de correlação múltipla, igual a 0,8601, indica uma forte relação entre o custo de transporte e o peso da carga e a distância que ela é transportada.

O coeficiente de determinação é igual a: R 2 =0,7399.

O coeficiente de determinação ajustado é calculado pela fórmula (3.22):

=0,7092.

Observe que o valor do coeficiente de determinação ajustado difere do valor do coeficiente de determinação.

Assim, 70,9% da variação da variável dependente (custo de transporte) é explicada pela variação das variáveis ​​independentes (peso da carga e distância de transporte). Os 29,1% restantes da variação da variável dependente são explicados por fatores não considerados no modelo.

O valor do coeficiente de determinação ajustado é bastante grande, portanto, conseguimos levar em consideração no modelo os fatores mais significativos que determinam o custo do transporte. 

A análise de regressão é um método de pesquisa estatística que permite mostrar a dependência de um parâmetro em uma ou mais variáveis ​​independentes. Na era pré-computador, seu uso era bastante difícil, principalmente quando se tratava de grandes quantidades de dados. Hoje, tendo aprendido a construir uma regressão no Excel, você pode resolver problemas estatísticos complexos em apenas alguns minutos. Abaixo estão exemplos específicos do campo da economia.

Tipos de regressão

O conceito em si foi introduzido na matemática em 1886. A regressão acontece:

  • linear;
  • parabólico;
  • potência;
  • exponencial;
  • hiperbólico;
  • demonstrativo;
  • logarítmico.

Exemplo 1

Considere o problema de determinar a dependência do número de membros da equipe aposentados do salário médio em 6 empresas industriais.

Uma tarefa. Em seis empresas, analisamos o salário médio mensal e o número de funcionários que saíram por vontade própria. Em forma de tabela temos:

O número de pessoas que saíram

Salário

30.000 rublos

35.000 rublos

40.000 rublos

45.000 rublos

50.000 rublos

55.000 rublos

60.000 rublos

Para o problema de determinar a dependência do número de aposentados do salário médio em 6 empresas, o modelo de regressão tem a forma da equação Y = a 0 + a 1 x 1 +…+a k x k , onde x i são as variáveis ​​de influência , a i são os coeficientes de regressão, a k é o número de fatores.

Para esta tarefa, Y é o indicador de funcionários que saíram, e o fator de influência é o salário, que denotamos por X.

Usando os recursos da planilha "Excel"

A análise de regressão no Excel deve ser precedida pela aplicação de funções incorporadas aos dados tabulares disponíveis. No entanto, para esses fins, é melhor usar o complemento muito útil "Kit de ferramentas de análise". Para ativá-lo você precisa:

  • na guia "Arquivo", vá para a seção "Opções";
  • na janela que se abre, selecione a linha "Add-ons";
  • clique no botão "Ir" localizado na parte inferior, à direita da linha "Gerenciamento";
  • marque a caixa ao lado do nome "Pacote de análise" e confirme suas ações clicando em "OK".

Se tudo for feito corretamente, o botão desejado aparecerá no lado direito da aba Dados, localizado acima da planilha do Excel.

em Excel

Agora que temos em mãos todas as ferramentas virtuais necessárias para realizar cálculos econométricos, podemos começar a resolver nosso problema. Por esta:

  • clique no botão "Análise de Dados";
  • na janela que se abre, clique no botão "Regressão";
  • na aba que aparece, insira a faixa de valores para Y (o número de funcionários que se demitiram) e para X (seus salários);
  • Confirmamos nossas ações pressionando o botão "Ok".

Como resultado, o programa preencherá automaticamente uma nova planilha da planilha com dados de análise de regressão. Observação! O Excel tem a capacidade de definir manualmente o local de sua preferência para essa finalidade. Por exemplo, pode ser a mesma planilha onde estão os valores Y e X, ou até mesmo uma nova pasta de trabalho projetada especificamente para armazenar esses dados.

Análise de resultados de regressão para R-quadrado

No Excel, os dados obtidos durante o processamento dos dados do exemplo considerado são assim:

Antes de tudo, você deve prestar atenção ao valor do R-quadrado. É o coeficiente de determinação. Neste exemplo, R-quadrado = 0,755 (75,5%), ou seja, os parâmetros calculados do modelo explicam em 75,5% a relação entre os parâmetros considerados. Quanto maior o valor do coeficiente de determinação, mais aplicável o modelo escolhido para uma determinada tarefa. Acredita-se que descreva corretamente a situação real com um valor R-quadrado acima de 0,8. Se R ao quadrado<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Análise de proporção

O número 64,1428 mostra qual será o valor de Y se todas as variáveis ​​xi no modelo que estamos considerando forem zeradas. Em outras palavras, pode-se argumentar que o valor do parâmetro analisado também é influenciado por outros fatores que não estão descritos em um modelo específico.

O próximo coeficiente -0,16285, localizado na célula B18, mostra o peso da influência da variável X sobre Y. Isso significa que o salário médio mensal dos funcionários dentro do modelo considerado afeta o número de desistentes com um peso de -0,16285, ou seja, o grau de sua influência em tudo pequeno. O sinal "-" indica que o coeficiente tem um valor negativo. Isso é óbvio, pois todos sabem que quanto maior o salário na empresa, menos as pessoas expressam o desejo de rescindir o contrato de trabalho ou pedir demissão.

Regressão múltipla

Este termo refere-se a uma equação de conexão com várias variáveis ​​independentes da forma:

y \u003d f (x 1 + x 2 + ... x m) + ε, onde y é o recurso efetivo (variável dependente) e x 1 , x 2 , ... x m são os fatores fatoriais (variáveis ​​independentes).

Estimativa de parâmetros

Para regressão múltipla (MR) é realizada usando o método dos mínimos quadrados (OLS). Para equações lineares da forma Y = a + b 1 x 1 +…+b m x m + ε, construímos um sistema de equações normais (veja abaixo)

Para entender o princípio do método, considere o caso de dois fatores. Então temos uma situação descrita pela fórmula

A partir daqui obtemos:

onde σ é a variância da característica correspondente refletida no índice.

O LSM é aplicável à equação MP em uma escala padronizável. Neste caso, obtemos a equação:

onde t y , t x 1, … t xm são variáveis ​​padronizadas para as quais os valores médios são 0; β i são os coeficientes de regressão padronizados e o desvio padrão é 1.

Observe que todos os β i neste caso são definidos como normalizados e centralizados, portanto, sua comparação entre si é considerada correta e admissível. Além disso, é costume filtrar os fatores, descartando aqueles com os menores valores de βi.

Problema usando equação de regressão linear

Suponha que haja uma tabela da dinâmica dos preços de um determinado produto N durante os últimos 8 meses. É necessário tomar uma decisão sobre a conveniência de comprar seu lote ao preço de 1850 rublos/t.

número do mês

nome do mês

preço do item N

1750 rublos por tonelada

1755 rublos por tonelada

1767 rublos por tonelada

1760 rublos por tonelada

1770 rublos por tonelada

1790 rublos por tonelada

1810 rublos por tonelada

1840 rublos por tonelada

Para resolver esse problema na planilha do Excel, você precisa utilizar a ferramenta de Análise de Dados já conhecida do exemplo acima. Em seguida, selecione a seção "Regressão" e defina os parâmetros. Vale lembrar que no campo "Input interval Y" deve ser inserido um intervalo de valores para a variável dependente (neste caso, o preço de um produto em meses específicos do ano) e no campo "Input intervalo X" - para a variável independente (número do mês). Confirme a ação clicando em "Ok". Em uma nova planilha (se assim foi indicado), obtemos dados para regressão.

Com base neles, construímos uma equação linear da forma y=ax+b, onde os parâmetros a e b são os coeficientes da linha com o nome do número do mês e os coeficientes e a linha “Y-intersection” do planilha com os resultados da análise de regressão. Assim, a equação de regressão linear (LE) para o problema 3 é escrita como:

Preço do produto N = 11,714* número do mês + 1727,54.

ou em notação algébrica

y = 11,714 x + 1727,54

Análise de resultados

Para decidir se a equação de regressão linear resultante é adequada, são utilizados coeficientes de correlação múltipla (MCC) e coeficientes de determinação, bem como o teste de Fisher e o teste de Student. Na tabela do Excel com resultados de regressão, eles aparecem sob os nomes de múltiplos R, R-quadrado, estatística F e estatística t, respectivamente.

O KMC R permite avaliar a rigidez da relação probabilística entre as variáveis ​​independentes e dependentes. Seu alto valor indica uma relação bastante forte entre as variáveis ​​"Número do mês" e "Preço das mercadorias N em rublos por 1 tonelada". No entanto, a natureza dessa relação permanece desconhecida.

O quadrado do coeficiente de determinação R 2 (RI) é uma característica numérica da parcela da dispersão total e mostra a dispersão de qual parte dos dados experimentais, ou seja, valores da variável dependente corresponde à equação de regressão linear. No problema considerado, esse valor é igual a 84,8%, ou seja, os dados estatísticos são descritos com alto grau de precisão pelo SD obtido.

A estatística F, também chamada de teste de Fisher, é usada para avaliar a significância de uma relação linear, refutando ou confirmando a hipótese de sua existência.

(Critério do aluno) ajuda a avaliar a significância do coeficiente com um termo desconhecido ou livre de uma relação linear. Se o valor do critério t > t cr, então a hipótese da insignificância do termo livre da equação linear é rejeitada.

No problema considerado para o membro livre, utilizando as ferramentas do Excel, obteve-se que t = 169,20903, ep = 2,89E-12, ou seja, temos uma probabilidade zero de que a hipótese correta sobre a insignificância do membro livre será ser rejeitado. Para o coeficiente em desconhecido t=5,79405, ep=0,001158. Em outras palavras, a probabilidade de que a hipótese correta sobre a insignificância do coeficiente para a incógnita seja rejeitada é de 0,12%.

Assim, pode-se argumentar que a equação de regressão linear resultante é adequada.

O problema da conveniência de comprar um bloco de ações

A regressão múltipla no Excel é realizada usando a mesma ferramenta de Análise de Dados. Considere um problema aplicado específico.

A administração da NNN deve tomar uma decisão sobre a conveniência de adquirir uma participação de 20% na MMM SA. O custo do pacote (JV) é de 70 milhões de dólares americanos. Os especialistas da NNN coletaram dados sobre transações semelhantes. Optou-se por avaliar o valor do bloco de ações segundo tais parâmetros, expressos em milhões de dólares norte-americanos, como:

  • contas a pagar (VK);
  • faturamento anual (VO);
  • contas a receber (VD);
  • custo do ativo imobilizado (SOF).

Além disso, é utilizado o parâmetro folha de pagamento em atraso da empresa (V3 P) em milhares de dólares norte-americanos.

Solução usando planilha do Excel

Antes de tudo, você precisa criar uma tabela de dados iniciais. Se parece com isso:

  • chamar a janela "Análise de Dados";
  • selecione a seção "Regressão";
  • na caixa "Intervalo de entrada Y" insira o intervalo de valores das variáveis ​​dependentes da coluna G;
  • clique no ícone com uma seta vermelha à direita da janela "Input interval X" e selecione o intervalo de todos os valores das colunas B, C, D, F na planilha.

Selecione "Nova planilha" e clique em "Ok".

Obtenha a análise de regressão para o problema dado.

Exame dos resultados e conclusões

“Coletamos” dos dados arredondados apresentados acima na planilha do Excel, a equação de regressão:

SP \u003d 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265,844.

Em uma forma matemática mais familiar, pode ser escrito como:

y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265,844

Os dados para JSC "MMM" são apresentados na tabela:

Substituindo-os na equação de regressão, eles obtêm um valor de 64,72 milhões de dólares americanos. Isso significa que as ações da JSC MMM não devem ser compradas, pois seu valor de 70 milhões de dólares americanos é bastante exagerado.

Como você pode ver, o uso da planilha Excel e da equação de regressão tornou possível tomar uma decisão informada sobre a viabilidade de uma transação muito específica.

Agora você sabe o que é regressão. Os exemplos em Excel discutidos acima o ajudarão a resolver problemas práticos do campo da econometria.