Determinação da significância da equação de regressão. Avaliação da significância estatística da equação de regressão de seus parâmetros

Para os coeficientes da equação de regressão, seu nível de significância é verificado de acordo com t -Critério do aluno e pelo critério F Pescador. Abaixo consideramos a avaliação da confiabilidade dos indicadores de regressão apenas para as equações lineares (12.1) e (12.2).

Y=a 0+ um 1 X(12.1)

X=b 0+b 1 S(12.2)

Para este tipo de equações, elas são avaliadas por t-Critério do aluno apenas os valores dos coeficientes uma 1i b 1 usando o cálculo do valor tf de acordo com as seguintes fórmulas:

Onde r yx coeficiente de correlação e o valor uma 1 pode ser calculado usando as fórmulas 12.5 ou 12.7.

A fórmula (12.27) é usada para calcular a quantidade tf, uma 1 equações de regressão S sobre x.

O valor que b 1 pode ser calculado usando as fórmulas (12.6) ou (12.8).

A fórmula (12.29) é usada para calcular a quantidade tf, que permite estimar o nível de significância do coeficiente b 1 equações de regressão X sobre S

Exemplo. Vamos estimar o nível de significância dos coeficientes de regressão uma 1i b 1 equações (12.17) e (12.18) obtidas na resolução do problema 12.1. Vamos usar as fórmulas (12,27), (12,28), (12,29) e (12,30) para isso.

Lembre-se da forma das equações de regressão obtidas:

Y x = 3 + 0,06 X(12.17)

Xy = 9+ 1 S(12.19)

Valor uma 1 na equação (12.17) é igual a 0,06. Portanto, para calcular de acordo com a fórmula (12.27), você precisa calcular o valor Sb y x. De acordo com a condição do problema, a quantidade P= 8. O coeficiente de correlação também foi calculado por nós usando a fórmula 12.9: rxy = √ 0,06 0,997 = 0,244 .

Resta calcular as quantidades Σ (em v- y) 2 e Σ (X ι -x) 2 , que não calculamos. É melhor fazer esses cálculos na tabela 12.2:

Tabela 12.2

Nº de examinandos p/p x ι eu x ι –x (x ι –x) 2 em v- y (em v- y) 2
-4,75 22,56 - 1,75 3,06
-4,75 22,56 -0,75 0,56
-2,75 7,56 0,25 0,06
-2,75 7,56 1,25 15,62
1,25 1,56 1,25 15,62
3,25 10,56 0,25 0,06
5,25 27,56 -0,75 0,56
5,25 27,56 0,25 0,06
Somas 127,48 35,6
Médio 12,75 3,75

Substituímos os valores obtidos na fórmula (12.28), obtemos:

Agora vamos calcular o valor tf de acordo com a fórmula (12.27):

Valor tfé verificado quanto ao nível de significância de acordo com a Tabela 16 do Apêndice 1 para t- Critério do aluno. O número de graus de liberdade neste caso será igual a 8-2 = 6, então os valores críticos são iguais, respectivamente, para P ≤ 0,05 t cr= 2,45 e para Р≤ 0,01 t cr=3,71. No formulário aceito, fica assim:

Construímos o "eixo de significância":

Valor recebido tf Mas que o valor do coeficiente de regressão da equação (12.17) é indistinguível de zero. Em outras palavras, a equação de regressão resultante é inadequada aos dados experimentais originais.



Vamos agora calcular o nível de significância do coeficiente b 1. Para isso, é necessário calcular o valor Sbxy de acordo com a fórmula (12.30), para a qual todas as quantidades necessárias já foram calculadas:

Agora vamos calcular o valor tf de acordo com a fórmula (12.27):

Podemos construir imediatamente o "eixo de significância", já que todas as operações preliminares foram feitas acima:

Valor recebido tf caiu na zona de insignificância, portanto devemos aceitar a hipótese H sobre o fato de que o valor do coeficiente de regressão da equação (12.19) é indistinguível de zero. Em outras palavras, a equação de regressão resultante é inadequada aos dados experimentais originais.

Regressão não linear

O resultado obtido na seção anterior é um tanto desanimador: descobrimos que ambas as equações de regressão (12.15) e (12.17) são inadequadas aos dados experimentais. O último aconteceu porque ambas as equações caracterizam uma relação linear entre características, e mostramos na Seção 11.9 que entre variáveis X e S existe uma dependência curvilínea significativa. Em outras palavras, entre variáveis X e S neste problema é necessário procurar não por conexões lineares, mas sim por conexões curvilíneas. Faremos isso usando o pacote “Stage 6.0” (desenvolvido por A.P. Kulaichev, número de registro 1205).

Tarefa 12.2. O psicólogo deseja escolher um modelo de regressão adequado aos dados experimentais obtidos no problema 11.9.

Solução. Este problema é resolvido pela simples enumeração de modelos de regressão curvilínea oferecidos no pacote estatístico Stadiya. O pacote está organizado de tal forma que os dados experimentais são inseridos na planilha, que é a fonte para trabalhos futuros, na forma da primeira coluna para a variável X e segunda coluna para variável Y. Então, no menu principal, a seção Estatística é selecionada, nela uma subseção - análise de regressão, nesta subseção novamente uma subseção - regressão curvilínea. O último menu contém fórmulas (modelos) de vários tipos de regressão curvilínea, segundo as quais você pode calcular os coeficientes de regressão correspondentes e verificar imediatamente sua significância. Abaixo, consideramos apenas alguns exemplos de trabalho com modelos prontos (fórmulas) de regressão curvilínea.



1. Primeiro modelo - expositor . Sua fórmula é:

Ao calcular usando o pacote stat, obtemos uma 0 = 1 e uma 1 = 0,022.

O cálculo do nível de significância para a deu o valor R= 0,535. É óbvio que o valor obtido é insignificante. Portanto, este modelo de regressão é inadequado aos dados experimentais.

2. Segundo modelo - potência . Sua fórmula é:

Ao contar e o = - 5,29, a, = 7,02 e uma 1 = 0,0987.

Nível de significância para uma 1 - R= 7,02 e para uma 2 - P = 0,991. Obviamente, nenhum dos coeficientes é significativo.

3. O terceiro modelo - polinomial . Sua fórmula é:

S= uma 0 + uma 1 X + um 2 X 2+ uma 3 X 3

Ao contar um 0= - 29,8, uma 1 = 7,28, uma 2 = - 0,488 e uma 3 = 0,0103. Nível de significância para a, - P = 0,143, para um 2 - P = 0,2 e para a, - P= 0,272

Conclusão - este modelo é inadequado aos dados experimentais.

4. Quarto modelo - parábola .

Sua fórmula é: Y \u003d a o + a l -X 1 + a 2 X 2

Ao contar uma 0 \u003d - 9,88, a, \u003d 2,24 e uma 1 = - 0,0839 Nível de significância para uma 1 - P = 0,0186, para uma 2 - P = 0,0201. Ambos os coeficientes de regressão foram significativos. Portanto, o problema está resolvido - identificamos a forma de uma relação curvilínea entre o sucesso da resolução do terceiro subteste de Veksler e o nível de conhecimento em álgebra - esta é uma dependência do tipo parabólico. Este resultado confirma a conclusão obtida na resolução do problema 11.9 sobre a presença de uma relação curvilínea entre as variáveis. Ressaltamos que foi com o auxílio da regressão curvilínea que se obteve a forma exata da relação entre as variáveis ​​estudadas.


Capítulo 13 ANÁLISE DE FATORES

Conceitos básicos de análise fatorial

A análise fatorial é um método estatístico usado ao processar grandes quantidades de dados experimentais. As tarefas da análise fatorial são: reduzir o número de variáveis ​​(redução de dados) e determinar a estrutura das relações entre as variáveis, ou seja, classificação de variáveis, por isso a análise fatorial é utilizada como método de redução de dados ou como método de classificação estrutural.

Uma diferença importante entre a análise fatorial e todos os métodos descritos acima é que ela não pode ser usada para processar dados experimentais primários ou, como se costuma dizer, "brutos", ou seja, dados experimentais "brutos". obtidas diretamente do exame das disciplinas. O material para análise fatorial são as correlações, ou melhor, os coeficientes de correlação de Pearson, que são calculados entre as variáveis ​​(ou seja, características psicológicas) incluídas na pesquisa. Em outras palavras, as matrizes de correlação, ou, como são chamadas, matrizes de intercorrelação, são submetidas à análise fatorial. Os nomes das colunas e linhas dessas matrizes são os mesmos, pois representam uma lista de variáveis ​​incluídas na análise. Por esta razão, as matrizes de intercorrelação são sempre quadradas, ou seja, o número de linhas neles é igual ao número de colunas e simétrico, ou seja, lugares simétricos em relação à diagonal principal têm os mesmos coeficientes de correlação.

Deve-se enfatizar que a tabela de dados original da qual a matriz de correlação é obtida não precisa ser quadrada. Por exemplo, um psicólogo mediu três indicadores de inteligência (verbal, não verbal e geral) e notas escolares em três disciplinas acadêmicas (literatura, matemática, física) em 100 disciplinas - alunos do nono ano. A matriz de dados original será 100 x 6 e a matriz de intercorrelação será 6 x 6 porque possui apenas 6 variáveis. Com tantas variáveis, a matriz de intercorrelação incluirá 15 coeficientes e não será difícil analisá-la.

No entanto, imagine o que acontece se o psicólogo receber não 6, mas 100 indicadores de cada disciplina. Nesse caso, ele terá que analisar 4.950 coeficientes de correlação. O número de coeficientes na matriz é calculado pela fórmula n (n + 1) / 2 e no nosso caso é igual a (100 × 99) / 2 = 4950, respectivamente.

Obviamente, realizar uma análise visual de tal matriz é uma tarefa difícil. Em vez disso, um psicólogo pode realizar um procedimento matemático de análise fatorial de uma matriz de correlação 100 × 100 (100 sujeitos e 100 variáveis) e desta forma obter material mais fácil para interpretar resultados experimentais.

O conceito principal da análise fatorial é fator. Este é um indicador estatístico artificial resultante de transformações especiais da tabela de coeficientes de correlação entre as características psicológicas estudadas, ou a matriz de intercorrelações. O procedimento para extrair fatores de uma matriz de intercorrelação é chamado de fatoração de matrizes. Como resultado da fatoração, um número diferente de fatores pode ser extraído da matriz de correlação até um número igual ao número de variáveis ​​originais. No entanto, os fatores identificados como resultado da fatoração, via de regra, são desiguais em seu valor.

Os elementos da matriz fatorial são chamados ou escalas"; e são os coeficientes de correlação de um dado fator com todos os indicadores utilizados no estudo. A matriz fatorial é muito importante porque mostra como os indicadores estudados estão relacionados a cada fator selecionado. Ao mesmo tempo, o peso do fator demonstra a medida, ou proximidade, dessa conexão.

Como cada coluna da matriz fatorial (fator) é um tipo de variável, os próprios fatores também podem se correlacionar. Dois casos são possíveis aqui: a correlação entre os fatores é igual a zero, caso em que os fatores são independentes (ortogonais). Se a correlação entre os fatores for maior que zero, então neste caso os fatores são considerados dependentes (óbvios). Enfatizamos que os fatores ortogonais, em contraste com os oblíquos, fornecem variantes mais simples de interações dentro da matriz fatorial.

Como ilustração dos fatores ortogonais, costuma-se citar o problema de L. Thurstone, que, tomando várias caixas de diferentes tamanhos e formas, mediu mais de 20 indicadores diferentes em cada uma delas e calculou as correlações entre elas. Tendo fatorado a matriz de intercorrelações obtida, obteve três fatores, cuja correlação entre eles foi igual a zero. Esses fatores foram "comprimento", "largura" e "altura".

Para entender melhor a essência da análise fatorial, analisaremos o exemplo a seguir com mais detalhes.

Suponha que um psicólogo receba os seguintes dados de uma amostra aleatória de alunos:

V 1- peso corporal (em kg);

V 2 - o número de presenças em palestras e seminários sobre o tema;

V 3- comprimento da perna (em cm);

V 4- o número de livros lidos sobre o assunto;

V 5- comprimento do braço (em cm);

V 6 - nota do exame na disciplina ( V- da palavra inglesa variável - variável).

Ao analisar essas características, é razoável supor que as variáveis V1, K 3 e V 5- estarão interligados, pois quanto maior a pessoa, mais ela pesa e mais longos seus membros. Isso significa que deve haver coeficientes de correlação estatisticamente significativos entre essas variáveis, uma vez que essas três variáveis ​​medem alguma propriedade fundamental dos indivíduos da amostra, a saber, seu tamanho. Da mesma forma, é provável que, ao calcular as correlações entre V2, V4 e V 6 coeficientes de correlação suficientemente altos também serão obtidos, uma vez que assistir a palestras e auto-estudo contribuirá para obter notas mais altas na disciplina em estudo.

Assim, de toda a matriz possível de coeficientes, que é obtida pela enumeração de pares de características correlacionadas V 1 e V2, Vt e V 3 etc., dois blocos de correlações estatisticamente significativas provavelmente se destacarão. O resto das correlações - entre as características incluídas em diferentes blocos, provavelmente não terão coeficientes estatisticamente significativos, uma vez que as relações entre características como tamanho do membro e desempenho acadêmico são provavelmente de natureza aleatória. Assim, uma análise significativa de nossas 6 variáveis ​​mostra que elas, de fato, medem apenas duas características generalizadas, a saber: tamanho corporal e grau de preparação no assunto.

Para a matriz de intercorrelações resultante, ou seja. coeficientes de correlação calculados aos pares entre todas as seis variáveis V 1 - V 6,é permitido aplicar a análise fatorial. Também pode ser realizado manualmente, por meio de uma calculadora, mas o procedimento para tal processamento estatístico é muito trabalhoso. Por esta razão, a análise fatorial é atualmente realizada em computadores, geralmente usando pacotes estatísticos padrão. Todos os pacotes estatísticos modernos possuem programas para correlação e análise fatorial. Um programa de computador de análise fatorial essencialmente tenta "explicar" correlações entre variáveis ​​em termos de um pequeno número de fatores (dois em nosso exemplo).

Suponha que, usando um programa de computador, obtivemos a matriz de intercorrelações de todas as seis variáveis ​​e a submetemos à análise fatorial. Como resultado da análise fatorial, obteve-se a Tabela 13.1, denominada “matriz fatorial” ou “matriz estrutural fatorial”.

Tabela 13.1

Variável Fator 1 Fator 2
V 1 0,91 0,01
V 2 0,20 0,96
V 3 0,94 -0,15
V 4 0,11 0,85
V 5 0,89 0,07
V 6 -0,13 0,93

Tradicionalmente, os fatores são representados na tabela como colunas e as variáveis ​​como linhas. Os títulos das colunas da Tabela 13.1 correspondem aos números dos fatores selecionados, mas seria mais correto chamá-los de “cargas fatoriais”, ou “pesos”, para o fator 1, o mesmo para o fator 2. Como mencionado acima, cargas fatoriais, ou pesos, são correlações entre a respectiva variável e o fator dado. Por exemplo, o primeiro número 0,91 no primeiro fator significa que a correlação entre o primeiro fator e a variável V 1é igual a 0,91. Quanto maior a carga fatorial em valor absoluto, maior sua relação com o fator.

A Tabela 13.1 mostra que as variáveis V 1 V 3 e V 5 têm grandes correlações com o fator 1 (na verdade, a variável 3 tem uma correlação próxima de 1 com o fator 1). Ao mesmo tempo, as variáveis V 2 ,V 3 e 5 têm correlações próximas de 0 com o fator 2. Da mesma forma, o fator 2 é altamente correlacionado com as variáveis V2, V4 e V 6 e na verdade não se correlaciona com as variáveis V 1,V 3 e V 5

Neste exemplo, fica claro que existem duas estruturas de correlação e, portanto, todas as informações da Tabela 13.1 são determinadas por dois fatores. Agora começa a etapa final do trabalho - a interpretação dos dados obtidos. Ao analisar a matriz fatorial, é muito importante levar em consideração os sinais de cargas fatoriais em cada fator. Se ocorrerem cargas com sinais opostos no mesmo fator, isso significa que existe uma relação inversamente proporcional entre variáveis ​​com sinais opostos.

Observe que ao interpretar o fator, por conveniência, é possível inverter os sinais de todas as cargas para este fator.

A matriz fatorial também mostra quais variáveis ​​compõem cada fator. Isso se deve principalmente ao nível de significância do peso do fator. Tradicionalmente, o nível mínimo de significância dos coeficientes de correlação na análise fatorial é tomado igual a 0,4 ou mesmo 0,3 (em valor absoluto), pois não existem tabelas especiais pelas quais se possa determinar os valores críticos para o nível de significância na matriz fatorial . Portanto, a maneira mais fácil de ver quais variáveis ​​"pertencem" a um fator é sinalizar aquelas que possuem cargas maiores que 0,4 (ou menores que -0,4). Ressaltamos que em pacotes de computador, às vezes, o nível de significância do peso do fator é determinado pelo próprio programa e é fixado em um nível mais alto, por exemplo, 0,7.

Então, da tabela 13.1, segue que o fator 1 é uma combinação de variáveis V 1 K 3 e V 5(mas não V1, K 4 e V6, já que seu módulo de cargas fatoriais é menor que 0,4). Da mesma forma, o fator 2 é uma combinação de variáveis V2, V4 e V6.

O fator selecionado como resultado da fatoração é um conjunto daquelas variáveis ​​incluídas na análise que possuem cargas significativas. Muitas vezes acontece, no entanto, que um fator inclui apenas uma variável com um peso fatorial significativo, enquanto o restante tem uma carga fatorial insignificante. Neste caso, o fator será determinado pelo nome da única variável significativa.

Em essência, o fator pode ser considerado como uma "unidade" artificial de agrupamento de variáveis ​​(características) com base nas ligações entre elas. Esta unidade é condicional, pois alterando certas condições do procedimento de fatoração da matriz de intercorrelação, você pode obter uma matriz fatorial (estrutura) diferente. Na nova matriz, a distribuição das variáveis ​​por fatores e suas cargas fatoriais podem ser diferentes.

Nesse sentido, na análise fatorial existe o conceito de “estrutura simples”. Simples é a estrutura de uma matriz fatorial, em que cada variável possui cargas significativas em apenas um dos fatores, e os próprios fatores são ortogonais, ou seja, não dependem um do outro. Em nosso exemplo, os dois fatores comuns são independentes. Uma matriz fatorial com uma estrutura simples permite interpretar o resultado e dar um nome a cada fator. No nosso caso, o primeiro fator é “tamanho do corpo”, o segundo fator é “nível de condicionamento físico”.

O que precede não esgota as possibilidades significativas da matriz fatorial. Dele podem ser extraídas características adicionais, permitindo um estudo mais detalhado das relações entre variáveis ​​e fatores. Essas características são chamadas de "comunalidade" e "autovalor" do fator.

No entanto, antes de apresentar sua descrição, destacamos uma propriedade fundamentalmente importante do coeficiente de correlação, devido à qual essas características são obtidas. O coeficiente de correlação, ao quadrado (ou seja, multiplicado por si mesmo), mostra o quanto da variância (variância) de uma característica é comum a duas variáveis, ou, mais simplesmente, o quanto essas variáveis ​​se sobrepõem. Assim, por exemplo, duas variáveis ​​com uma correlação de 0,9 se sobrepõem com um poder de 0,9 x 0,9 = 0,81. Isso significa que 81% da variância de ambas as variáveis ​​são comuns, ou seja, Combine. Lembre-se que as cargas fatoriais na matriz fatorial são os coeficientes de correlação entre fatores e variáveis, portanto, a carga fatorial ao quadrado caracteriza o grau de comunalidade (ou sobreposição) das variâncias de uma determinada variável e de um determinado fator.

Se os fatores obtidos não dependem uns dos outros (solução “ortogonal”), é possível determinar a partir dos pesos da matriz fatorial qual parte da variância é comum à variável e ao fator. Para calcular quanto da variância de cada variável coincide com a variância dos fatores, você pode simplesmente somar os quadrados das cargas fatoriais sobre todos os fatores. Da tabela 13.1, por exemplo, segue-se que 0,91 × 0,91 + + 0,01 × 0,01 = 0,8282, ou seja, cerca de 82% da variabilidade da primeira variável é "explicada" pelos dois primeiros fatores. O valor resultante é chamado semelhança variável, neste caso variável V 1

As variáveis ​​podem ter diferentes graus de semelhança com os fatores. Uma variável com mais generalidade tem um grau significativo de sobreposição (uma grande proporção da variância) com um ou mais fatores. A baixa generalidade implica que todas as correlações entre variáveis ​​e fatores são pequenas. Isso significa que nenhum dos fatores tem uma parcela de variância sobreposta com essa variável. A baixa generalidade pode indicar que uma variável mede algo qualitativamente diferente das outras variáveis ​​incluídas na análise. Por exemplo, uma variável associada à avaliação da motivação entre as tarefas que avaliam a habilidade terá em comum próximo de zero com os fatores de habilidade.

A baixa generalidade também pode significar que um determinado item é fortemente influenciado pelo erro de medição ou é extremamente difícil para o sujeito. Também é possível, ao contrário, que a tarefa seja tão simples que cada sujeito dê a resposta correta a ela, ou a tarefa seja tão vaga em conteúdo que o sujeito não entenda a essência da questão. Assim, a baixa generalidade implica que esta variável não se encaixa com os fatores por um dos seguintes motivos: ou a variável mede um conceito diferente, ou a variável tem um grande erro de medição, ou há diferenças entre os sujeitos nas opções de resposta para isso. tarefa que distorce a variância do recurso.

Finalmente, com a ajuda de uma característica como o autovalor de um fator, pode-se determinar a importância relativa de cada um dos fatores selecionados. Para fazer isso, você precisa calcular quanto da variância (variância) cada fator explica. O fator que explica 45% da variância (sobreposição) entre as variáveis ​​na matriz de correlação original é obviamente mais significativo do que aquele que explica apenas 25% da variância. Esses argumentos, no entanto, são admissíveis se os fatores forem ortogonais, ou seja, não dependerem um do outro.

Para calcular o autovalor do fator, você precisa elevar ao quadrado as cargas fatoriais e adicioná-las em uma coluna. Usando os dados da Tabela 13.1, podemos verificar que o autovalor do fator 1 é (0,91 × 0,91 + 0,20 × 0,20 + 0,94 × 0,94 + 0,11 × 0,11 + 0,84 × 0,84 + (- 0,13) ×

× (-0,13)) = 2,4863. Se o autovalor do fator for dividido pelo número de variáveis ​​(6 em ​​nosso exemplo), o número resultante mostrará qual proporção da variância é explicada por esse fator. No nosso caso, obtemos 2,4863∙100%/6 = 41,4%. Em outras palavras, o fator 1 explica cerca de 41% da informação (dispersão) na matriz de correlação original. Um cálculo semelhante para o segundo fator dará 41,5%. No total, serão 82,9%.

Assim, dois fatores comuns, quando combinados, explicam apenas 82,9% da variância dos indicadores da matriz de correlação original. O que aconteceu com os 17,1% "restantes"? O fato é que, considerando as correlações entre 6 variáveis, notamos que as correlações se dividem em dois blocos separados e, portanto, decidimos que era lógico analisar o material em termos de dois fatores, e não 6, bem como o número de variáveis ​​iniciais. Em outras palavras, o número de construtos necessários para descrever os dados diminuiu de 6 (número de variáveis) para 2 (número de fatores comuns). Como resultado da fatoração, parte das informações da matriz de correlação original foi sacrificada para a construção de um modelo de dois fatores. A única condição sob a qual a informação não é perdida seria considerar um modelo de seis fatores.

Testes finais em econometria

1. A avaliação da significância dos parâmetros da equação de regressão é realizada com base em:

A) t - critério de Student;

b) Critério F de Fisher - Snedekor;

c) erro quadrático médio;

d) erro médio de aproximação.

2. O coeficiente de regressão na equação que caracteriza a relação entre o volume de vendas (milhões de rublos) e o lucro das empresas da indústria automotiva para o ano (milhões de rublos) significa que, com um aumento no volume de vendas em 1 milhão de rublos o lucro aumenta em:

d) 0,5 milhão esfregar.;

e) 500 mil. esfregar.;

D) 1,5 milhão de rublos

3. A razão de correlação (índice de correlação) mede o grau de proximidade da relação entre X eS:

a) apenas com uma forma de dependência não linear;

B) com qualquer forma de dependência;

c) apenas com uma relação linear.

4. Na direção da comunicação existem:

a) moderado;

B) reto;

c) retilíneo.

5. Com base em 17 observações, foi construída uma equação de regressão:
.
Para verificar a significância da equação, calculamosvalor observadot- estatísticas: 3.9. Conclusão:

A) A equação é significativa para = 0,05;

b) A equação é insignificante em a = 0,01;

c) A equação não é significativa em a = 0,05.

6. Quais são as consequências de violar a suposição OLS “a expectativa de resíduos de regressão é zero”?

A) Estimativas enviesadas dos coeficientes de regressão;

b) Estimativas eficientes mas inconsistentes dos coeficientes de regressão;

c) Estimativas ineficientes dos coeficientes de regressão;

d) Estimativas inconsistentes dos coeficientes de regressão.

7. Qual das seguintes afirmações é verdadeira em caso de heterocedasticidade de resíduos?

A) As conclusões sobre as estatísticas te F não são confiáveis;

d) As estimativas dos parâmetros da equação de regressão são tendenciosas.

8. Em que se baseia o teste de correlação de postos de Spearman?

A) Sobre o uso de t - estatísticas;

c) Em uso ;

9. Em que se baseia o teste de White?

b) Sobre a utilização da estatística F;

B) em uso ;

d) Na análise gráfica dos resíduos.

10. Que método pode ser usado para eliminar a autocorrelação?

11. Como se chama a violação do pressuposto da constância da variância dos resíduos?

a) Multicolinearidade;

b) Autocorrelação;

B) Heteroscedasticidade;

d) Homocedasticidade.

12. Variáveis ​​fictícias são introduzidas em:

a) apenas em modelos lineares;

b) apenas na regressão não linear múltipla;

c) apenas em modelos não lineares;

D) modelos lineares e não lineares reduzidos a uma forma linear.

13. Se na matriz de coeficientes de correlação pareados houver
, então isso mostra:

A) Sobre a presença de multicolinearidade;

b) Sobre a ausência de multicolinearidade;

c) Sobre a presença de autocorrelação;

d) Sobre a ausência de heterocedasticidade.

14. Qual medida é impossível de se livrar da multicolinearidade?

a) Aumentar o tamanho da amostra;

D) Transformação do componente aleatório.

15. Se
e o posto da matriz A é menor que (K-1), então a equação:

a) sobreidentificado;

B) não identificado;

c) identificado com precisão.

16. A equação de regressão se parece com:

MAS)
;

b)
;

dentro)
.

17. Qual é o problema da identificação do modelo?

A) obtenção de parâmetros definidos de forma única do modelo dado pelo sistema de equações simultâneas;

b) seleção e implementação de métodos para estimação estatística de parâmetros desconhecidos do modelo de acordo com os dados estatísticos iniciais;

c) verificação da adequação do modelo.

18. Qual método é usado para estimar os parâmetros de uma equação superidentificada?

C) DMNK, KMNK;

19. Se uma variável qualitativa tiverkvalores alternativos, então a simulação usa:

A) (k-1) variável dummy;

b) variáveis ​​kdummy;

c) (k+1) variável dummy.

20. A análise da proximidade e direção das ligações de dois sinais é realizada com base em:

A) coeficiente de correlação de pares;

b) coeficiente de determinação;

c) coeficiente de correlação múltipla.

21. Em uma equação linear x = uma 0 +a 1 x coeficiente de regressão mostra:

a) a proximidade da conexão;

b) proporção da variância "Y" dependente de "X";

C) quanto "Y" mudará em média quando "X" mudar em uma unidade;

d) erro do coeficiente de correlação.

22. Qual indicador é usado para determinar a parte da variação devido a uma mudança no valor do fator em estudo?

a) coeficiente de variação;

b) coeficiente de correlação;

C) coeficiente de determinação;

d) coeficiente de elasticidade.

23. O coeficiente de elasticidade mostra:

A) em que% o valor de y mudará quando x mudar em 1%;

b) em quantas unidades de sua medida o valor de y mudará quando x mudar 1%;

c) em quanto % o valor de y mudará quando x mudar por unidade. sua medida.

24. Quais métodos podem ser aplicados para detectar heterocedasticidade?

A) Teste de Golfeld-Quandt;

B) Teste de correlação de postos de Spearman;

c) Teste de Durbin-Watson.

25. Qual é a base do teste de Golfeld-Quandt

a) Sobre o uso de estatísticas t;

B) Sobre o uso de F - estatísticas;

c) Em uso ;

d) Na análise gráfica dos resíduos.

26. Quais métodos não podem ser usados ​​para eliminar a autocorrelação de resíduos?

a) Método generalizado dos mínimos quadrados;

B) Método dos mínimos quadrados ponderados;

C) o método da máxima verossimilhança;

D) Método dos mínimos quadrados em duas etapas.

27. Como se denomina a violação do pressuposto de independência dos resíduos?

a) Multicolinearidade;

B) Autocorrelação;

c) Heteroscedasticidade;

d) Homocedasticidade.

28. Que método pode ser usado para eliminar a heterocedasticidade?

A) Método generalizado dos mínimos quadrados;

b) Método dos mínimos quadrados ponderados;

c) O método da máxima verossimilhança;

d) Método dos mínimos quadrados em duas etapas.

30. Se port-critério, a maioria dos coeficientes de regressão são estatisticamente significativos, e o modelo como um todoF- o critério é insignificante, então isso pode indicar:

a) Multicolinearidade;

B) Sobre a autocorrelação dos resíduos;

c) Na heterocedasticidade dos resíduos;

d) Esta opção não é possível.

31. É possível se livrar da multicolinearidade transformando variáveis?

a) Esta medida só é efetiva quando o tamanho da amostra é aumentado;

32. Que método pode ser usado para encontrar estimativas do parâmetro da equação de regressão linear:

A) o método dos mínimos quadrados;

b) análise de correlação e regressão;

c) análise de variância.

33. Uma equação de regressão linear múltipla com variáveis ​​dummy é construída. Para verificar a significância dos coeficientes individuais, usamos distribuição:

a) Normais;

b) Aluno;

c) Pearson;

d) Fischer-Snedekor.

34. Se
e o posto da matriz A é maior que (K-1), então a equação:

A) sobre-identificado;

b) não identificado;

c) identificado com precisão.

35. Para estimar os parâmetros de um sistema de equações identificável com precisão, é usado o seguinte:

a) DMNK, KMNK;

b) DMNK, MNK, KMNK;

36. O critério de Chow é baseado na aplicação de:

A) F - estatísticas;

b) t - estatísticas;

c) Critérios de Durbin-Watson.

37. Variáveis ​​fictícias podem assumir os seguintes valores:

d) quaisquer valores.

39. Com base em 20 observações, uma equação de regressão foi construída:
.
Para verificar a significância da equação, o valor da estatística é calculado:4.2. Conclusões:

a) A equação é significativa em a=0,05;

b) A equação não é significativa em a=0,05;

c) A equação não é significativa em a=0,01.

40. Qual das seguintes afirmações não é verdadeira se os resíduos forem heterocedásticos?

a) As conclusões sobre as estatísticas te F não são confiáveis;

b) A heteroscedasticidade se manifesta pelo baixo valor das estatísticas de Durbin-Watson;

c) Com heterocedasticidade, as estimativas permanecem efetivas;

d) As estimativas são tendenciosas.

41. O teste de Chow é baseado em uma comparação:

A) dispersões;

b) coeficientes de determinação;

c) expectativas matemáticas;

e) médio.

42. Se no teste Chow
então é considerado:

A) que o particionamento em subintervalos é útil do ponto de vista da melhoria da qualidade do modelo;

b) o modelo é estatisticamente insignificante;

c) o modelo é estatisticamente significativo;

d) que não faz sentido dividir a amostra em partes.

43. Variáveis ​​fictícias são variáveis:

uma qualidade;

b) aleatório;

B) quantitativa;

e) lógico.

44. Qual dos seguintes métodos não pode ser usado para detectar autocorrelação?

a) Método de série;

b) Teste de Durbin-Watson;

c) Teste de correlação de postos de Spearman;

D) Teste de White.

45. A forma estrutural mais simples do modelo é:

MAS)

b)

dentro)

G)
.

46. ​​Que medidas podem ser tomadas para se livrar da multicolinearidade?

a) Aumentar o tamanho da amostra;

b) Exclusão de variáveis ​​altamente correlacionadas com as demais;

c) Alteração da especificação do modelo;

d) Transformação do componente aleatório.

47. Se
e o posto da matriz A é (K-1), então a equação:

a) sobreidentificado;

b) não identificado;

B) identificado com precisão;

48. Um modelo é considerado identificado se:

a) entre as equações do modelo há pelo menos uma normal;

B) cada equação do sistema é identificável;

c) entre as equações do modelo há pelo menos uma não identificada;

d) dentre as equações do modelo há pelo menos uma superidentificada.

49. Qual método é usado para estimar os parâmetros de uma equação não identificada?

a) DMNK, KMNK;

b) DMNC, MNC;

C) os parâmetros de tal equação não podem ser estimados.

50. Na junção de quais áreas do conhecimento surgiu a econometria:

A) teoria econômica; estatísticas econômicas e matemáticas;

b) teoria econômica, estatística matemática e teoria das probabilidades;

c) estatística econômica e matemática, teoria das probabilidades.

51. Na equação de regressão linear múltipla, os intervalos de confiança são construídos para os coeficientes de regressão usando a distribuição:

a) Normais;

B) Aluno;

c) Pearson;

d) Fischer-Snedekor.

52. Com base em 16 observações, foi construída uma equação de regressão linear pareada. Porverificação de significância do coeficiente de regressão calculadat para 6l =2.5.

a) O coeficiente é insignificante em a=0,05;

b) O coeficiente é significativo em a=0,05;

c) O coeficiente é significativo em a=0,01.

53. Sabe-se que entre quantidadesXeSexisteconexão positiva. Até que pontoé o coeficiente de correlação de pares?

a) de -1 a 0;

b) de 0 a 1;

C) de -1 a 1.

54. O coeficiente de correlação múltipla é 0,9. Qual a porcentagemdispersão do atributo resultante é explicada pela influência de todos oscaracterísticas do fator?

55. Qual dos seguintes métodos não pode ser usado para detectar heterocedasticidade?

A) Teste de Golfeld-Quandt;

b) teste de correlação de postos de Spearman;

c) método de série.

56. A forma dada do modelo é:

a) um sistema de funções não lineares de variáveis ​​exógenas de endógenas;

B) um sistema de funções lineares de variáveis ​​endógenas a partir de exógenas;

c) um sistema de funções lineares de variáveis ​​exógenas de endógenas;

d) um sistema de equações normais.

57. Dentro de quais limites muda o coeficiente de correlação parcial calculado por fórmulas recursivas?

a) de - para + ;

b) de 0 a 1;

c) de 0 a + ;

D) de -1 a +1.

58. Dentro de que limites se altera o coeficiente de correlação parcial calculado através do coeficiente de determinação?

a) de - para + ;

B) de 0 a 1;

c) de 0 a + ;

d) de –1 a +1.

59. Variáveis ​​exógenas:

a) variáveis ​​dependentes;

B) variáveis ​​independentes;

61. Ao adicionar outro fator explicativo à equação de regressão, o coeficiente de correlação múltipla:

a) vai diminuir

b) aumentará;

c) manter o seu valor.

62. Uma equação de regressão hiperbólica foi construída:S= uma+ b/ X. PorO teste de significância da equação usa a distribuição:

a) Normais;

B) Aluno;

c) Pearson;

d) Fischer-Snedekor.

63. Para que tipos de sistemas os parâmetros de equações econométricas individuais podem ser encontrados usando o método tradicional dos mínimos quadrados?

a) um sistema de equações normais;

B) um sistema de equações independentes;

C) um sistema de equações recursivas;

D) um sistema de equações interdependentes.

64. Variáveis ​​endógenas:

A) variáveis ​​dependentes;

b) variáveis ​​independentes;

c) datado de pontos anteriores no tempo.

65. Dentro de quais limites o coeficiente de determinação muda?

a) de 0 a + ;

b) de - para + ;

C) de 0 a +1;

d) de -1 a +1.

66. Uma equação de regressão linear múltipla foi construída. Para verificar a significância dos coeficientes individuais, usamos distribuição:

a) Normais;

b) Aluno;

c) Pearson;

D) Fischer-Snedekor.

67. Ao adicionar outro fator explicativo à equação de regressão, o coeficiente de determinação:

a) vai diminuir

B) aumentará;

c) conservar o seu valor;

d) não diminuirá.

68. A essência do método dos mínimos quadrados é que:

A) a estimativa é determinada a partir da condição de minimizar a soma dos quadrados dos desvios dos dados amostrais da estimativa determinada;

b) a estimativa é determinada a partir da condição de minimizar a soma dos desvios dos dados amostrais da estimativa determinada;

c) a estimativa é determinada a partir da condição de minimizar a soma dos quadrados dos desvios da média amostral da variância amostral.

69. A que classe de regressões não lineares a parábola pertence:

73. A que classe de regressões não lineares a curva exponencial pertence:

74. A que classe de regressões não lineares uma função da forma ŷ pertence
:

A) regressões não lineares em relação às variáveis ​​incluídas na análise, mas lineares em relação aos parâmetros estimados;

b) regressões não lineares sobre os parâmetros estimados.

78. A que classe de regressões não lineares uma função da forma ŷ pertence
:

a) regressões não lineares em relação às variáveis ​​incluídas na análise, mas lineares em relação aos parâmetros estimados;

B) regressões não lineares sobre os parâmetros estimados.

79. Na equação de regressão na forma de uma hipérbole ŷ
se o valor
b >0 , então:

A) com um aumento na característica do fator X o valor do atributo resultante no diminuir lentamente e x→∞ valor médio no será igual a uma;

b) o valor do recurso efetivo no aumenta com o crescimento lento com um aumento na característica do fator X, e em x→∞

81. O coeficiente de elasticidade é determinado pela fórmula

A) Função linear;

b) Parábolas;

c) Hipérboles;

d) curva exponencial;

e) Poder.

82. O coeficiente de elasticidade é determinado pela fórmula
para um modelo de regressão na forma:

a) Função linear;

B) Parábolas;

c) Hipérboles;

d) curva exponencial;

e) Poder.

86. Equação
chamado:

A) uma tendência linear

b) tendência parabólica;

c) tendência hiperbólica;

d) tendência exponencial.

89. Equação
chamado:

a) uma tendência linear;

b) tendência parabólica;

c) tendência hiperbólica;

D) uma tendência exponencial.

90. Visualizações do sistema chamado:

A) um sistema de equações independentes;

b) um sistema de equações recursivas;

c) um sistema de equações interdependentes (simultâneas, simultâneas).

93. A econometria pode ser definida como:

A) é uma disciplina científica independente que combina um conjunto de resultados teóricos, técnicas, métodos e modelos projetados para, com base na teoria econômica, estatística econômica e ferramentas matemáticas e estatísticas, dar uma expressão quantitativa específica a padrões gerais (qualitativos). devido à teoria econômica;

B) a ciência das medidas econômicas;

C) análise estatística de dados econômicos.

94. As tarefas da econometria incluem:

A) previsão de indicadores econômicos e socioeconômicos caracterizando o estado e desenvolvimento do sistema analisado;

B) simulação de possíveis cenários para o desenvolvimento socioeconômico do sistema para identificar como as mudanças planejadas em determinados parâmetros gerenciáveis ​​afetarão as características de saída;

c) teste de hipóteses de acordo com dados estatísticos.

95. Os relacionamentos são diferenciados por sua natureza:

A) funcional e correlação;

b) funcional, curvilínea e retilínea;

c) correlação e inversa;

d) estatística e direta.

96. Com uma conexão direta com o aumento de um traço de fator:

a) o sinal efetivo diminui;

b) o atributo efetivo não muda;

C) o indicador de desempenho aumenta.

97. Quais métodos são usados ​​para identificar a presença, natureza e direção da associação nas estatísticas?

a) valores médios;

B) comparação de linhas paralelas;

C) método de agrupamento analítico;

d) valores relativos;

D) método gráfico.

98. Que método é utilizado para identificar as formas de influência de alguns fatores sobre outros?

a) análise de correlação;

B) análise de regressão;

c) análise de índices;

d) análise de variância.

99. Que método é usado para quantificar a força do impacto de alguns fatores sobre outros:

A) análise de correlação;

b) análise de regressão;

c) o método das médias;

d) análise de variância.

100. Quais indicadores em sua magnitude existem na faixa de menos a mais um:

a) coeficiente de determinação;

b) razão de correlação;

C) coeficiente de correlação linear.

101. O coeficiente de regressão para um modelo de um fator mostra:

A) quantas unidades a função muda quando o argumento muda em uma unidade;

b) quantos por cento a função muda por unidade de mudança no argumento.

102. O coeficiente de elasticidade mostra:

a) em quantos por cento a função muda com uma mudança no argumento por uma unidade de sua medida;

B) em quantos por cento a função muda com uma mudança no argumento de 1%;

c) por quantas unidades de sua medida a função muda com uma mudança no argumento de 1%.

105. O valor do índice de correlação, igual a 0,087, indica:

A) sobre sua fraca dependência;

b) um relacionamento forte;

c) erros nos cálculos.

107. O valor do coeficiente de correlação do par, igual a 1,12, indica:

a) sobre sua fraca dependência;

b) um relacionamento forte;

C) sobre erros nos cálculos.

109. Qual dos números fornecidos pode ser os valores do coeficiente de correlação do par:

111. Qual dos números fornecidos pode ser os valores do coeficiente de correlação múltipla:

115. Marque a forma correta da equação de regressão linear:

Como
;

por
;

c) ŷ
;

D) ŷ
.

Após avaliar os parâmetros uma e b, obtivemos uma equação de regressão pela qual podemos estimar os valores y por valores definidos x. É natural supor que os valores calculados da variável dependente não coincidirão com os valores reais, pois a linha de regressão descreve a relação apenas na média, em geral. Significados separados estão espalhados ao seu redor. Assim, a confiabilidade dos valores calculados obtidos da equação de regressão é amplamente determinada pela dispersão dos valores observados ao redor da linha de regressão. Na prática, via de regra, a variância do erro é desconhecida e é estimada a partir das observações simultaneamente com os parâmetros de regressão. uma e b. É bastante lógico supor que a estimativa está relacionada à soma dos quadrados dos resíduos da regressão. A quantidade é uma estimativa amostral da variância dos distúrbios contidos no modelo teórico . Pode-se mostrar que para um modelo de regressão pareado

onde é o desvio do valor real da variável dependente de seu valor calculado.

Se um , então para todas as observações os valores reais da variável dependente coincidem com os valores calculados (teóricos) . Graficamente, isso significa que a linha de regressão teórica (a linha construída a partir da função ) passa por todos os pontos do campo de correlação, o que só é possível com uma conexão estritamente funcional. Portanto, o sinal efetivo no completamente devido à influência do fator X.

Normalmente, na prática, há alguma dispersão dos pontos do campo de correlação em relação à linha de regressão teórica, ou seja, desvios dos dados empíricos dos teóricos. Essa dispersão se deve tanto à influência do fator X, ou seja regressão y sobre X, (tal variância é chamada explicada, pois é explicada pela equação de regressão), e a ação de outras causas (variação inexplicada, aleatória). A magnitude desses desvios fundamenta o cálculo dos indicadores de qualidade da equação.

De acordo com o princípio básico da análise de variância, a soma total dos desvios quadrados da variável dependente y do valor médio pode ser decomposto em dois componentes: explicado pela equação de regressão e não explicado:

,

onde - valores y, calculado pela equação .

Vamos encontrar a razão entre a soma dos desvios quadrados, explicada pela equação de regressão, para a soma total dos quadrados:

, Onde

. (7.6)

A razão entre a parte da variância explicada pela equação de regressão e a variância total da característica resultante é chamada de coeficiente de determinação. O valor não pode ultrapassar um e este valor máximo só será alcançado em , ou seja. quando cada desvio é zero e, portanto, todos os pontos do gráfico de dispersão estão exatamente em uma linha reta.

O coeficiente de determinação caracteriza a parcela da variância explicada pela regressão no valor total da variância da variável dependente . Assim, o valor caracteriza a proporção de variação (dispersão) sim, não explicada pela equação de regressão e, portanto, causada pela influência de outros fatores não considerados no modelo. Quanto mais próximo de um, maior a qualidade do modelo.



Com regressão linear pareada, o coeficiente de determinação é igual ao quadrado do coeficiente de correlação linear pareado: .

A raiz desse coeficiente de determinação é o coeficiente (índice) de correlação múltipla, ou razão de correlação teórica.

Para saber se o valor do coeficiente de determinação obtido durante a avaliação da regressão reflete realmente a verdadeira relação entre y e x verificar a significância da equação construída como um todo e parâmetros individuais. O teste de significância da equação de regressão permite descobrir se a equação de regressão é adequada para uso prático, por exemplo, para previsão ou não.

Ao mesmo tempo, é levantada a hipótese principal sobre a insignificância da equação como um todo, o que se reduz formalmente à hipótese de que os parâmetros de regressão são iguais a zero, ou, o que dá no mesmo, que o coeficiente de determinação é igual para zero: . Uma hipótese alternativa sobre a significância da equação é a hipótese de que os parâmetros de regressão não são iguais a zero ou que o coeficiente de determinação não é igual a zero: .

Para testar a significância do modelo de regressão, use F- O critério de Fisher, calculado como a razão da soma dos quadrados (por uma variável independente) para a soma dos quadrados residual (por um grau de liberdade):

, (7.7)

Onde ké o número de variáveis ​​independentes.

Depois de dividir o numerador e denominador da relação (7.7) pela soma total dos desvios quadrados da variável dependente, F- O critério pode ser expresso de forma equivalente em termos do coeficiente:

.

Se a hipótese nula for verdadeira, então a variância explicada pela equação de regressão e a variância não explicada (residual) não diferem uma da outra.

Valor estimado F- o critério é comparado com um valor crítico que depende do número de variáveis ​​independentes k, e no número de graus de liberdade (n-k-1). Valor da tabela (crítico) F- critério - este é o valor máximo da razão de variâncias, que pode ocorrer se elas divergirem aleatoriamente para um determinado nível de probabilidade da presença de uma hipótese nula. Se o valor calculado F- o critério é maior que o tabular em um determinado nível de significância, então a hipótese nula sobre a ausência de conexão é rejeitada e é feita uma conclusão sobre a significância dessa conexão, ou seja, modelo é considerado significativo.

Para um modelo de regressão pareado

.

Na regressão linear, geralmente é estimada a significância não apenas da equação como um todo, mas também de seus coeficientes individuais. Para fazer isso, o erro padrão de cada um dos parâmetros é determinado. Os erros padrão dos coeficientes de regressão dos parâmetros são determinados pelas fórmulas:

, (7.8)

(7.9)

Os erros padrão dos coeficientes de regressão ou desvios padrão calculados por fórmulas (7.8,7.9), via de regra, são dados nos resultados do cálculo do modelo de regressão em pacotes estatísticos.

Com base nos erros quadráticos médios dos coeficientes de regressão, a significância desses coeficientes é verificada usando o esquema usual para testar hipóteses estatísticas.

Como hipótese principal, é apresentada uma hipótese sobre uma diferença insignificante de zero do coeficiente de regressão "verdadeiro". Uma hipótese alternativa neste caso é a hipótese inversa, ou seja, sobre a desigualdade do parâmetro de regressão “verdadeiro” para zero. Essa hipótese é testada usando t- estatísticas que têm t-Distribuição do aluno:

Então os valores calculados t- estatísticas são comparadas com valores críticos t- estatísticas determinadas a partir das tabelas de distribuição do Aluno. O valor crítico é determinado dependendo do nível de significância α e o número de graus de liberdade, que é (n-k-1), n- número de observações k- número de variáveis ​​independentes. No caso de regressão linear de pares, o número de graus de liberdade é (P- 2). O valor crítico também pode ser calculado em um computador usando a função STUDISP integrada do Excel.

Se o valor calculado t- estatísticas são maiores que críticas, então a hipótese principal é rejeitada e acredita-se que com probabilidade (1-α) O coeficiente de regressão “verdadeiro” é significativamente diferente de zero, o que é uma confirmação estatística da existência de uma dependência linear das variáveis ​​correspondentes.

Se o valor calculado t- estatística é menos do que crítica, então não há razão para rejeitar a hipótese principal, ou seja, o coeficiente de regressão “verdadeiro” não é significativamente diferente de zero no nível de significância α . Neste caso, o fator correspondente a este coeficiente deve ser excluído do modelo.

A significância do coeficiente de regressão pode ser estabelecida construindo um intervalo de confiança. Intervalo de confiança para parâmetros de regressão uma e b definido da seguinte forma:

,

,

onde é determinado a partir da tabela de distribuição do Aluno para o nível de significância α e número de graus de liberdade (P- 2) para regressão de pares.

Como os coeficientes de regressão em estudos econométricos têm uma clara interpretação econômica, os intervalos de confiança não devem conter zero. O verdadeiro valor do coeficiente de regressão não pode conter simultaneamente valores positivos e negativos, incluindo zero, caso contrário obtemos resultados contraditórios na interpretação econômica dos coeficientes, o que não pode ser. Assim, o coeficiente é significativo se o intervalo de confiança obtido não cobrir zero.

Exemplo 7.4. De acordo com o exemplo 7.1:

a) Construa um modelo de regressão linear pareado da dependência do lucro das vendas sobre o preço de venda usando software de processamento de dados.

b) Avaliar a significância da equação de regressão como um todo, usando F- critério de Fisher em α=0,05.

c) Avaliar a significância dos coeficientes do modelo de regressão usando t-Critério do aluno para α=0,05 e α=0,1.

Para análise de regressão, usamos o programa padrão de escritório EXCEL. Construiremos um modelo de regressão usando a ferramenta REGRESSION das configurações do ANALYSIS PACKAGE (Fig. 7.5), que é lançada da seguinte forma:

Análise de dados de serviçoREGRESSIONOK.

Fig.7.5. Usando a ferramenta REGRESSÃO

Na caixa de diálogo REGRESSÃO, no campo Intervalo de entrada Y, insira o endereço do intervalo de células que contém a variável dependente. No campo Intervalo de entrada X, insira os endereços de um ou mais intervalos contendo os valores das variáveis ​​independentes. A caixa de seleção Rótulos na primeira linha é definida para o estado ativo se os títulos das colunas também estiverem selecionados. Na fig. 7.6. é mostrada a tela de cálculo do modelo de regressão usando a ferramenta REGRESSION.

Arroz. 7.6. Construindo um modelo de regressão pareado usando

Ferramenta REGRESSÃO

Como resultado do trabalho da ferramenta REGRESSION, o seguinte protocolo de análise de regressão é formado (Fig. 7.7).

Arroz. 7.7. Protocolo de análise de regressão

A equação para a dependência do lucro das vendas do preço de venda tem a forma:

Vamos estimar a significância da equação de regressão usando F- critério de Fisher. Significado F- O critério de Fisher é retirado da tabela "Análise de avariância" do protocolo EXCEL (Fig. 7.7.). Valor estimado F- critério 53.372. Valor da tabela F- critério em nível de significância α=0,05 e o número de graus de liberdade é 4,964. Porque , então a equação é considerada significativa.

Valores estimados t-Os critérios do aluno para os coeficientes da equação de regressão são dados na tabela resultante (Fig. 7.7). Valor da tabela t-Teste de Student ao nível de significância α=0,05 e 10 graus de liberdade é 2,228. Para o coeficiente de regressão uma, daí o coeficiente uma não significativo. Para o coeficiente de regressão b, portanto, o coeficiente b significativo.

Estimativa da significância dos parâmetros da equação de regressão

A significância dos parâmetros da equação de regressão linear é estimada usando o teste t de Student:

E se t cálculo > t cr, então a hipótese principal é aceita ( Ho), indicando a significância estatística dos parâmetros de regressão;

E se t cálculo< t cr, então a hipótese alternativa é aceita ( H1), indicando a insignificância estatística dos parâmetros de regressão.

Onde m a , m b são os erros padrão dos parâmetros uma e b:

(2.19)

(2.20)

O valor crítico (tabular) do critério é encontrado usando as tabelas estatísticas da distribuição de Student (Apêndice B) ou de acordo com as tabelas sobressair(seção do assistente de função "Estatístico"):

t cr = STEUDRASP( α=1-P; k=n-2), (2.21)

Onde k=n-2 também representa o número de graus de liberdade .

A estimativa de significância estatística também pode ser aplicada ao coeficiente de correlação linear

Onde senhoré o erro padrão de determinar os valores do coeficiente de correlação r yx

(2.23)

Abaixo estão as opções de tarefas para trabalho prático e de laboratório sobre os tópicos da segunda seção.

Perguntas para auto-exame na seção 2

1. Especificar os principais componentes do modelo econométrico e sua essência.

2. O conteúdo principal das etapas da pesquisa econométrica.

3. Essência de abordagens para determinar os parâmetros de regressão linear.

4. A essência e peculiaridade da aplicação do método dos mínimos quadrados na determinação dos parâmetros da equação de regressão.

5. Quais indicadores são utilizados para avaliar a proximidade da relação dos fatores estudados?

6. A essência do coeficiente de correlação linear.

7. A essência do coeficiente de determinação.

8. A essência e principais características dos procedimentos de avaliação da adequação (significância estatística) dos modelos de regressão.

9. Avaliação da adequação dos modelos de regressão linear pelo coeficiente de aproximação.

10. A essência da abordagem para avaliar a adequação dos modelos de regressão pelo critério de Fisher. Determinação dos valores empíricos e críticos do critério.

11. A essência do conceito de "análise de dispersão" em relação aos estudos econométricos.

12. A essência e as principais características do procedimento de avaliação da significância dos parâmetros da equação de regressão linear.

13. Características da aplicação da distribuição de Student na avaliação da significância dos parâmetros da equação de regressão linear.

14. Qual é a tarefa de prever valores únicos do fenômeno socioeconômico estudado?

1. Construir um campo de correlação e formular uma suposição sobre a forma da equação de relação dos fatores estudados;

2. Anote as equações básicas do método dos mínimos quadrados, faça as transformações necessárias, compile uma tabela para cálculos intermediários e determine os parâmetros da equação de regressão linear;

3. Verificar a exatidão dos cálculos realizados usando procedimentos padrão e funções de planilhas do Excel.

4. Analisar os resultados, formular conclusões e recomendações.

1. Cálculo do valor do coeficiente de correlação linear;

2. Construção de uma tabela de análise de dispersão;

3. Avaliação do coeficiente de determinação;

4. Verifique a exatidão dos cálculos realizados usando procedimentos padrão e funções de planilhas do Excel.

5. Analisar os resultados, formular conclusões e recomendações.

4. Realizar uma avaliação geral da adequação da equação de regressão selecionada;

1. Avaliação da adequação da equação pelos valores do coeficiente de aproximação;

2. Avaliação da adequação da equação pelos valores do coeficiente de determinação;

3. Avaliação da adequação da equação pelo critério de Fisher;

4. Realizar uma avaliação geral da adequação dos parâmetros da equação de regressão;

5. Verificar a exatidão dos cálculos realizados utilizando procedimentos padrão e funções de planilhas Excel.

6. Analisar os resultados, formular conclusões e recomendações.

1. Utilizando os procedimentos padrão do Assistente de Função de Planilha do Excel (das seções "Matemática" e "Estatística");

2. Preparação de dados e funcionalidades de utilização da função "LINEST";

3. Preparação de dados e recursos de uso da função "PREDIÇÃO".

1. Utilizando os procedimentos padrão do pacote de análise de dados da planilha Excel;

2. Elaboração de dados e funcionalidades da aplicação do procedimento "REGRESSÃO";

3. Interpretação e generalização dos dados da tabela de análise de regressão;

4. Interpretação e generalização dos dados da tabela de análise de dispersão;

5. Interpretação e generalização dos dados da tabela para avaliação da significância dos parâmetros da equação de regressão;

Ao realizar o trabalho de laboratório de acordo com uma das opções, é necessário executar as seguintes tarefas específicas:

1. Faça a escolha da forma da equação da relação dos fatores estudados;

2. Determinar os parâmetros da equação de regressão;

3. Avaliar a estanqueidade da relação dos fatores estudados;

4. Avaliar a adequação da equação de regressão selecionada;

5. Avaliar a significância estatística dos parâmetros da equação de regressão.

6. Verificar a exatidão dos cálculos realizados usando procedimentos padrão e funções de planilhas do Excel.

7. Analisar os resultados, formular conclusões e recomendações.

Trabalhos práticos e laboratoriais sobre o tema "Regressão linear emparelhada e correlação em estudos econométricos".

Opção 1 opção 2 Opção 3 Opção 4 Opção 5
x y x y x y x y x y
Opção 6 Opção 7 Opção 8 Opção 9 Opção 10
x y x y x y x y x y

Regressão de paresé uma regressão entre duas variáveis

-y e x, i.e. ver modelo + E

Onde no- sinal efetivo, ou seja, variável dependente; X- fator de sinal.

A regressão linear é reduzida a encontrar uma equação da forma ou

Uma equação da forma permite que os valores dados do fator x tenham os valores teóricos do recurso efetivo, substituindo os valores reais do fator x nele.

A construção de uma regressão linear se reduz a estimar seus parâmetros a e b.

As estimativas dos parâmetros de regressão linear podem ser encontradas por diferentes métodos.

1.

2.

Parâmetro b chamado Coeficiente de regressão. Seu valor mostra

a mudança média no resultado com uma mudança no fator em uma unidade.

Formalmente uma- significado no em x = 0. Se o fator de sinal

não tem e não pode ter um valor zero, então o acima

interpretação livre de termos, uma não faz sentido. Parâmetro, uma pode ser

não têm conteúdo econômico. Tentativas econômicas

interpretar o parâmetro, uma pode levar ao absurdo, especialmente quando uma < 0.

Apenas o sinal do parâmetro pode ser interpretado uma. Se um uma > 0,

então a mudança relativa no resultado é mais lenta do que a mudança

verificando a qualidade dos parâmetros encontrados e todo o modelo como um todo:

-Avaliação da significância do coeficiente de regressão (b) e do coeficiente de correlação

-Avaliar a significância de toda a equação de regressão. Coeficiente de determinação

A equação de regressão é sempre complementada com um indicador de estanqueidade da conexão. No

usando regressão linear como tal indicador é

coeficiente de correlação linear r xy . Existem diferentes

modificações da fórmula do coeficiente de correlação linear.

O coeficiente de correlação linear está nos limites: -1≤ .rxy

≤ 1. Além disso, quanto mais próximo r a 0 mais fraca a correlação e vice-versa

quanto mais próximo r estiver de 1 ou -1, mais forte será a correlação, ou seja, a dependência de x e y é próxima de

linear. Se um r exatamente = 1 ou -1 todos os pontos estão na mesma linha reta.

Se o coeficiente regressão b>0 então 0 ≤. rxy≤ 1 e

vice-versa para b<0 -1≤.rxy≤0. Coef.

correlação reflete o grau de dependência linear dos valores m/y na presença de

dependência acentuada de outra espécie.

Para avaliar a qualidade da seleção de uma função linear, o quadrado da função linear

coeficiente de correlação

Chamado coeficiente de determinação. Coeficiente de determinação

caracteriza a proporção da variância da característica resultante y, explicada por

regressão. Valor correspondente

caracteriza a parcela de dispersão sim, causados ​​pela influência de outros desaparecidos

no modelo fatorial.

OLS permite obter essas estimativas de parâmetros uma e b, que

a soma dos desvios quadrados dos valores reais do atributo resultante

(s) de calculado (teórico)

mínimo:

Em outras palavras, de

de todo o conjunto de linhas, a linha de regressão no gráfico é escolhida para que a soma

quadrados da distância vertical entre os pontos e esta linha seria

mínimo.

O sistema de equações normais é resolvido

ESTIMATIVA DA SIGNIFICAÇÃO DOS PARÂMETROS DE REGRESSÃO LINEAR.

A avaliação da significância da equação de regressão como um todo é dada usando o critério F

Pescador. Neste caso, a hipótese nula é apresentada de que o coeficiente de regressão é igual a

zero, ou seja b= 0 e, portanto, o fator X não fornece

influencia no resultado sim

O cálculo direto do critério F é precedido por uma análise da variância.

Central para isso é a expansão da soma total dos desvios quadrados

variável no do valor médio no em duas partes -

"explicado" e "inexplicado":

Soma total dos desvios quadrados

Soma de quadrados

desvios explicados por regressão

Soma residual do desvio quadrado.

Qualquer soma de desvios quadrados está relacionada ao número de graus de liberdade , t.

e. com o número de liberdade de variação independente do recurso. O número de graus de liberdade está relacionado ao número de unidades da população n e ao número de constantes determinadas a partir dela. Com relação ao problema em estudo, o número de graus de liberdade deve mostrar quantos desvios independentes de P possível necessário para

a formação de uma dada soma de quadrados.

Dispersão por grau de liberdade D.

Razões F (critério F):

Se a hipótese nula for verdadeira, então as variâncias fator e residual não são

diferem entre si. Para H 0, uma refutação é necessária para que

a variância do fator excedeu o residual em várias vezes. Inglês

o estatístico Snedecor desenvolveu tabelas de valores críticos de F-ratios

em diferentes níveis de significância da hipótese nula e um número diferente de graus

liberdade. O valor da tabela do teste F é o valor máximo da razão

variâncias, que podem ocorrer no caso de sua divergência aleatória para um dado

o nível de probabilidade da presença da hipótese nula. Valor calculado da razão F

é reconhecido como confiável se o for maior que o valor da tabela. Neste caso, nulo

a hipótese sobre a ausência de uma relação de signos é rejeitada e uma conclusão é feita sobre

o significado dessa relação: F fato > F tabela H 0

é rejeitado.

Se o valor for menor que o fato tabular F ‹, mesa F

Então a probabilidade da hipótese nula está acima de um determinado nível e não pode ser

rejeitado sem sério risco de enganar a conexão. NO

Neste caso, a equação de regressão é considerada estatisticamente insignificante. Mas

não é rejeitado.


Informações semelhantes.