Campos de correlação e sua utilização na análise preliminar da correlação.

O campo de correlação serve como uma representação visual da tabela de correlação. É um gráfico onde os valores X são plotados no eixo das abcissas, os valores Y são plotados ao longo do eixo das ordenadas e as combinações de X e Y são mostradas por pontos. A presença de uma conexão pode ser julgada pela localização de os pontos.

Usando o método gráfico.

Este método é utilizado para visualizar a forma de comunicação entre os indicadores econômicos estudados. Para fazer isso, um gráfico é construído em um sistema de coordenadas retangulares, os valores individuais do atributo resultante Y são plotados ao longo do eixo das ordenadas e os valores individuais do atributo do fator X são plotados ao longo do eixo das abcissas.

O conjunto de pontos das características efetivas e fatoriais é chamado de campo de correlação.

Com base no campo de correlação, pode-se hipotetizar (para a população geral) que a relação entre todos os valores possíveis de X e Y é linear.

A equação de regressão linear é y = bx + a + ε

Aqui ε é um erro aleatório (desvio, perturbação).

Razões para a existência de um erro aleatório:

1. Não inclusão de variáveis ​​explicativas significativas no modelo de regressão;

2. Agregação de variáveis. Por exemplo, a função de consumo total é uma tentativa de expressão geral da totalidade das decisões de gastos individuais dos indivíduos. Esta é apenas uma aproximação de relacionamentos individuais que possuem parâmetros diferentes.

3. Descrição incorreta da estrutura do modelo;

4. Especificação funcional errada;

21. Análise de correlação e regressão.

A análise de correlação-regressão como conceito geral inclui medir a tensão e direção da conexão e estabelecer a expressão analítica (forma) da conexão (análise de regressão).

O objetivo da análise de regressão é avaliar a dependência funcional do valor médio condicional do atributo efetivo (Y) sobre os fatoriais (x1, x2, ..., xk).

A equação de regressão, ou um modelo estatístico da relação dos fenômenos socioeconômicos, é expressa pela função:

Yx = f(x1, x2, …, xn),

onde “n” é o número de fatores incluídos no modelo;

Xi - fatores que influenciam o resultado Y.

Etapas da análise de correlação e regressão:

Análise preliminar (a priori). Dá bons resultados se realizado por um pesquisador suficientemente qualificado.

Recolha de informação e seu tratamento primário.

Construção de um modelo (equações de regressão). Como regra, este procedimento é realizado em um PC usando programas padrão.

Avaliação do aperto das relações de características, avaliação da equação de regressão e análise do modelo.

Previsão do desenvolvimento do sistema analisado de acordo com a equação de regressão.

Na primeira etapa, formula-se a tarefa do estudo, determina-se a metodologia para medir indicadores ou coletar informações, determina-se o número de fatores, excluem-se fatores duplicados ou vinculam-se a um sistema rigidamente determinístico.

Na segunda etapa, analisa-se o volume de unidades: a população deve ser suficientemente grande em termos de número de unidades e observações (N>>50), o número de fatores “n” deve corresponder ao número de observações “N ”. Os dados devem ser quantitativa e qualitativamente homogêneos.

Na terceira etapa, determina-se a forma de conexão e o tipo de função analítica (parábola, hipérbole, reta) e encontram-se seus parâmetros.

Na quarta etapa, a confiabilidade de todas as características da relação de correlação e da equação de regressão é avaliada pelo critério de confiabilidade de Fisher ou Student, e é realizada uma análise econômica e tecnológica dos parâmetros.

Na quinta etapa, a previsão de possíveis valores de resultado é realizada de acordo com os melhores valores das características dos fatores incluídos no modelo. Aqui são selecionados os melhores e piores valores dos fatores e o resultado.

22. Tipos de equações de regressão.

Para uma descrição quantitativa da relação entre variáveis ​​econômicas em estatística, são utilizados métodos de regressão e correlação.

A regressão é um valor que expressa a dependência do valor médio de uma variável aleatória y dos valores de uma variável aleatória x.

A equação de regressão expressa o valor médio de uma característica em função de outra.

A função de regressão é um modelo da forma y \u003d l ”, onde y é a variável dependente (sinal resultante); x é uma variável independente ou explicativa (fator de sinal).

A linha de regressão é um gráfico da função y \u003d f (x).

2 tipos de relações entre x e y:

1) pode não se saber qual das duas variáveis ​​é independente e qual é dependente, as variáveis ​​são iguais, esta é uma relação do tipo correlação;

2) se x e y não forem iguais e uma delas for considerada como variável explicativa (independente) e a outra como dependente, então esta é uma relação do tipo regressão.

Tipos de regressões:

1) hiperbólico - regressão de uma hipérbole equilátero: y \u003d a + b / x + E;

2) linear - regressão usada em estatística na forma de uma interpretação econômica clara de seus parâmetros: y \u003d a + b * x + E;

3) logaritmicamente linear - regressão da forma: Em y \u003d Em a + b * Em x + Em E

4) regressão múltipla entre as variáveis ​​y e x1, x2 ... xm, ou seja, modelo da forma: y \u003d f (x1, x2 ... xm) + E, onde y é uma variável dependente (sinal resultante), x1 , х2 ...xm - variáveis ​​explicativas independentes (fatores-sinais), Е - perturbação ou variável estocástica, incluindo a influência de fatores não contabilizados no modelo;

5) não linear - regressão, não linear em relação às variáveis ​​explicativas incluídas na análise, mas linear em relação aos parâmetros estimados; ou regressão não linear nos parâmetros estimados.

6) inverso - regressão reduzida a uma forma linear, implementada em pacotes de aplicativos padrão da forma: y \u003d 1 / a + b * x + E;

    emparelhado - regressão entre duas variáveis ​​y e x, ou seja, um modelo da forma: y \u003d f (x) + E, onde y é uma variável dependente (característica efetiva), x é uma variável explicativa independente (característica - fator ), E - perturbação, ou uma variável estocástica que inclui a influência de fatores não contabilizados no modelo.

    Série de dinâmicas e seus tipos

Uma série temporal sempre consiste em 2 elementos: 1) um ponto no tempo ou um período de tempo em relação ao qual os dados estatísticos são fornecidos, 2) um indicador estatístico, que é chamado de nível da série temporal.

Dependendo do conteúdo do indicador de tempo, as séries de dinâmicas são momentâneas ou intervaladas

Dependendo do tipo de indicador estatístico, as séries dinâmicas são divididas em séries de valores absolutos, relativos e médios

Absoluto mostrar valores exatos

Os relativos mostram a mudança nas proporções do indicador na população total

Os valores médios contêm sobre a mudança no tempo do indicador, que é o nível médio do fenômeno

    Indicadores de uma série de dinâmicas. O nível médio da gama de dinâmicas.

Indicadores: 1) nível médio da série dinâmica, 2) crescimento absoluto, cadeia e básico, crescimento absoluto médio, 3) taxas de crescimento e crescimento, cadeia e básico, crescimento médio e taxa de crescimento, 4) valores fmcjk.nyst 1 % aumentar

Dinâmica média

Características generalizadas de uma série de dinâmicas, com sua ajuda, comparam a intensidade do desenvolvimento do fenômeno em relação a diferentes objetos, por exemplo, por país, indústria, empresa

Nível médio no momento yi. O método de cálculo do nível médio depende do tipo de série (instantâneo/intervalo) (com intervalos iguais/diferentes). Se uma série intervalar de dinâmica de valores absolutos ou médios for fornecida com intervalos de tempo iguais, a fórmula para calcular a média simples é usada para calcular o nível médio. Se os intervalos de tempo da série intervalar forem desiguais, então o nível médio é encontrado pela média ponderada aritmética. Usr=smmUi*Ti/smmTi

25. Crescimento absoluto(delta e) é a diferença entre dois níveis da série dinâmica, que mostra o quanto esse nível da série excede o nível tomado como base de comparação. Delta U=Ui-U0

Delta U=Ui-Ui-1

Aceleração absoluta- a diferença entre o crescimento absoluto para o período determinado e o crescimento absoluto para o período anterior de mesma duração: Delta e com uma barra=delta e - delta e-1. A aceleração absoluta mostra o quanto a taxa de variação do indicador aumentou (diminuiu). O indicador de aceleração é usado para ganhos absolutos da cadeia. Um valor de aceleração negativo indica uma desaceleração no crescimento ou uma aceleração na queda dos níveis da série.

    Indicadores da mudança relativa nos níveis de uma série de dinâmicas.

Fator de crescimento (taxa de crescimento)- esta é a razão de dois níveis comparados, que mostra quantas vezes esse nível excede o nível do período base. Ele reflete a intensidade das mudanças nos níveis de uma série de dinâmicas e mostra quantas vezes o nível aumentou em relação ao nível base e, no caso de uma diminuição, qual parte do nível base é o nível comparado.

Fórmula do fator de crescimento: quando comparado a uma base constante: K i .=y i /y 0 , quando comparado com uma base variável: K i .=y i /y i -1 .

Taxa de crescimentoé a taxa de crescimento, expressa em porcentagem:

T R = Para 100 %.

As taxas de crescimento para qualquer série temporal são indicadores de intervalo, ou seja, caracterizam um determinado período (intervalo) de tempo.

Taxa de aumento- o valor relativo do aumento, ou seja, a relação entre o aumento absoluto e o nível anterior ou de base. Caracteriza por qual porcentagem o nível de um determinado período é maior (ou menor) que o nível base.

Taxa de aumento- a relação entre o crescimento absoluto e o nível tomado como base de comparação:

Tpr \u003d Ui-U0 / U0 * 100%

Taxa de aumento- a diferença entre a taxa de crescimento (em porcentagem) e 100,

Você vai precisar

  • - séries de distribuição de variáveis ​​dependentes e independentes;
  • - papel, lápis;
  • - Software de computador e planilhas.

Instrução

Escolha dois que você acha que tem um relacionamento, geralmente leva , que mudam com o tempo. Observe que uma das variáveis ​​deve ser independente, ela atuará como causa. O segundo deve mudar com ele - diminuir, aumentar ou mudar aleatoriamente.

Meça o valor da variável dependente para cada variável independente. Registre os resultados em uma tabela, em duas linhas ou duas colunas. São necessárias pelo menos 30 leituras para detectar uma conexão, mas para um resultado mais preciso, tome cuidado para ter pelo menos 100 pontos.

Construa um plano de coordenadas, enquanto traça os valores da variável dependente no eixo das ordenadas e a variável independente no eixo das abcissas. Assine os eixos e indique as unidades de medida para cada indicador.

Marque os pontos do campo de correlação no gráfico. No eixo x, encontre o primeiro valor da variável independente e, no eixo y, encontre o valor correspondente da variável dependente. Construa perpendiculares a essas projeções e encontre o primeiro ponto. Marque-o, circule-o com um lápis macio ou caneta. Construa todos os outros pontos da mesma maneira.

O conjunto de pontos resultante é chamado de correlação campo. Analise o gráfico resultante, tire conclusões sobre a presença de uma relação causal forte ou fraca, ou sua ausência.

Preste atenção aos desvios aleatórios do cronograma. Se, em geral, uma dependência linear ou outra é traçada, mas toda a “imagem” é prejudicada por um ou dois pontos que estão à margem da população total, podem ser erros aleatórios e não levados em consideração na interpretação do gráfico .

Se você precisa construir e analisar um campo correlações Para grandes quantidades de dados, use um programa de planilha como o Excel ou adquira um software especial.

A relação de várias quantidades, durante a qual uma mudança em uma leva a uma mudança no resto, é chamada de correlação. Pode ser simples, múltiplo ou parcial. Este conceito é aceito não apenas na matemática, mas também na biologia.

Palavra correlação derivado do latim correlatio, relacionamento. Todos os fenômenos, eventos e objetos, bem como as quantidades que os caracterizam, estão interligados. A dependência de correlação difere da funcional, pois neste tipo de dependência, qualquer uma pode ser medida apenas em média, aproximadamente.A dependência de correlação assume que um valor variável corresponde a mudanças em um valor independente apenas com um certo grau de probabilidade. O grau de dependência é chamado de coeficiente de correlação. O conceito de correlação é a razão entre a estrutura e as funções de partes individuais do corpo. Muitas vezes, o conceito correlação usar estatísticas. Em estatística, esta é a relação entre quantidades estatísticas, séries e grupos. Para determinar a presença ou ausência ou presença de uma correlação, é usado um método especial. O método de correlação é usado para determinar a direta ou inversa nas mudanças nos números das séries que estão sendo comparadas. Quando encontrado, então a própria medida ou o grau de paralelismo. Mas os fatores causais internos não são encontrados dessa maneira. A principal tarefa da estatística como ciência é descobrir tais dependências causais para outras ciências.Na forma, uma correlação pode ser linear ou não linear, positiva ou negativa. Quando uma das variáveis ​​aumenta ou diminui, a outra também aumenta ou diminui, então a relação é linear. Se, ao mudar uma quantidade, a natureza das mudanças na outra for não linear, então isso correlação não linear. Positivo correlaçãoé considerado quando um aumento no nível de uma quantidade é acompanhado por um aumento no nível de outra. Por exemplo, quando um aumento no som é acompanhado por uma sensação de aumento em seu tom, uma correlação, quando um aumento no nível de uma variável é acompanhado por uma diminuição no nível de outra, é chamada de negativa. Nas comunidades, o aumento do nível de ansiedade de um indivíduo leva a uma diminuição da probabilidade desse indivíduo ocupar um nicho dominante entre os companheiros. Quando não há conexão entre as variáveis, correlaçãoé chamado zero.

Vídeos relacionados

Fontes:

  • Correlação não linear em 2019

Correlação é a dependência mútua de duas variáveis ​​aleatórias (mais frequentemente - dois grupos de variáveis), em que uma mudança em uma delas leva a uma mudança na outra. O coeficiente de correlação mostra a probabilidade da mudança no segundo valor quando os valores do primeiro mudam, ou seja, grau de dependência. A maneira mais fácil de calcular esse valor é usar a função correspondente integrada no editor de planilhas do Microsoft Office Excel.

Você vai precisar

  • Editor de planilhas Microsoft Office Excel.

Instrução

Inicie o Excel e abra um documento contendo os grupos de dados cujo coeficiente de correlação você deseja calcular. Se tal documento ainda não foi criado, insira os dados em - o editor de planilhas o cria automaticamente quando o programa é iniciado. Insira cada um dos grupos de valores, a correlação entre os quais você está interessado, insira em uma coluna separada. Estas não precisam ser colunas adjacentes, você pode organizar a tabela da maneira mais conveniente - adicione colunas adicionais com explicações sobre os dados, cabeçalhos de coluna, células totais com valores totais ou médios, etc. Você pode até mesmo organizar os dados não na vertical (em colunas), mas na horizontal (em linhas). O único requisito que deve ser observado é que as células com os dados de cada grupo devem estar localizadas sequencialmente uma após a outra, para que assim seja criado um array contínuo.

Vá até a célula que conterá o valor da correlação dos dados das duas matrizes, e clique na aba "Fórmulas" no menu Excel. No grupo de comandos "Biblioteca de funções", clique no ícone mais recente - "Outras funções". Uma lista suspensa será aberta, na qual você deve ir para a seção "Estatística" e selecionar a função CORREL. Como resultado, a janela do assistente de função será aberta com um formulário para preenchimento. A mesma janela também pode ser chamada sem a aba "Fórmulas", simplesmente clicando no ícone de inserção de função localizado à esquerda da barra de fórmulas.

Especifique o primeiro grupo de dados correlacionados no campo Array1 do Assistente de Fórmula. Para inserir um intervalo de células manualmente, digite o endereço da primeira e da última células, separando-as com dois pontos (sem espaços). Outra opção é simplesmente selecionar o intervalo desejado com o mouse, e o Excel colocará a entrada desejada neste campo de formulário por conta própria. A mesma operação deve ser feita com o segundo grupo de dados no campo "Array2".

Clique no botão OK. O editor de planilhas calculará e exibirá o valor de correlação na célula com a fórmula. Se necessário, você pode salvar este documento para uso futuro (atalho Ctrl + S).

A correlação é estudada com base em dados experimentais, que são os valores medidos (xi, yi) de duas características. Se houver poucos dados experimentais, a distribuição empírica bidimensional é representada como uma série dupla de valores de xi e yi. Nesse caso, a correlação entre as características pode ser descrita de diferentes maneiras. A correspondência entre um argumento e uma função pode ser dada por uma tabela, fórmula, gráfico, etc.

A análise de correlação, como outros métodos estatísticos, é baseada no uso de modelos probabilísticos que descrevem o comportamento das características estudadas em uma determinada população geral, a partir da qual são obtidos os valores experimentais de xi e yi. Quando a correlação entre características quantitativas, cujos valores podem ser medidos com precisão em unidades de escalas métricas (metros, segundos, quilogramas, etc.), é investigada, o modelo de uma população geral bidimensional normalmente distribuída é muitas vezes adotado. Tal modelo exibe a relação entre as variáveis ​​xi e yi graficamente como um lugar geométrico de pontos em um sistema de coordenadas retangulares. Essa dependência gráfica também é chamada de gráfico de dispersão ou campo de correlação.

Este modelo de distribuição normal bidimensional (campo de correlação) permite dar uma interpretação gráfica visual do coeficiente de correlação, porque a distribuição no agregado depende de cinco parâmetros: μx, μy – valores médios (expectativas matemáticas); σx,σy são os desvios padrão das variáveis ​​aleatórias X e Y, ep é o coeficiente de correlação, que é uma medida da relação entre as variáveis ​​aleatórias X e Y.

Se p \u003d 0, então os valores, xi, yi, obtidos de uma população normal bidimensional, estão localizados no gráfico em coordenadas x, y dentro da área delimitada por um círculo (Figura 5, a). Nesse caso, não há correlação entre as variáveis ​​aleatórias X e Y e elas são chamadas de não correlacionadas. Para uma distribuição normal bidimensional, a não correlação significa ao mesmo tempo a independência das variáveis ​​aleatórias X e Y.

Se p = 1 ou p = -1, então existe uma relação funcional linear entre as variáveis ​​aleatórias X e Y (Y = c + dX). Neste caso, fala-se de uma correlação completa. Em p = 1, os valores xi, yi determinam os pontos situados em uma linha reta com inclinação positiva (com um aumento em xi, os valores de yi também aumentam), em p = -1, a linha reta tem uma inclinação negativa (Figura 5, b). Em casos intermediários (-1< p < 1) точки, соответствующие значениям xi, yi, попадают в область, ограниченную некоторым эллипсом (рисунок 5, в, г), причем при p >0, há uma correlação positiva (com o aumento de xi, os valores de yi tendem a aumentar), em p< 0 корреляция отрицательная. Чем ближе р к, тем уже эллипс и тем теснее экспериментальные значения группируются около прямой линии. Здесь же следует обратить внимание на то, что линия, вдоль которой группируются точки, может быть не только прямой, а иметь любую другую форму: парабола, гипербола и т. д. В этих случаях мы рассматривали бы так называемую, нелинейную (или криволинейную) корреляцию.



Assim, uma análise visual do campo de correlação ajuda a identificar não apenas a presença de uma relação estatística (linear ou não linear) entre as feições estudadas, mas também sua rigidez e forma. Isso é essencial para a próxima etapa da análise, a seleção e o cálculo do coeficiente de correlação apropriado.

A dependência de correlação entre as características pode ser descrita de diferentes maneiras. Em particular, qualquer forma de conexão pode ser expressa por uma equação geral Y = f(X), onde Y é uma variável dependente, ou uma função da variável independente X, chamada de argumento. A correspondência entre um argumento e uma função pode ser dada por uma tabela, fórmula, gráfico, etc.

Graficamente, o relacionamento de dois recursos é representado usando o campo de correlação. No sistema de coordenadas, os valores do atributo do fator são plotados no eixo das abcissas e o atributo resultante é plotado no eixo das ordenadas. Cada interseção de linhas traçadas através desses eixos é indicada por um ponto. Na ausência de conexões próximas, há um arranjo aleatório de pontos no gráfico (Fig. 11.1).


Vamos representar graficamente a dependência obtida com pontos do plano coordenado (Fig. 3.1). Essa imagem de uma relação estatística é chamada de campo de correlação.

Construir um campo de correlação e formular uma hipótese sobre a forma do relacionamento.

Ao estudar a relação entre dois recursos, o método gráfico para selecionar o tipo de equação de regressão é bastante claro. É baseado no campo de correlação. Os principais tipos de curvas utilizadas na avaliação quantitativa das relações são mostrados na fig. 2.1.

Como nem todos os pontos do campo de correlação estão na linha de regressão, sempre há uma dispersão devido à influência do fator x, ou seja, regressão y para x, e causada por outras causas (variação inexplicável). A adequação da linha de regressão para predição depende de quanto da variação total da característica y é explicada pela variação explicada. Obviamente, se a soma dos quadrados dos desvios devido à regressão for maior que a soma dos quadrados dos resíduos, então a equação de regressão é estatisticamente significativa e o fator x tem um impacto significativo no resultado. Isso equivale ao fato de que o coeficiente de determinação r2 se aproximará da unidade.

Assim, para a dependência representada nos campos de correlação da Fig. 3.5 b) ec), a heterocedasticidade dos resíduos é mostrada na fig. 3.9 e 3.10.

Se os valores forem independentes, então o "campo de correlação" ou pa-

Se o campo de correlação puder ser aproximado por uma linha reta, que é chamada de linha de regressão, prossiga para o cálculo do coeficiente de correlação do par r. Seus valores numéricos estão no intervalo [-1, 1]. Se r for igual a 1 ou -1, então existe um feed ou feedback funcional. Quando r está próximo de zero, não há conexão entre os fenômenos, e em r 0,7 a conexão é considerada significativa. O coeficiente de correlação é calculado pela fórmula

Após a identificação dos grupos de instalações ferroviárias acima, foi utilizado outro método aproximado de análise preliminar da homogeneidade da população para cada grupo de instalações ferroviárias - a construção de campos de correlação para cada um dos fatores incluídos no estudo com o custo do transporte. O principal sinal da homogeneidade ou heterogeneidade das populações selecionadas foi a ausência ou presença de lacunas e saltos na localização dos pontos nos campos de correlação.

Para o estudo, todos os fatores possíveis foram selecionados preliminarmente por análise lógica profissional, dados sobre mudanças em que para as empresas estão disponíveis no relatório do ministério. Tais fatores devem ser considerados o volume total de transporte, a produtividade média dos vagões e locomotivas da frota de trabalho, intensidade de frete, intensidade de capital de uma unidade de transporte e produtividade da mão de obra, etc. (11 fatores no total). Assim, foram construídos 44 campos de correlação para quatro grupos de empresas.

Após a determinação dos valores indicados, obtém-se uma equação de dependência de pares, cuja representação gráfica nos eixos coordenados é chamada de linha de regressão teórica. Se todas as medidas forem aplicadas a esse campo, e não apenas a linha de regressão teórica, obteremos um campo de correlação.

Sistematizamos o material de origem no campo de correlação e na tabela de correlação. Em nosso exemplo, o fator é o custo das máquinas Cm e a função é o número médio anual de trabalhadores P.

Como resultado da divisão em intervalos, todo o plano no qual as medições são plotadas para os sinais k e y, chamado campo de correlação, serão células, e cada medição é caracterizada não pelos valores exatos de suas coordenadas, mas apenas pelos valores do intervalo em que é atribuído.

Na fig. 16 mostra o campo de correlação, no qual os intervalos para os valores do argumento Сы são fornecidos ao longo do eixo de abcissas e os intervalos para o valor da função P são fornecidos ao longo do eixo das ordenadas. O campo de correlação construído dessa maneira é chamado de secundário.

Um campo de correlação primária também pode ser construído para selecionar intervalos. Todos os pontos neste campo são marcados levando em consideração os valores de suas coordenadas. De acordo com a densidade dos pontos, os intervalos são delineados.

Junto com a construção do campo de correlação, conforme indicado acima, é compilada uma tabela de correlação na qual todos os cálculos relativos à determinação das médias, a construção de uma linha de regressão empírica e os dados iniciais para determinação dos parâmetros no sistema de normal equações são executadas.

Na tabela. 36 todo o material é dividido em intervalos. Com ele, construímos um campo de correlação secundário, no qual plotamos todos os valores das variáveis ​​e determinamos os valores médios (/, //, ..., yn nos intervalos. Conectando os valores médios em cada intervalo com segmentos de reta, obtemos uma reta de regressão empírica (ver Fig. 16).

Restaurando do centro de cada intervalo a perpendicular ao eixo das abcissas, reservamos em cada um deles os valores correspondentes de y, mas os intervalos r /, \u003d 1081, 1/2 \u003d 1774, etc. Conectamos o pontos obtidos entre si por segmentos de linha reta. A linha quebrada resultante é uma linha de regressão empírica para a relação entre o custo das máquinas Cm e o número de trabalhadores P. Por analogia com os cálculos realizados, podemos construir tabelas de correlação e campos de correlação para identificar a relação entre o número de trabalhadores P , o volume de trabalho O, o número de estruturas de concreto pré-fabricado e concreto armado / Izh.b.
Arroz. 18. Tabela de correlação e campo secundário de correlação da dependência do número de trabalhadores e do volume de uso de estruturas de concreto pré-moldado /info/5440"> As equações de regressão de pares e a regressão múltipla derivadas posteriormente são aplicáveis ​​se as variáveis ​​mudarem dentro dos seguintes limites: o número de trabalhadores - de 850 a 7850 pessoas, o custo das máquinas - de 0,15 a 3,15 milhões de rublos . , o volume de estruturas pré-fabricadas é de 10 a 230 mil m e é plotado ao longo do eixo vertical, em valores independentes - ao longo da horizontal.O campo de correlação é usado para determinar a forma da relação entre as variáveis, O gráfico fornece o pesquisador o primeiro

A terceira premissa MQO requer que a variância dos resíduos seja homocedástica. Isso significa que para cada valor do fator Xj, os resíduos e, - têm a mesma variância. Se esta condição para aplicação do LSM não for atendida, ocorre a heterocedasticidade. A presença de heterocedasticidade pode ser vista claramente a partir do campo de correlação (Fig. 3.5).

Outra tarefa de pesquisa típica - a avaliação da relação entre fenômenos - é resolvida usando o aparato bem desenvolvido da teoria da correlação em estatística matemática. Para fazer isso, é necessário ter amostras para fenômenos comparados mostrados em mapas de diferentes assuntos (por exemplo, D e C). Os valores a e b são tomados nos mesmos pontos /-th, ou seja estritamente coordenado e, em seguida, plote o campo de correlação.

1. Tema de trabalho.

2. Breves informações teóricas.

3. A ordem do trabalho.

4. Dados iniciais para o desenvolvimento de um modelo matemático.

5. Resultados do desenvolvimento de um modelo matemático.

6. Resultados do estudo do modelo. Construindo uma previsão.

7. Conclusões.

Nas tarefas 2-4, você pode usar o Excel PPP para calcular o desempenho do modelo.

Trabalho número 1.

Construção de modelos de regressão pareados. Verificação de resíduos para heterocedasticidade.

Para 15 empresas que produzem o mesmo tipo de produto, são conhecidos os valores de duas características:

X- saída, mil unidades;

s- custos de produção, milhões de rublos

x y
5,3 18,4
15,1 22,0
24,2 32,3
7,1 16,4
11,0 22,2
8,5 21,7
14,5 23,6
10,2 18,5
18,6 26,1
19,7 30,2
21,3 28,6
22,1 34,0
4,1 14,2
12,0 22,1
18,3 28,2

Requeridos:

1. Construir um campo de correlação e formular uma hipótese sobre a forma do relacionamento.

2. Construir modelos:

Regressão de Pares Lineares.

Regressão par a par semi-log.

2.3 Regressão do par de potências.
Por esta:


2. Avalie a rigidez do relacionamento usando o coeficiente (índice)
correlações.

3. Avalie a qualidade do modelo usando um coeficiente (índice)
determinação e erro médio de aproximação
.

4. Escreva usando o coeficiente médio de elasticidade
avaliação comparativa da força da relação entre o fator e o resultado
.

5. Usando F- Critério de Fisher para avaliar a confiabilidade estatística dos resultados da modelagem de regressão.

De acordo com os valores das características calculadas nos parágrafos 2-5, escolha a melhor equação de regressão.

Usando o método de Golfreld-Quandt, verifique os resíduos quanto à heterocedasticidade.

Construímos um campo de correlação.

Analisando a localização dos pontos do campo de correlação, assumimos que a relação entre os sinais X e no pode ser linear, ou seja y=a+bx, ou forma não linear: y=a+blnx, y=ax b.

Com base na teoria da relação em estudo, espera-se obter a dependência no a partir de X Gentil y=a+bx, porque os custos de produção y pode ser dividido em dois tipos: constante, independente do volume de produção - uma como aluguel, manutenção administrativa, etc.; e variáveis ​​que mudam proporcionalmente à produção bx, como consumo de material, eletricidade, etc.


2.1.Modelo de Regressão de Pares Lineares.

2.1.1. Vamos calcular os parâmetros uma e b regressão linear y=a+bx.

Construímos uma tabela de cálculo 1.

tabela 1

Opções uma e b equações

Yx = a + bx


Dividido por n b:

Equação de regressão:

=11,591+0,871x

Com um aumento na produção em 1 mil rublos. os custos de produção aumentam em 0,871 milhão de rublos. em média, os custos fixos são de 11,591 milhões de rublos.

2.1.2. Estimamos a proximidade da relação usando o coeficiente linear de correlação de pares.

Vamos determinar preliminarmente os desvios padrão dos recursos.

Desvio padrão:

Coeficiente de correlação:

Entre sinais X e S existe uma correlação linear muito forte.

2.1.3. Vamos avaliar a qualidade do modelo construído.

ou seja, este modelo explica 90,5% da variância total no, a parcela da variação inexplicada é de 9,5%.

Portanto, a qualidade do modelo é alta.

MAS eu .

Primeiro, a partir da equação de regressão, determinamos os valores teóricos para cada valor do fator.

Erro de aproximação Eu, eu=1…15:

Erro médio de aproximação:

2.1.4. Vamos definir o coeficiente médio de elasticidade:

Ele mostra que com um aumento na produção de 1%, os custos de produção aumentam em média 0,515%.

2.1.5. Vamos estimar a significância estatística da equação resultante.
Vamos testar a hipótese H0 que a dependência revelada no a partir de Xé aleatório, ou seja, a equação resultante é estatisticamente insignificante. Vamos tomar α=0,05. Vamos encontrar o valor tabular (crítico) F- Critério de Fisher:

Encontre o valor real F- Critério de Fisher:

daí a hipótese H0 H1 x e y não é acidental.

Vamos construir a equação resultante.

2.2. Modelo de regressão par a par semilog.

2.2.1. Vamos calcular os parâmetros uma e b em regressão:

y x \u003d a + blnx.

Linearizamos esta equação, denotando:

y=a + bz.

Opções uma e b equações

= a+bz

determinado pelo método dos mínimos quadrados:


Calculamos a tabela 2.

mesa 2

Dividido por n e resolvendo pelo método de Cramer, obtemos uma fórmula para determinar b:

Equação de regressão:

= -1,136 + 9,902z

2.2.2. Vamos estimar a proximidade da conexão entre as características no e X.

Uma vez que a equação y = a + bln x linear em relação aos parâmetros uma e b e sua linearização não estava relacionada com a transformação da variável dependente _ no, então o aperto da conexão entre as variáveis no e X, estimado usando o índice de correlação de pares Rxy, também pode ser determinado usando o coeficiente de correlação de par linear r yz

desvio padrão z:

O valor do índice de correlação é próximo de 1, portanto, entre as variáveis no e X existe uma relação muito próxima = a + b.

2.2.3. Vamos avaliar a qualidade do modelo construído.

Vamos definir o coeficiente de determinação:

ou seja, este modelo explica 83,8% da variação total do resultado no, a parcela da variação não explicada é de 16,2%. Portanto, a qualidade do modelo é alta.

Vamos encontrar o valor do erro médio de aproximação MAS eu .

Primeiro, a partir da equação de regressão, determinamos os valores teóricos para cada valor do fator. Erro de aproximação E eu ,:

, eu=1…15.

Erro médio de aproximação:

.

O erro é pequeno, a qualidade do modelo é alta.

2.2.4. Vamos determinar o coeficiente médio de elasticidade:

Ele mostra que com um aumento na produção de 1%, os custos de produção aumentam em média 0,414%.

2.2.5. Vamos estimar a significância estatística da equação resultante.
Vamos testar a hipótese H0 que a dependência revelada no a partir de Xé aleatório, ou seja, a equação resultante é estatisticamente insignificante. Vamos tomar α=0,05.

Vamos encontrar o valor tabular (crítico) F- Critério de Fisher:

Encontre o valor real F- Critério de Fisher:

daí a hipótese H0 rejeitado, hipótese alternativa aceita H1: com uma probabilidade de 1-α=0,95 a equação resultante é estatisticamente significativa, a relação entre as variáveis x e y não é acidental.

Vamos construir uma equação de regressão no campo de correlação

2.3. Modelo de Regressão de Pares de Potência.

2.3.1. Vamos calcular os parâmetros uma e b regressão de potência:

O cálculo dos parâmetros é precedido pelo procedimento de linearização desta equação:

e mudança de variáveis:

Y=lny, X=lnx, A=lna

Parâmetros de equação:

determinado pelo método dos mínimos quadrados:


Calculamos a tabela 3.

Nós definimos b:

Equação de regressão:

Vamos construir uma equação de regressão no campo de correlação:

2.3.2. Vamos estimar a proximidade da conexão entre as características no e X usando o índice de correlação de pares Ryx.

Calcular preliminarmente o valor teórico para cada valor de fator x, e depois:

Valor do índice de correlação Rxy próximo de 1, portanto, entre variáveis no e X há uma correlação muito próxima da forma:

2.3.3. Vamos avaliar a qualidade do modelo construído.

Vamos definir o índice de determinação:

R2=0,936 2 =0,878,

ou seja, este modelo explica 87,6% da variação total do resultado sim, e a parcela de variação não explicada é de 12,4%.

A qualidade do modelo é alta.

Vamos encontrar o valor do erro médio de aproximação.

Erro de aproximação Eu, eu=1…15:

Erro médio de aproximação:

O erro é pequeno, a qualidade do modelo é alta.

2.3.4. Vamos definir o coeficiente médio de elasticidade:

Ele mostra que com um aumento na produção de 1%, os custos de produção aumentam em média 0,438%.

2.3.5 Vamos avaliar a significância estatística da equação resultante.

Vamos testar a hipótese H0 que a dependência revelada no a partir de Xé aleatório, ou seja, a equação resultante é estatisticamente insignificante. Vamos tomar α=0,05.

valor tabular (crítico) F- Critério de Fisher:

valor atual F- Critério de Fisher:

daí a hipótese H0 rejeitado, hipótese alternativa aceita H1: com uma probabilidade de 1-α=0,95 a equação resultante é estatisticamente significativa, a relação entre as variáveis x e y não é acidental.

Tabela 3

3. Escolhendo a melhor equação.

Vamos fazer uma tabela dos resultados do estudo.

Tabela 4

Analisamos a tabela e tiramos conclusões.

ú Todas as três equações mostraram-se estatisticamente significativas e confiáveis, possuem um coeficiente de correlação (índice) próximo de 1, um alto (próximo de 1) coeficiente (índice) de determinação e um erro de aproximação dentro de limites aceitáveis.

ú Ao mesmo tempo, as características do modelo linear indicam que ele descreve a relação entre os sinais x e sim

ú Portanto, escolhemos um modelo linear como equação de regressão.