Correlação e análise de regressão de dados. Como criar um campo de correlação

Para estudo experimental de dependências entre variáveis ​​aleatórias x e y realizar uma série de experimentos independentes. Resultado eu o experimento dá um par de valores (x z, a d), eu = 1, 2,..., P.

Os valores que caracterizam várias propriedades dos objetos podem ser independentes ou inter-relacionados. As formas de manifestação das inter-relações são muito diversas. Como dois de seus tipos mais comuns, os relacionamentos funcionais (completos) e de correlação (incompletos) são diferenciados.

Com uma dependência funcional de duas quantidades, o valor de uma -x h corresponde necessariamente a um ou mais valores definidos com precisão de outra quantidade -y ( . Muitas vezes, a conexão funcional se manifesta na física, na química. Em situações reais, existe uma infinidade de propriedades do próprio objeto e do ambiente que se afetam, portanto esse tipo de relação não existe, ou seja, relações funcionais são abstrações matemáticas.

O impacto de fatores comuns, a presença de padrões objetivos no comportamento dos objetos levam apenas à manifestação da dependência estatística. Estatística é uma dependência em que uma mudança em uma das quantidades acarreta uma mudança na distribuição de outras (a outra), e essas outras quantidades assumem certos valores com certas probabilidades. A dependência funcional neste caso deve ser considerada um caso especial de dependência estatística: o valor de um fator corresponde aos valores de outros fatores com probabilidade igual a um. Um caso especial mais importante de dependência estatística é uma dependência de correlação que caracteriza a relação entre os valores de algumas variáveis ​​aleatórias com o valor médio de outras, embora em cada caso individual qualquer valor interconectado possa assumir valores diferentes.

A correlação (que também é chamada de incompleta ou estatística) aparece em média, para observações em massa, quando os valores dados da variável dependente correspondem a um certo número de valores prováveis ​​da variável independente. Explicação - a complexidade da relação entre os fatores analisados, cuja interação é influenciada por variáveis ​​aleatórias não contabilizadas. Portanto, a relação entre os sinais se manifesta apenas na média, na massa dos casos. Com uma correlação, cada valor do argumento corresponde a valores distribuídos aleatoriamente da função em um determinado intervalo.

O termo "correlação" foi usado pela primeira vez pelo paleontólogo francês J. Cuvier, que deduziu a "lei da correlação de partes e órgãos dos animais" (esta lei permite restaurar a aparência de todo o animal a partir das partes encontradas do corpo ). Este termo foi introduzido nas estatísticas pelo biólogo e estatístico inglês F. Galton (não apenas uma conexão - relação, mas "como se fosse uma conexão" - correlação).

Correlações são encontradas em todos os lugares. Por exemplo, na agricultura, pode ser a relação entre o rendimento e a quantidade de fertilizante aplicada. Obviamente, estes últimos estão envolvidos na formação da cultura. Mas para cada campo específico, talhão, a mesma quantidade de fertilizantes aplicados vai causar um aumento diferente no rendimento, pois há uma série de outros fatores (clima, condições do solo, etc.) em interação que formam o resultado final. No entanto, em média, essa relação é observada - um aumento na massa de fertilizantes aplicados leva a um aumento no rendimento.

A técnica mais simples para identificar a relação entre as características estudadas é a construção de uma tabela de correlação; sua representação visual é o campo de correlação. É um gráfico onde os valores de jq são plotados na abcissa, ao longo da ordenada em x. Pela localização dos pontos, sua concentração em uma determinada direção, pode-se julgar qualitativamente a presença de uma conexão.

Arroz. 7.3.

Uma correlação positiva entre variáveis ​​aleatórias, próxima a um funcional parabólico, é mostrada na fig. 6.1 , uma. Na fig. 6.1, b mostra um exemplo de correlação negativa fraca, e na fig. 6.1, dentro - um exemplo de variáveis ​​aleatórias praticamente não correlacionadas. A correlação é alta se a dependência “pode ser representada” no gráfico como uma linha reta (com uma inclinação positiva ou negativa).

Existem dois tipos relações entre fenômenos econômicos: funcional e estatística. Relação entre duas quantidades x e Y representando dois fenômenos, respectivamente, é chamado funcional, se cada valor de x corresponder a um único valor de x Y e vice versa. Um exemplo de relação funcional na economia é a dependência da produtividade do trabalho em relação ao volume de produção e ao custo do tempo de trabalho. Deve-se notar, no entanto, que se xé uma variável determinística e não aleatória, então o valor funcionalmente dependente dela Y também é determinístico. Se xé aleatório então Y também uma variável aleatória.

No entanto, muito mais frequentemente na economia não há um funcional, mas dependência estatística, quando cada valor fixo da variável independente x corresponde não a um, mas a muitos valores da variável dependente Y, e é impossível dizer com antecedência qual valor levará Y. Isso se deve ao fato de que em Y exceto variável x Numerosos fatores aleatórios incontroláveis ​​também influenciam. Nesta situação Yé uma variável aleatória e a variável x pode ser determinística ou aleatória.

Um caso especial de dependência estatística é dependência de correlação, em que o fator x e valor médio (expectativa matemática) do indicador efetivo Y. A dependência estatística pode ser revelada apenas pelos resultados de um número suficientemente grande de observações. Graficamente, a dependência estatística de dois sinais pode ser representada usando o campo de correlação, quando plotado no eixo das abcissas, o valor do sinal do fator é plotado x, e ao longo da ordenada - o resultado Y.

correlação- um caso especial de relação estatística, em que diferentes valores de uma variável correspondem a diferentes valores médios de outra variável. A correlação sugere que as variáveis ​​em estudo possuem expressão quantitativa.

Se a relação entre dois recursos for estudada, haverá uma correlação pareada; se a relação entre muitos recursos for estudada - correlação múltipla.

Como exemplo, na fig.

1 apresenta dados que ilustram uma relação direta entre x e no(Fig. 1, a) e relação inversa (Fig. 1, b). No caso de "a", trata-se de uma relação direta entre, por exemplo, a renda média per capita ( x) e poupança ( no) em família. No caso “b”, estamos falando de uma relação inversa. Este é o nosso exemplo, a relação entre a produtividade do trabalho ( x) e custo unitário de produção ( no). Na fig. 1 cada personagem de ponto estuda o objeto de observação com seus próprios valores x e no.

Arroz. 1. Campo de correlação

Na fig. 1 também mostra linhas retas, equações de regressão linear do tipo , caracterizando a relação funcional entre a variável independente x e o valor médio do indicador de desempenho no. Assim, de acordo com a equação de regressão, sabendo x, é possível restaurar apenas o valor médio no.

Graficamente, a relação de dois recursos é representada usando o campo de correlação. No sistema de coordenadas, os valores do atributo do fator são plotados no eixo das abcissas e o atributo resultante é plotado no eixo das ordenadas. Cada interseção de linhas traçadas por esses eixos é indicada por um ponto. Na ausência de conexões próximas, há um arranjo aleatório de pontos no gráfico (Fig. 11.1).


Vamos representar graficamente a dependência obtida com pontos do plano coordenado (Fig. 3.1). Essa imagem de uma relação estatística é chamada de campo de correlação.

Construa um campo de correlação e formule uma hipótese sobre a forma da relação.

Ao estudar a relação entre duas características, o método gráfico para selecionar o tipo de equação de regressão é bastante claro. Baseia-se no campo de correlação. Os principais tipos de curvas utilizadas na avaliação quantitativa das relações são mostrados na fig. 2.1.

Como nem todos os pontos do campo de correlação estão na linha de regressão, sempre há uma dispersão devido à influência do fator x, ou seja, regressão y para x, e causada por outras causas (variação inexplicável). A adequação da linha de regressão para predição depende de quanto da variação total da característica é contabilizada pela variação explicada. Obviamente, se a soma dos desvios quadrados devido à regressão for maior que a soma residual dos quadrados , então a equação de regressão é estatisticamente significativa e o fator x tem um impacto significativo no resultado. Isso equivale ao fato de que o coeficiente de determinação r2 se aproximará da unidade.

Assim, para a dependência representada nos campos de correlação da Fig. 3.5 b) e c), a heterocedasticidade dos resíduos é mostrada na fig. 3.9 e 3.10.

Se os valores forem independentes, então o "campo de correlação" ou pa-

Se o campo de correlação puder ser aproximado por uma linha reta, chamada de linha de regressão, prossiga para o cálculo do coeficiente de correlação de pares r. Seus valores numéricos estão no intervalo [-1, 1]. Se r for igual a 1 ou -1, então há um feed ou feedback funcional. Quando r está próximo de zero, não há conexão entre os fenômenos, e em r 0,7 a conexão é considerada significativa. O coeficiente de correlação é calculado pela fórmula

Depois de identificados os grupos de instalações ferroviárias anteriores, foi utilizado outro método aproximado de análise preliminar da homogeneidade da população para cada grupo de instalações ferroviárias - a construção de campos de correlação para cada um dos fatores incluídos no estudo com o custo do transporte. O principal sinal da homogeneidade ou heterogeneidade das populações selecionadas foi a ausência ou presença de lacunas e saltos na localização dos pontos nos campos de correlação.

Para o estudo, todos os fatores possíveis foram selecionados preliminarmente por análise lógica profissional, dados sobre as mudanças nas quais as empresas estão disponíveis no relatório do ministério. Tais fatores devem ser considerados o volume total de transporte, a produtividade média dos vagões e locomotivas da frota operante, intensidade de carga, intensidade de capital de uma unidade de transporte e produtividade da mão de obra, etc. (11 fatores no total). Assim, foram construídos 44 campos de correlação para quatro grupos de empresas.

Após determinar os valores indicados, obtém-se uma equação de dependência de pares, cuja representação gráfica nos eixos coordenados é chamada de linha de regressão teórica. Se todas as medições forem aplicadas a tal campo, e não apenas a linha de regressão teórica, obteremos um campo de correlação.

Sistematizamos o material de origem no campo de correlação e na tabela de correlação. Em nosso exemplo, o fator é o custo das máquinas Cm e a função é o número médio anual de trabalhadores P.

Como resultado da divisão em intervalos, todo o plano no qual as medições são plotadas de acordo com os sinais k e y, chamado de campo de correlação, serão células, e cada medição é caracterizada não pelos valores exatos de suas coordenadas , mas apenas pelos valores do intervalo em que é atribuído.

Na fig. 16 mostra o campo de correlação, no qual os intervalos para os valores do argumento Сы são dados ao longo do eixo das abcissas e os intervalos para o valor da função P são dados ao longo do eixo das ordenadas. O campo de correlação construído dessa maneira é chamado de secundário.

Um campo de correlação primária também pode ser construído para selecionar intervalos. Todos os pontos neste campo são marcados levando em consideração os valores de suas coordenadas. De acordo com a densidade dos pontos, os intervalos são delineados.

Juntamente com a construção do campo de correlação, conforme indicado acima, é compilada uma tabela de correlação na qual todos os cálculos relacionados à determinação das médias, a construção de uma linha de regressão empírica e os dados iniciais para determinação dos parâmetros no sistema de normal equações são executadas.

Na tabela. 36 todo o material é dividido em intervalos. Com ele, construímos um campo de correlação secundária, no qual plotamos todos os valores das variáveis ​​e determinamos os valores médios (/, //, ..., yn em intervalos. Conectando os valores médios em cada intervalo com segmentos de linha reta, obtemos uma linha de regressão empírica (ver Fig. 16).

Restaurando do centro de cada intervalo a perpendicular ao eixo das abcissas, reservamos em cada um deles os valores correspondentes de y, mas os intervalos r /, \u003d 1081, 1/2 \u003d 1774, etc. pontos obtidos uns com os outros por segmentos de linha reta. A linha quebrada resultante é uma linha de regressão empírica para a relação entre o custo das máquinas Cm e o número de trabalhadores P. Por analogia com os cálculos realizados, podemos construir tabelas de correlação e campos de correlação para identificar a relação entre o número de trabalhadores P , o volume de trabalho O, o número de estruturas pré-fabricadas de concreto e concreto armado / Izh.b.
Arroz. 18. Tabela de correlação e campo secundário de correlação da dependência do número de trabalhadores e do volume de uso de estruturas pré-moldadas de concreto /info/5440"> As equações de regressão de pares e a regressão múltipla derivada posteriormente são aplicáveis ​​se as variáveis ​​mudarem dentro dos seguintes limites: o número de trabalhadores - de 850 a 7850 pessoas, o custo das máquinas - de 0,15 a 3,15 milhões de rublos . , o volume de estruturas pré-fabricadas é de 10 a 230 mil m e é plotado ao longo do eixo vertical, no valor independente - ao longo da horizontal.O campo de correlação é usado para determinar a forma da relação entre as variáveis, O gráfico dá a pesquisador o primeiro

A terceira premissa dos mínimos quadrados exige que a variância dos resíduos seja homocedástica. Isso significa que para cada valor do fator Xj, os resíduos e, - têm a mesma variância. Se esta condição para aplicação do LSM não for atendida, então ocorre a heterocedasticidade. A presença de heterocedasticidade pode ser claramente vista no campo de correlação (Fig. 3.5).

Outra tarefa típica de pesquisa - a avaliação da relação entre os fenômenos - é resolvida usando o aparato bem desenvolvido da teoria da correlação em estatística matemática. Para fazer isso, é necessário ter amostras de fenômenos comparados mostrados em mapas de diferentes assuntos (por exemplo, D e C). Os valores a e b são obtidos nos mesmos /-ésimos pontos, ou seja, estritamente coordenado e, em seguida, traçar o campo de correlação.

1. Tópico de trabalho.

2. Breve informação teórica.

3. A ordem do trabalho.

4. Dados iniciais para o desenvolvimento de um modelo matemático.

5. Resultados do desenvolvimento de um modelo matemático.

6. Resultados do estudo do modelo. Construindo uma previsão.

7. Conclusões.

Nas tarefas 2-4, você pode usar o Excel PPP para calcular o desempenho do modelo.

Trabalho número 1.

Construção de modelos de regressão pareada. Verificação de resíduos quanto à heterocedasticidade.

Para 15 empresas que produzem o mesmo tipo de produto, são conhecidos os valores de duas características:

X- saída, mil unidades;

y- custos de produção, milhões de rublos

x y
5,3 18,4
15,1 22,0
24,2 32,3
7,1 16,4
11,0 22,2
8,5 21,7
14,5 23,6
10,2 18,5
18,6 26,1
19,7 30,2
21,3 28,6
22,1 34,0
4,1 14,2
12,0 22,1
18,3 28,2

Requeridos:

1. Construir um campo de correlação e formular uma hipótese sobre a forma da relação.

2. Construir modelos:

Regressão linear de pares.

Regressão semi-log pairwise.

2.3 Regressão de pares de potência.
Por esta:


2. Avalie a rigidez do relacionamento usando o coeficiente (índice)
correlações.

3. Avalie a qualidade do modelo usando um coeficiente (índice)
determinação e erro médio de aproximação
.

4. Escreva usando o coeficiente médio de elasticidade
avaliação comparativa da força da relação entre o fator e o resultado
.

5. Usando F- Critério de Fisher para avaliar a confiabilidade estatística dos resultados da modelagem de regressão.

De acordo com os valores das características calculadas nos parágrafos 2-5, escolha a melhor equação de regressão.

Usando o método Golfreld-Quandt, verifique os resíduos quanto à heterocedasticidade.

Construímos um campo de correlação.

Analisando a localização dos pontos do campo de correlação, assumimos que a relação entre os sinais x e no pode ser linear, ou seja, y=a+bx, ou forma não linear: y=a+blnx, y=ax b.

Com base na teoria da relação em estudo, esperamos obter a dependência no a partir de x Gentil y=a+bx, porque os custos de produção y pode ser dividida em dois tipos: constante, independente do volume de produção - uma como aluguel, manutenção administrativa, etc.; e variáveis ​​que mudam em proporção à saída bx, como consumo de material, eletricidade, etc.


2.1.Modelo de Regressão de Par Linear.

2.1.1. Vamos calcular os parâmetros uma e b regressão linear y=a+bx.

Construímos uma tabela de cálculo 1.

tabela 1

Opções uma e b equações

Y x = a + bx


Dividido em n b:

Equação de regressão:

=11,591+0,871x

Com um aumento na produção de 1 mil rublos. os custos de produção aumentam em 0,871 milhão de rublos. em média, os custos fixos são de 11,591 milhões de rublos.

2.1.2. Estimamos a proximidade do relacionamento usando o coeficiente linear de correlação de pares.

Vamos determinar preliminarmente os desvios padrão dos recursos.

Desvio padrão:

Coeficiente de correlação:

entre sinais x e Y existe uma correlação linear muito forte.

2.1.3. Vamos avaliar a qualidade do modelo construído.

ou seja, este modelo explica 90,5% da variância total no, a parcela de variação inexplicável é de 9,5%.

Portanto, a qualidade do modelo é alta.

MAS eu .

Primeiro, a partir da equação de regressão, determinamos os valores teóricos para cada valor do fator.

erro de aproximação Eu, eu=1…15:

Erro médio de aproximação:

2.1.4. Vamos definir o coeficiente médio de elasticidade:

Ele mostra que, com um aumento na produção de 1%, os custos de produção aumentam em média 0,515%.

2.1.5. Vamos estimar a significância estatística da equação resultante.
Vamos testar a hipótese H0 que a dependência revelada no a partir de xé aleatório, ou seja, a equação resultante é estatisticamente insignificante. Vamos considerar α=0,05. Vamos encontrar o valor tabular (crítico) F- Critério de Fisher:

Encontre o valor real F- Critério de Fisher:

daí a hipótese H0 H1 x e y não é acidental.

Vamos construir a equação resultante.

2.2. Modelo de regressão pareada Semilog.

2.2.1. Vamos calcular os parâmetros uma e b na regressão:

y x \u003d a + blnx.

Linearizamos esta equação, denotando:

y=a + bz.

Opções uma e b equações

= a+bz

determinado pelo método dos mínimos quadrados:


Calculamos a tabela 2.

mesa 2

Dividido por n e resolvendo pelo método de Cramer, obtemos uma fórmula para determinar b:

Equação de regressão:

= -1,136 + 9,902z

2.2.2. Vamos estimar a proximidade da conexão entre os recursos no e x.

já que a equação y = a + bln x linear em relação aos parâmetros uma e b e sua linearização não esteve relacionada com a transformação da variável dependente _ no, então o aperto da conexão entre as variáveis no e x, estimado usando o índice de correlação de pares Rxy, também pode ser determinado usando o coeficiente de correlação de par linear r yz

desvio padrão z:

O valor do índice de correlação é próximo de 1, portanto, entre as variáveis no e x existe uma correlação muito próxima = a + bz.

2.2.3. Vamos avaliar a qualidade do modelo construído.

Vamos definir o coeficiente de determinação:

ou seja, este modelo explica 83,8% da variação total no resultado no, a parcela de variação inexplicada é de 16,2%. Portanto, a qualidade do modelo é alta.

Vamos encontrar o valor do erro médio de aproximação MAS eu .

Primeiro, a partir da equação de regressão, determinamos os valores teóricos para cada valor do fator. erro de aproximação E eu ,:

, eu=1…15.

Erro médio de aproximação:

.

O erro é pequeno, a qualidade do modelo é alta.

2.2.4. Vamos determinar o coeficiente médio de elasticidade:

Ele mostra que, com um aumento na produção de 1%, os custos de produção aumentam em média 0,414%.

2.2.5. Vamos estimar a significância estatística da equação resultante.
Vamos testar a hipótese H0 que a dependência revelada no a partir de xé aleatório, ou seja a equação resultante é estatisticamente insignificante. Vamos considerar α=0,05.

Vamos encontrar o valor tabular (crítico) F- Critério de Fisher:

Encontre o valor real F- Critério de Fisher:

daí a hipótese H0 rejeitada, hipótese alternativa aceita H1: com uma probabilidade de 1-α=0,95 a equação resultante é estatisticamente significativa, a relação entre as variáveis x e y não é acidental.

Vamos construir uma equação de regressão no campo de correlação

2.3. Modelo de regressão de pares de potência.

2.3.1. Vamos calcular os parâmetros uma e b regressão de poder:

O cálculo dos parâmetros é precedido pelo procedimento de linearização desta equação:

e mudança de variáveis:

Y=lny, X=lnx, A=lna

Parâmetros da equação:

determinado pelo método dos mínimos quadrados:


Calculamos a tabela 3.

nós definimos b:

Equação de regressão:

Vamos construir uma equação de regressão no campo de correlação:

2.3.2. Vamos estimar a proximidade da conexão entre os recursos no e x usando o índice de correlação de pares Ryx .

Calcular preliminarmente o valor teórico para cada valor de fator x, e depois:

Valor do índice de correlação Rxy perto de 1, portanto entre variáveis no e x existe uma correlação muito próxima da forma:

2.3.3. Vamos avaliar a qualidade do modelo construído.

Vamos definir o índice de determinação:

R2=0,936 2 =0,878,

ou seja, este modelo explica 87,6% da variação total no resultado sim, e a parcela de variação inexplicada responde por 12,4%.

A qualidade do modelo é alta.

Vamos encontrar o valor do erro médio de aproximação.

erro de aproximação Eu, eu=1…15:

Erro médio de aproximação:

O erro é pequeno, a qualidade do modelo é alta.

2.3.4. Vamos definir o coeficiente médio de elasticidade:

Ele mostra que, com um aumento na produção de 1%, os custos de produção aumentam em média 0,438%.

2.3.5 Vamos avaliar a significância estatística da equação resultante.

Vamos testar a hipótese H0 que a dependência revelada no a partir de xé aleatório, ou seja, a equação resultante é estatisticamente insignificante. Vamos considerar α=0,05.

valor tabular (crítico) F- Critério de Fisher:

valor atual F- Critério de Fisher:

daí a hipótese H0 rejeitada, hipótese alternativa aceita H1: com uma probabilidade de 1-α=0,95 a equação resultante é estatisticamente significativa, a relação entre as variáveis x e y não é acidental.

Tabela 3

3. Escolhendo a melhor equação.

Vamos fazer uma tabela com os resultados do estudo.

Tabela 4

Analisamos a tabela e tiramos conclusões.

ú Todas as três equações mostraram-se estatisticamente significativas e confiáveis, têm um coeficiente de correlação (índice) próximo a 1, um coeficiente (índice) de determinação alto (próximo de 1) e um erro de aproximação dentro de limites aceitáveis.

ú Ao mesmo tempo, as características do modelo linear indicam que ele descreve a relação entre os signos x e y.

ú Portanto, escolhemos um modelo linear como equação de regressão.

Ao levantar a questão da correlação entre duas características estatísticas X e Y, é realizado um experimento com registro paralelo de seus valores.

Exemplo 8.1.

Determine se o resultado de um salto em distância com uma corrida (sinal X) depende do valor da velocidade final de decolagem (sinal Y). Para responder a esta questão, paralelamente ao registo do resultado X de cada salto de um atleta ou de um grupo de atletas, regista-se também o valor da velocidade final de descolagem Y. Sejam eles:

Tabela 5

EU
xi (cm)
yi (m/s) 10,7 10,5 10,1 9,8 10,1 10,5 9,1 9,6

Vamos apresentar a Tabela 5 como um gráfico em um sistema de coordenadas retangulares, onde traçaremos o comprimento do salto (X) no eixo horizontal, e o valor da velocidade final de decolagem neste salto (Y) no eixo vertical .
função PlayMyFlash(cmd)( Corel_.TPlay(cmd); )

№1 !!! №2 !!! №3 !!! №4 !!! №5!!! №6 !!! №7 !!! №8!!!

Arroz. 8. Gráfico do campo de correlação.

Chamaremos a zona de dispersão dos pontos assim obtidos no gráfico como o campo de correlação. Analisando visualmente o campo de correlação na Figura 8, você pode ver que ele é, por assim dizer, alongado ao longo de uma linha reta. Esta imagem é típica para a chamada relação de correlação linear entre recursos. Nesse caso, geralmente pode-se supor que, com o aumento da velocidade final de decolagem, o comprimento do salto também aumenta e vice-versa. Aqueles. existe uma relação direta (positiva) entre as características consideradas.

Juntamente com este exemplo, o seguinte pode ser distinguido de muitos outros campos de correlação possíveis (Fig. 9-11):

A Figura 9 também mostra uma relação linear, mas com o aumento dos valores de um atributo, os valores de outro diminuem e vice-versa, ou seja, feedback ou negativo. Pode-se supor que na Figura 11 os pontos do campo de correlação estão espalhados em torno de alguma linha curva. Nesse caso, eles dizem que há uma correlação curvilínea entre os sinais.

Com relação ao campo de correlação representado na Figura 10, não se pode dizer que os pontos estejam localizados ao longo de alguma linha reta ou curva; ele tem uma forma esférica. Nesse caso, as características X e Y são ditas independentes uma da outra.

Além disso, de acordo com o campo de correlação, pode-se julgar aproximadamente a proximidade da correlação, se essa relação existir. Aqui eles dizem: quanto menos os pontos estiverem espalhados pela linha média imaginária, mais próxima será a correlação entre as características consideradas.

A análise visual dos campos de correlação ajuda a entender a essência da relação de correlação, permite que você faça uma suposição sobre a presença, direção e firmeza da relação. Mas é impossível dizer com certeza se existe uma conexão entre os sinais ou não, uma conexão linear ou curvilínea, uma conexão próxima (confiável) ou fraca (não confiável), usando este método. O método mais preciso para identificar e avaliar uma relação linear entre recursos é o método de determinação de vários indicadores de correlação a partir de dados estatísticos.

3. Coeficientes de correlação e suas propriedades

Freqüentemente, para determinar a confiabilidade da relação entre dois recursos (X, Y) usar Coeficiente de correlação de Spearman não paramétrico (classificação) e coeficiente de correlação paramétrica de Pearson . O valor desses indicadores de correlação é determinado pelas seguintes fórmulas:

(1)

Onde: dx - ranks de dados estatísticos da feição x;

dy - ranks de dados estatísticos da feição y.

(2)

Onde: - dados estatísticos do recurso x,

Dados estatísticos do recurso y.

Essas proporções têm os seguintes recursos poderosos:

1. Com base nos coeficientes de correlação, pode-se julgar apenas sobre uma relação de correlação linear entre os recursos. Nada pode ser dito sobre a conexão curvilínea com a ajuda deles.
2. Os valores dos coeficientes de correlação são um valor adimensional que não pode ser menor que -1 e maior que +1, ou seja,
3.
4. Se os valores dos coeficientes de correlação forem iguais a zero, ou seja, = 0 ou = 0, então a relação entre os recursos x, y ausência de.
5. Se os valores dos coeficientes de correlação forem negativos, ou seja,< 0 или < 0, то связь между признаками Х и Y marcha ré.
6. Se os valores dos coeficientes de correlação forem positivos, ou seja, > 0 ou y> 0, então a relação entre os recursos X e Y direto(positivo).
7. Se os coeficientes de correlação assumirem os valores +1 ou -1, ou seja, = ± 1 ou = ± 1, então a relação entre as características X e Y linear (funcional).
8. Somente pelo valor dos coeficientes de correlação é impossível julgar a confiabilidade da correlação entre os sinais. Essa confiabilidade também depende número de graus de liberdade.

Onde: n é o número de pares correlacionados de dados estatísticos para os recursos X e Y.

Quanto maior n, maior a confiabilidade da relação com o mesmo coeficiente de correlação.

Além das propriedades comuns listadas, os coeficientes de correlação considerados também apresentam diferenças. Sua principal diferença é que o coeficiente de Pearson ( pode ser usado apenas se a distribuição dos recursos X e Y for normal, o coeficiente de Spearman () pode ser usado para recursos com qualquer tipo de distribuição. Se os recursos em consideração tiverem uma distribuição normal, então é mais conveniente determinar a presença de uma conexão de correlação usando o coeficiente de Pearson (), pois neste caso terá um erro menor que o coeficiente de Spearman ().

Exemplo 8.2.

Determine se existe uma relação entre os resultados de um salto em distância de uma corrida (X) e a velocidade final da corrida (Y) de um grupo de atletas usando o coeficiente de correlação de postos de Spearman (dados do exemplo 8.1, tabela 5).

Na fórmula (1), dx e dy são as classificações dos dados estatísticos, ou seja, coloca uma opção em sua população classificada. Se no agregado houver vários dados idênticos, suas classificações são iguais e são determinadas como o valor médio dos lugares ocupados por essas opções. Por exemplo,

dados xi
classificações dx 4,5 4,5 4,5 4,5 7,5 7,5
3 + 4 + 5 + 6 7 + 8

Usando esta regra, determinamos as classificações dos dados na Tabela 5. Por conveniência, anotaremos tudo na forma da Tabela 6.

Tabela 6

dx morrer dx - dy
9,1 1 - 1 = 0 02 = 0
9,6 2 - 2 = 0 02 = 0
9,8 3 - 3 = 0 02 = 0
10,1 4 - 4 = 0 02 = 0
10,5 6,5 5 - 6,5 = - 1,5 (- 1,5)2 = 2,25
10,5 6,5 6 - 6,5 = - 0,5 (- 0,5)2 = 0,25
10,3 7 - 5 = 2 22 = 4
10,7 8 - 8 = 0 02 = 0
(dx-dy) = 0

Neste caso, temos 8 pares de valores, ou seja, 8 pares correlacionados. Isso significa n = 8. Substituindo o resultado obtido na fórmula (1), teremos:

Conclusão:

(0,92 > 0) , então entre sinais X e Y No x) e vice-versa - com a diminuição da velocidade de decolagem, o comprimento do salto diminui. A confiabilidade do coeficiente de correlação de Spearman é determinada pela tabela de valores críticos do coeficiente de correlação de classificação.

b) porque o valor obtido do coeficiente de correlação = 0,9 é maior que os valores tabulares = 0,88, correspondendo ao nível b = 99%, então a confiança na exatidão da conclusão (a) é maior que 99%. Essa confiabilidade nos permite estender a conclusão (a) para toda a população, ou seja, para todos os saltadores longos.

Se não houver verificação preliminar das populações em consideração para a normalidade da distribuição, então, no caso da falta de confiabilidade do coeficiente de correlação de Pearson, a presença de uma conexão também deve ser verificada pelo coeficiente de Spearman.

Exemplo 8.3.

O coeficiente de correlação de classificação pode revelar relacionamentos entre variáveis ​​que possuem qualquer distribuição estatística. Mas se essas variáveis ​​tiverem uma distribuição normal (Gaussiana), então uma relação mais precisa pode ser estabelecida usando o coeficiente de correlação normalizado (Brave-Pearson).

Vamos supor que em nosso exemplo e - corresponda à lei de distribuição normal e verifique a existência de uma conexão entre os resultados do teste X e Y usando o cálculo do coeficiente de correlação normalizado.

Pode-se perceber pela fórmula (1) que para o cálculo é necessário encontrar os valores médios das feições X, Y e o desvio de cada estatística de sua média. Conhecendo esses valores, você pode encontrar as somas para as quais não é difícil calcular

De acordo com a tabela 5, preencha a tabela 7:

Tabela 7

962 = 9216 10,7 0,6 0,62 = 0,36 96 0,6 = 57,6
262 = 676 10,5 0,4 0,42 = 0,16 26 0,4 = 10,4
10,3 0,2 0,04 5,4
- 4 9,8 - 0,3 0,09 1,2
10,1 0,00 1,0
10,5 0,4 0,16 3,2
- 92 9,1 - 1,0 1,00 9,2
- 64 9,6 - 0,5 0,25 32,0
= 23262 = 2,06 = 201

Substituindo a soma da coluna 7 no numerador da fórmula (1) e as somas das colunas 3 e 6 no denominador, obtemos:

Conclusão:

a) porque o valor do coeficiente de correlação é positivo (0.92>0) , então entre X e Y existe uma relação direta, ou seja, com o aumento da velocidade de decolagem (sinal Y) aumenta o comprimento do salto (sinal x) e vice-versa - com a diminuição da velocidade de decolagem, o comprimento do salto diminui. É muito importante saber a confiança na correção da conclusão.