O coeficiente de correlação de postos de Spearman é um exemplo de comparação. Análise de correlação de Spearman

Nos casos em que as medidas das características estudadas são realizadas em uma escala de ordem, ou a forma da relação difere da linear, o estudo da relação entre duas variáveis ​​aleatórias é realizado por meio de coeficientes de correlação de postos. Considere o coeficiente de correlação de postos de Spearman. Ao calculá-lo, é necessário classificar (ordenar) as opções da amostra. Ranking é o agrupamento de dados experimentais em uma determinada ordem, ascendente ou descendente.

A operação de classificação é realizada de acordo com o seguinte algoritmo:

1. Um valor mais baixo é atribuído a uma classificação mais baixa. O valor mais alto recebe uma classificação correspondente ao número de valores classificados. Ao valor mais baixo é atribuído um rank igual a 1. Por exemplo, se n=7, então o valor mais alto receberá o rank número 7, exceto nos casos previstos pela segunda regra.

2. Se vários valores forem iguais, eles recebem uma classificação, que é a média dessas classificações que eles teriam recebido se não fossem iguais. Como exemplo, considere uma amostra ascendente composta por 7 elementos: 22, 23, 25, 25, 25, 28, 30. Os valores 22 e 23 ocorrem uma vez, então suas classificações são respectivamente iguais a R22=1 e R23 =2. O valor 25 ocorre 3 vezes. Se esses valores não se repetissem, suas classificações seriam iguais a 3, 4, 5. Portanto, sua classificação R25 é igual à média aritmética de 3, 4 e 5: . Os valores 28 e 30 não se repetem, então suas classificações são respectivamente R28=6 e R30=7. Por fim, temos a seguinte correspondência:

3. A quantidade total de classificações deve corresponder à calculada, que é determinada pela fórmula:

onde n é o número total de valores classificados.

A discrepância entre os valores reais e calculados de ranks indicará um erro cometido no cálculo de ranks ou sua soma. Nesse caso, você precisa encontrar e corrigir o erro.

O coeficiente de correlação de classificação de Spearman é um método que permite determinar a força e a direção do relacionamento entre dois recursos ou duas hierarquias de recursos. O uso do coeficiente de correlação de classificação tem várias limitações:

  • a) A correlação esperada deve ser monótona.
  • b) O volume de cada uma das amostras deve ser maior ou igual a 5. Para determinar o limite superior da amostra, são utilizadas tabelas de valores críticos​​(Tabela 3 do Anexo). O valor máximo de n na tabela é 40.
  • c) Durante a análise, é provável que ocorra um grande número de classificações idênticas. Neste caso, uma alteração precisa ser feita. O caso mais favorável é quando ambas as amostras estudadas representam duas sequências de valores incompatíveis.

Para realizar uma análise de correlação, o pesquisador deve ter duas amostras que possam ser classificadas, por exemplo:

  • - dois sinais medidos no mesmo grupo de sujeitos;
  • - duas hierarquias de traços individuais identificadas em dois sujeitos para o mesmo conjunto de traços;
  • - duas hierarquias de atributos de grupo;
  • - hierarquias de atributos individuais e de grupo.

Começamos o cálculo classificando os indicadores estudados separadamente para cada um dos sinais.

Analisemos um caso com duas características medidas no mesmo grupo de sujeitos. Primeiro, os valores individuais são classificados de acordo com o primeiro atributo obtido por diferentes sujeitos e, em seguida, os valores individuais de acordo com o segundo atributo. Se as classificações mais baixas de um indicador corresponderem às classificações mais baixas de outro indicador e as classificações mais altas de um indicador corresponderem às classificações mais altas de outro indicador, as duas características estarão positivamente relacionadas. Se as classificações mais altas de um indicador corresponderem às classificações mais baixas de outro indicador, os dois sinais estão negativamente relacionados. Para encontrar rs, determinamos as diferenças entre as classificações (d) para cada sujeito. Quanto menor a diferença entre os ranks, mais próximo o coeficiente de correlação de ranks rs estará de "+1". Se não houver relacionamento, então não haverá correspondência entre eles, portanto rs será próximo de zero. Quanto maior a diferença entre as classificações dos sujeitos em duas variáveis, mais próximo de "-1" será o valor do coeficiente rs. Assim, o coeficiente de correlação de postos de Spearman é uma medida de qualquer relação monotônica entre as duas características em estudo.

Considere o caso com duas hierarquias de recursos individuais identificadas em dois assuntos para o mesmo conjunto de recursos. Nesta situação, os valores individuais obtidos por cada um dos dois sujeitos de acordo com um determinado conjunto de características são classificados. A característica com o valor mais baixo deve ser atribuída à primeira classificação; o atributo com um valor mais alto - a segunda classificação, etc. Deve-se tomar cuidado para garantir que todos os atributos sejam medidos nas mesmas unidades. Por exemplo, é impossível classificar indicadores se eles forem expressos em pontos de “preço” diferentes, pois é impossível determinar qual dos fatores ocupará o primeiro lugar em termos de gravidade até que todos os valores sejam trazidos para um único escala. Se características que têm baixas classificações em um dos assuntos também têm baixas classificações no outro, e vice-versa, então as hierarquias individuais estão positivamente relacionadas.

No caso de duas hierarquias de características de grupo, os valores médios de grupo obtidos em dois grupos de sujeitos são classificados de acordo com o mesmo conjunto de características para os grupos estudados. Em seguida, seguimos o algoritmo dado nos casos anteriores.

Vamos analisar o caso com hierarquia de características individuais e de grupo. Eles começam classificando separadamente os valores individuais do sujeito e os valores médios do grupo de acordo com o mesmo conjunto de características que foram obtidas, com exceção do sujeito que não participa da hierarquia média do grupo, pois seu indivíduo hierarquia será comparada com ela. A correlação de classificação torna possível avaliar o grau de consistência entre a hierarquia de recursos individual e de grupo.

Vamos considerar como a significância do coeficiente de correlação é determinada nos casos listados acima. No caso de duas características, será determinado pelo tamanho da amostra. No caso de duas hierarquias de recursos individuais, a significância depende do número de recursos incluídos na hierarquia. Nos dois últimos casos, a significância é determinada pelo número de características estudadas, e não pelo tamanho dos grupos. Assim, a significância de rs em todos os casos é determinada pelo número de valores classificados n.

Ao testar a significância estatística de rs, são usadas tabelas de valores críticos do coeficiente de correlação de classificação, compiladas para diferentes números de valores classificados e diferentes níveis de significância. Se o valor absoluto de rs atingir um valor crítico ou ultrapassá-lo, então a correlação é significativa.

Ao considerar a primeira opção (um caso com duas características medidas no mesmo grupo de sujeitos), as seguintes hipóteses são possíveis.

H0: A correlação entre as variáveis ​​xey não é diferente de zero.

H1: A correlação entre as variáveis ​​xey é significativamente diferente de zero.

Se trabalharmos com qualquer um dos três casos restantes, precisamos apresentar outro par de hipóteses:

H0: A correlação entre as hierarquias xey é diferente de zero.

H1: A correlação entre as hierarquias xey é significativamente diferente de zero.

A sequência de ações no cálculo do coeficiente de correlação de posto de Spearman rs é a seguinte.

  • - Determinar quais dois recursos ou duas hierarquias de recursos participarão da correspondência como variáveis ​​xey.
  • - Classifique os valores da variável x, atribuindo a classificação 1 ao menor valor, de acordo com as regras de classificação. Coloque as fileiras na primeira coluna da tabela na ordem dos números dos assuntos ou sinais.
  • - Classifique os valores da variável y. Coloque as fileiras na segunda coluna da tabela na ordem dos números dos assuntos ou sinais.
  • - Calcule as diferenças d entre os postos xey para cada linha da tabela. Os resultados são colocados na próxima coluna da tabela.
  • - Calcular as diferenças ao quadrado (d2). Coloque os valores obtidos na quarta coluna da tabela.
  • - Calcular a soma dos quadrados das diferenças? d2.
  • - Se ocorrerem as mesmas classificações, calcule as correções:

onde tx é o volume de cada grupo de postos iguais na amostra x;

ty é o tamanho de cada grupo de ranks iguais na amostra y.

Calcule o coeficiente de correlação de posto dependendo da presença ou ausência de postos idênticos. Na ausência de classificações idênticas, o coeficiente de correlação de classificação rs é calculado usando a fórmula:

Na presença das mesmas classificações, o coeficiente de correlação de classificação rs é calculado usando a fórmula:

onde?d2 é a soma dos quadrados das diferenças entre os postos;

Tx e Ty - correções para os mesmos ranks;

n é o número de sujeitos ou recursos que participaram do ranking.

Determine os valores críticos de rs da tabela 3 do Apêndice, para um determinado número de sujeitos n. Uma diferença significativa de zero do coeficiente de correlação será observada desde que rs não seja menor que o valor crítico.

A análise de correlação é um método que permite detectar relações entre um certo número de variáveis ​​aleatórias. O objetivo da análise de correlação é identificar uma estimativa da força das conexões entre tais variáveis ​​aleatórias ou características que caracterizam certos processos reais.

Hoje propomos considerar como a análise de correlação de Spearman é usada para exibir visualmente as formas de conexão na negociação prática.

Correlação de Spearman ou a base da análise de correlação

Para entender o que é a análise de correlação, deve-se primeiro entender o conceito de correlação.

Ao mesmo tempo, se o preço começar a se mover na direção que você precisa, é necessário desbloquear posições a tempo.


Para esta estratégia, que se baseia em análise de correlação, instrumentos de negociação com alto grau de correlação (EUR/USD e GBP/USD, EUR/AUD e EUR/NZD, AUD/USD e NZD/USD, contratos CFD, etc.) .

Vídeo: Aplicando a Correlação Spearman ao Mercado Forex

37. Coeficiente de correlação de postos de Spearman.

S. 56 (64) 063.JPG

http://psystat.at.ua/publ/1-1-0-33

O coeficiente de correlação de posto de Spearman é usado quando:
- as variáveis ​​têm escala de classificação Medidas;
- a distribuição de dados é muito diferente da normal ou nada conhecido
- as amostras são pequenas (N< 30).

A interpretação do coeficiente de correlação de postos de Spearman não difere do coeficiente de Pearson, mas seu significado é um pouco diferente. Para entender a diferença entre esses métodos e fundamentar logicamente as áreas de sua aplicação, vamos comparar suas fórmulas.

Coeficiente de correlação de Pearson:

Coeficiente de correlação de Spearman:

Como você pode ver, as fórmulas diferem significativamente. Comparar fórmulas

A fórmula de correlação de Pearson usa a média aritmética e o desvio padrão da série correlacionada, enquanto a fórmula de Spearman não. Assim, para obter um resultado adequado segundo a fórmula de Pearson, é necessário que a série correlacionada esteja próxima da distribuição normal (a média e o desvio padrão são parâmetros de distribuição normal). Para a fórmula de Spearman, isso não é relevante.

Um elemento da fórmula de Pearson é a padronização de cada série em pontuação z.

Como você pode ver, a conversão das variáveis ​​para a escala Z está presente na fórmula do coeficiente de correlação de Pearson. Assim, para o coeficiente de Pearson, a escala dos dados é absolutamente irrelevante: por exemplo, podemos correlacionar duas variáveis, uma das quais tem um valor mínimo. = 0 e máx. = 1, e o segundo min. = 100 e máx. = 1000. Não importa quão diferente seja o intervalo de valores, todos eles serão convertidos em valores z padrão com a mesma escala.

Não existe tal normalização no coeficiente de Spearman, então

UMA CONDIÇÃO OBRIGATÓRIA PARA A UTILIZAÇÃO DO COEFICIENTE SPEERMAN É A IGUALDADE DA FAIXA DE DUAS VARIÁVEIS.

Antes de usar o coeficiente de Spearman para séries de dados com diferentes faixas, é necessário classificação. A classificação leva ao fato de que os valores dessas séries adquirem o mesmo mínimo = 1 (classificação mínima) e um máximo igual ao número de valores (máximo, última classificação = N, ou seja, o número máximo de casos no amostra).

Em que casos é possível fazer sem classificação

Estes são casos em que os dados são originalmente escala de classificação. Por exemplo, o teste de orientações de valor Rokeach.

Além disso, são casos em que o número de opções de valor é pequeno e existem mínimos e máximos fixos na amostra. Por exemplo, no diferencial semântico, mínimo = 1, máximo = 7.

Um exemplo de cálculo do coeficiente de correlação de classificação de Spearman

O teste de orientação de valor de Rokeach foi realizado em duas amostras X e Y. Tarefa: descobrir quão próximas são as hierarquias de valor dessas amostras (literalmente, quão semelhantes elas são).

O valor resultante r = 0,747 é verificado em relação tabela de valor crítico. De acordo com a tabela, em N=18, o valor obtido é confiável ao nível de p<=0,005

Coeficientes de correlação de classificação de acordo com Spearman e Kendal

Para variáveis ​​pertencentes à escala ordinal ou para variáveis ​​que não seguem uma distribuição normal, bem como para variáveis ​​pertencentes à escala intervalar, calcula-se a correlação de postos de Spearman em vez do coeficiente de Pearson. Para fazer isso, os valores individuais das variáveis ​​são atribuídos a posições de classificação, que são posteriormente processadas usando as fórmulas apropriadas. Para revelar a correlação de classificação, desmarque a caixa de seleção Correlação de Pearson padrão na caixa de diálogo Correlações bivariadas.... Em vez disso, ative o cálculo de correlação de Spearman. Este cálculo dará os seguintes resultados. Os coeficientes de correlação de posto estão muito próximos dos valores correspondentes dos coeficientes de Pearson (as variáveis ​​originais têm uma distribuição normal).

titkova-matmetody.pdf p. 45

O método de correlação de classificação de Spearman permite determinar a rigidez (força) e a direção

correlação entre dois sinais ou dois perfis (hierarquias) sinais.

Para calcular a correlação de posto, é necessário ter duas séries de valores,

que pode ser classificado. Esses intervalos de valores podem ser:

1) dois sinais medida no mesmo grupo sujeitos de teste;

2) duas hierarquias de recursos individuais, identificados em dois sujeitos para o mesmo

um conjunto de recursos;

3) dois hierarquias de grupos de recursos,

4) individual e em grupo hierarquia de recursos.

Primeiro, os indicadores são classificados separadamente para cada uma das características.

Como regra, um valor mais baixo de um recurso é atribuído a uma classificação mais baixa.

No primeiro caso (duas características), os valores individuais são classificados de acordo com o primeiro

traço obtido por diferentes sujeitos, e depois valores individuais para o segundo

sinal.

Se dois signos estão positivamente relacionados, então os sujeitos com classificações baixas em

um deles terá classificações baixas no outro, e os sujeitos com classificações altas em

uma das características também terá classificações altas na outra característica. Para contar rs

é necessário determinar as diferenças (d) entre as classificações obtidas por esses sujeitos em ambos

sinais. Então esses indicadores d são transformados de uma certa maneira e subtraídos de 1. Então

quanto menor a diferença entre os ranks, maior será rs, mais próximo estará de +1.

Se não houver correlação, todos os ranks serão misturados e não haverá

nenhuma partida. A fórmula é projetada para que, neste caso, rs seja próximo de 0.

Em caso de correlação negativa baixas classificações de assuntos em uma base

corresponderá a classificações altas em outro atributo e vice-versa. Quanto mais incompatibilidade

entre as classificações dos sujeitos em duas variáveis, quanto mais próximo rs estiver de -1.

No segundo caso (dois perfis individuais), Individual

valores obtidos por cada um dos 2 sujeitos de acordo com um certo (o mesmo para eles

ambos) um conjunto de recursos. A primeira classificação receberá a característica com o menor valor; segundo lugar -

um sinal com um valor mais alto, etc. Obviamente, todas as características devem ser medidas em

as mesmas unidades, caso contrário a classificação é impossível. Por exemplo, é impossível

classificar os indicadores de acordo com o Cattell Personality Questionnaire (16PF), se estiverem expressos em

pontuações "cruas", uma vez que as faixas de valores são diferentes para diferentes fatores: de 0 a 13, de 0 a

20 e de 0 a 26. Não podemos dizer qual dos fatores terá o primeiro lugar em termos de

gravidade, até trazermos todos os valores para uma única escala (na maioria das vezes esta é a escala das paredes).

Se as hierarquias individuais de dois sujeitos estão positivamente relacionadas, então os sinais

ter posto baixo em um deles terá posto baixo no outro, e vice-versa.

Por exemplo, se para um sujeito o fator E (dominância) tem a classificação mais baixa, então para

outro sujeito, deve ter uma classificação baixa se um sujeito tiver fator C

(estabilidade emocional) tem o posto mais alto, então o outro sujeito também deve ter

este fator tem uma classificação alta, e assim por diante.

No terceiro caso (dois perfis de grupo), os valores médios do grupo são classificados,

recebido em 2 grupos de sujeitos de acordo com um certo, idêntico para dois grupos, definido

sinais. No que segue, a linha de raciocínio é a mesma dos dois casos anteriores.

No caso do 4º (perfis individual e grupal), eles são classificados separadamente

valores individuais do sujeito e valores médios do grupo para o mesmo conjunto

sinais que são obtidos, via de regra, com a exclusão desse sujeito individual - ele

não participa do perfil médio do grupo, com o qual seu indivíduo será comparado

perfil. A correlação de classificação permitirá que você verifique o quão consistente o indivíduo e

perfis do grupo.

Em todos os quatro casos, a significância do coeficiente de correlação obtido é determinada por

por número de valores classificados N. No primeiro caso, este número coincidirá com

tamanho da amostra m No segundo caso, o número de observações será o número de feições,

constituindo uma hierarquia. No terceiro e quarto casos, N é também o número de

sinais, não o número de sujeitos em grupos. Explicações detalhadas são fornecidas nos exemplos. Se um

o valor absoluto de rs atinge um valor crítico ou o excede, a correlação

confiável.

Hipóteses.

Existem duas hipóteses possíveis. O primeiro refere-se ao caso 1, o segundo aos outros três

A primeira versão das hipóteses

H0: A correlação entre as variáveis ​​A e B não é diferente de zero.

H2: A correlação entre as variáveis ​​A e B é significativamente diferente de zero.

A segunda versão das hipóteses

H0: A correlação entre as hierarquias A e B não é diferente de zero.

H2: A correlação entre as hierarquias A e B é significativamente diferente de zero.

Limitações do coeficiente de correlação de classificação

1. Devem ser apresentadas pelo menos 5 observações para cada variável. Superior

o limite de amostragem é determinado pelas tabelas disponíveis de valores críticos .

2. coeficiente de correlação de posto de Spearman rs com um grande número de

ranks para uma ou ambas as variáveis ​​combinadas fornecem valores grosseiros. Idealmente

ambas as séries correlacionadas devem ser duas sequências de não-correspondência

valores. Se esta condição não for atendida, um ajuste deve ser feito para

as mesmas fileiras.

O coeficiente de correlação de posto de Spearman é calculado pela fórmula:

Se em ambas as séries de classificação comparadas houver grupos com as mesmas classificações,

antes de calcular o coeficiente de correlação de posto, é necessário corrigir para o mesmo

classifica Ta e Tv:

Ta \u003d Σ (a3 - a) / 12,

TV \u003d Σ (v3 - c) / 12,

Onde uma - o volume de cada grupo de postos idênticos na série de postos A, em volume de cada

grupos de ranks iguais na série de ranks B.

Para calcular o valor empírico de rs, use a fórmula:

38. Coeficiente de correlação bisserial pontilhada.

Para correlação em geral, veja a pergunta nº 36 com. 56 (64) 063.JPG

harchenko-korranaliz.pdf

Seja a variável X medida em uma escala forte e a variável Y em uma escala dicotômica. O coeficiente de correlação bisserial pontual rpb é calculado pela fórmula:

Aqui x 1 é o valor médio para objetos X com o valor "um" para Y;

x 0 - o valor médio para objetos X com valor "zero" para Y;

s x - desvio padrão de todos os valores para X;

n 1 - o número de objetos "um" em Y, n 0 - o número de objetos "zero" em Y;

n = n 1 + n 0 é o tamanho da amostra.

O coeficiente de correlação bisserial de ponto também pode ser calculado usando outras expressões equivalentes:

aqui xé o valor médio geral para a variável X.

Coeficiente de Correlação Bisserial de Pontos rpb varia de –1 a +1. Seu valor é igual a zero no caso de variáveis ​​com unidade de S tem uma média S, igual à média das variáveis ​​com zero sobre S.

Exame hipóteses de significância coeficiente de correlação bisserial de ponto é verificar hipótese nulah 0 sobre a igualdade do coeficiente de correlação geral a zero: ρ = 0, que é realizado usando o critério de Student. Valor empírico

comparado com valores críticos t uma (df) para o número de graus de liberdade df = n– 2

Se a condição | t| ≤ ta(df), a hipótese nula ρ = 0 não é rejeitada. O coeficiente de correlação bisserial pontual difere significativamente de zero se o valor empírico | t| cai na região crítica, ou seja, se a condição | t| > ta(n– 2). Confiabilidade da relação calculada usando o coeficiente de correlação bisserial de pontos rpb, também pode ser determinado usando o critério χ 2 para o número de graus de liberdade df= 2.

Correlação ponto-bisserial

A modificação subsequente do coeficiente de correlação do produto de momentos refletiu-se na bisserial pontilhada r. Esta estatística. mostra a relação entre duas variáveis, uma das quais é supostamente contínua e normalmente distribuída, e a outra é discreta no sentido exato da palavra. O coeficiente de correlação ponto-bisserial é denotado por r pbis Porque em r pbis a dicotomia reflete a verdadeira natureza da variável discreta, não sendo artificial, como no caso r bis, seu sinal é determinado arbitrariamente. Portanto, para todas as práticas metas r pbis considerado na faixa de 0,00 a +1,00.

Existe também um caso quando duas variáveis ​​são consideradas contínuas e normalmente distribuídas, mas ambas são artificialmente dicotomizadas, como no caso da correlação bisserial. Para avaliar a relação entre tais variáveis, utiliza-se o coeficiente de correlação tetracórica r tet, que também foi criado por Pearson. Principal (exatas) fórmulas e procedimentos para calcular r tet são bastante complexos. Portanto, com a prática. este método usa as aproximações r tet obtidos com base em procedimentos e tabelas reduzidos.

/online/dictionary/dictionary.php?term=511

COEFICIENTE DE CORRELAÇÃO BISERIAL PONTILHADOé o coeficiente de correlação entre duas variáveis, uma das quais é medida em escala dicotômica e a outra em escala intervalar. É usado na testologia clássica e moderna como um indicador da qualidade de uma tarefa de teste - confiabilidade-consistência com a pontuação geral do teste.

Para correlacionar variáveis ​​medidas em escala dicotômica e intervalar usar coeficiente de correlação ponto-bisserial.
O coeficiente de correlação ponto-bisserial é um método de análise de correlação da razão de variáveis, uma das quais é medida na escala de nomes e leva apenas 2 valores (por exemplo, homens / mulheres, a resposta está correta / a resposta está incorreto, há um sinal / não há nenhum sinal) e o segundo nas proporções de escala ou escala de intervalo. A fórmula para calcular o coeficiente de correlação ponto-bisserial:

Onde:
m1 e m0 são os valores médios de X com um valor de 1 ou 0 em Y.
σx é o desvio padrão de todos os valores para X
n1 ,n0 – número de valores X de 1 ou 0 a Y.
n é o número total de pares de valores

Na maioria das vezes, esse tipo de coeficiente de correlação é usado para calcular a relação dos itens de teste com uma escala de resumo. Este é um tipo de verificação de validação.

39. Coeficiente de correlação Rank-bisserial.

Para correlação em geral, veja a pergunta nº 36 com. 56 (64) 063.JPG

harchenko-korranaliz.pdf p. 28

O coeficiente de correlação rank-bisserial usado quando uma das variáveis ​​( X) é apresentada em escala ordinal, e a outra ( S) - em dicotômico, calculado pela fórmula

.

Aqui, é a classificação média de objetos com unidade em S; é a classificação média de objetos com zero em S, né o tamanho da amostra.

Exame hipóteses de significância o coeficiente de correlação bisserial é realizado de forma semelhante ao coeficiente de correlação bisserial pontual usando o teste t de Student com substituição nas fórmulas rpb no rrb.

Quando uma variável é medida em uma escala dicotômica (variável x), e outro na escala de ranks (variável Y), utilizando o coeficiente de correlação rank-bisserial. Lembramos que a variável x, medido em uma escala dicotômica, assume apenas dois valores (códigos) 0 e 1. Ressaltemos em particular: apesar de esse coeficiente variar na faixa de –1 a +1, seu sinal não importa para interpretar o resultados. Esta é outra exceção à regra geral.

O cálculo deste coeficiente é feito de acordo com a fórmula:

onde ` X 1 classificação média sobre esses elementos da variável S, que corresponde ao código (recurso) 1 na variável X;

`X 0 – classificação média para esses elementos da variável Y, que corresponde ao código (recurso) 0 na variável X\

N- o número total de elementos na variável x.

Para aplicar o coeficiente de correlação bisserial, as seguintes condições devem ser atendidas:

1. As variáveis ​​que estão sendo comparadas devem ser medidas em diferentes escalas: uma X- em escala dicotômica; outro S– na escala de classificação.

2. O número de recursos variados nas variáveis ​​comparadas X e S deve ser o mesmo.

3. Para avaliar o nível de confiabilidade do coeficiente de correlação rank-biserial, deve-se usar a fórmula (11.9) e a tabela de valores críticos para o teste de Student quando k = n - 2.

http://psystat.at.ua/publ/drugie_vidy_koehfficienta_korreljacii/1-1-0-38

Casos em que uma das variáveis ​​esteja presente em escala dicotômica, e outro em classificação (ordinal), exigem o uso coeficiente de correlação de classificação bisserial:

rpb=2 / n * (m1 - m0)

Onde:
n é o número de objetos de medição
m1 e m0 - a classificação média de objetos com 1 ou 0 na segunda variável.
Este coeficiente também é usado ao verificar a validade dos testes.

40. Coeficiente de correlação linear.

Sobre correlação em geral (e sobre correlação linear em particular), veja a pergunta nº 36 com. 56 (64) 063.JPG

COEFICIENTE DE CORRELAÇÃO DO Sr. PEARSON

r-Pearson (Pearson r) é usado para estudar a relação entre duas métricasoutras variáveis ​​medidas na mesma amostra. Há muitas situações em que é apropriado usá-lo. A inteligência afeta o desempenho nos últimos anos da universidade? O tamanho do salário de um funcionário está relacionado à sua boa vontade em relação aos colegas? O humor do aluno afeta o sucesso na resolução de um problema aritmético complexo? Para responder a tais questões, o pesquisador deve mensurar dois indicadores de interesse de cada membro da amostra. Os dados para estudar a relação são então tabulados, como no exemplo abaixo.

EXEMPLO 6.1

A tabela mostra um exemplo dos dados de medição inicial para dois indicadores de inteligência (verbal e não verbal) em 20 alunos da 8ª série.

A relação entre essas variáveis ​​pode ser representada usando um diagrama de dispersão (veja a Figura 6.3). O diagrama mostra que existe alguma relação entre os indicadores medidos: quanto maior o valor da inteligência verbal, maior (principalmente) maior o valor da inteligência não verbal.

Antes de dar a fórmula do coeficiente de correlação, vamos tentar traçar a lógica de sua ocorrência, usando os dados do Exemplo 6.1. A posição de cada ponto / (sujeito com o número /) no diagrama de dispersão em relação aos outros pontos (Fig. 6.3) pode ser dada pelas magnitudes e sinais dos desvios dos valores correspondentes das variáveis ​​de seus Valores médios: (xj - MJ e (mente no ). Se os sinais desses desvios coincidirem, isso indica a favor de uma relação positiva (grandes valores para X correspondem a grandes valores no ou valores menores para X correspondem a valores menores e).

Para o sujeito nº 1, o desvio da média X e por no positivo, e para o sujeito nº 3, ambos os desvios são negativos. Consequentemente, os dados de ambos indicam uma relação positiva entre as características estudadas. Pelo contrário, se os sinais de desvios da média X e por no diferem, isso indicará uma relação negativa entre os sinais. Assim, para o sujeito nº 4, o desvio da média Xé negativo, de acordo com s- positivo, e para o sujeito nº 9 - vice-versa.

Assim, se o produto dos desvios (x, - M X ) X (mente no ) positivo, os dados do /-sujeito indicam uma relação direta (positiva) e, se negativa, uma relação inversa (negativa). Assim, se XWy são em sua maioria diretamente proporcionais, então a maioria dos produtos dos desvios será positiva, e se eles estiverem relacionados inversamente, então a maioria dos produtos será negativa. Portanto, a soma de todos os produtos dos desvios para uma determinada amostra pode servir como um indicador geral da força e direção da relação:

Com uma relação diretamente proporcional entre as variáveis, esse valor é grande e positivo - para a maioria dos sujeitos, os desvios coincidem em sinal (valores grandes de uma variável correspondem a valores grandes da outra variável e vice-versa). Se X e no tiver feedback, então para a maioria dos sujeitos, valores grandes de uma variável corresponderão a valores menores de outra variável, ou seja, os sinais dos produtos serão negativos, e a soma dos produtos como um todo também será grande em valor absoluto, mas negativo em sinal. Se não houver relação sistemática entre as variáveis, os termos positivos (produtos dos desvios) serão equilibrados pelos termos negativos, e a soma de todos os produtos dos desvios será próxima de zero.

Para que a soma dos produtos não dependa do tamanho da amostra, basta fazer a média. Mas estamos interessados ​​na medida da relação não como um parâmetro geral, mas como uma estimativa calculada dela - estatística. Portanto, quanto à fórmula de dispersão, neste caso faremos o mesmo, dividimos a soma dos produtos dos desvios não por N, e na TV - 1. Acontece uma medida de comunicação, amplamente utilizada em física e ciências técnicas, que é chamada covariância (Covahance):


NO a psicologia, ao contrário da física, a maioria das variáveis ​​é medida em escalas arbitrárias, pois os psicólogos não estão interessados ​​no valor absoluto do traço, mas na posição relativa dos sujeitos no grupo. Além disso, a covariância é muito sensível à escala (dispersão) em que as características são medidas. Para tornar a medida de comunicação independente das unidades de medida de qualquer atributo, basta dividir a covariância nos desvios padrão correspondentes. Assim, foi obtido por-Mula de coeficiente de correlação de K. Pearson:

ou, depois de substituir as expressões para o x e


Se os valores de ambas as variáveis ​​foram convertidos em valores-r usando a fórmula


então a fórmula do coeficiente de correlação r-Pearson parece mais simples (071.JPG):

/dict/sociology/article/soc/soc-0525.htm

CORRELAÇÃO LINEAR- relação linear estatística não causal entre duas variáveis ​​quantitativas X e no. Medido usando o "fator K.L." Pearson, que é o resultado da divisão da covariância pelos desvios padrão de ambas as variáveis:

,

Onde s xy- covariância entre variáveis X e no;

s x , s y- desvios padrão para variáveis X e no;

x eu , y eu- valores variáveis X e no para o número do objeto eu;

x, y- médias aritméticas para variáveis X e no.

Razão de Pearson r pode receber valores do intervalo [-1; +1]. Significado r = 0 significa que não há relação linear entre as variáveis X e no(mas não exclui uma relação estatística não linear). Valores de coeficientes positivos ( r> 0) indicam uma relação linear direta; quanto mais próximo seu valor estiver de +1, mais forte será a relação estatística direta. Valores de coeficientes negativos ( r < 0) свидетельствуют об обратной линейной связи; чем ближе его значение к -1, тем сильнее обратная связь. Значения r= ±1 significa a presença de uma conexão linear completa, direta ou reversa. No caso de uma ligação completa, todos os pontos com coordenadas ( x eu , y eu) está em uma linha reta y = uma + bx.

"Coeficiente K.L." Pearson também é usado para medir a rigidez da relação no modelo de regressão de pares lineares.

41. Matriz de correlação e gráfico de correlação.

Para correlação em geral, veja a pergunta nº 36 com. 56 (64) 063.JPG

matriz de correlação. Freqüentemente, a análise de correlação inclui o estudo da relação não de duas, mas de muitas variáveis ​​medidas em uma escala quantitativa em uma única amostra. Nesse caso, as correlações são calculadas para cada par desse conjunto de variáveis. Os cálculos geralmente são realizados em um computador e o resultado é uma matriz de correlação.

Matriz de correlação(correlação matriz) é o resultado do cálculo de correlações do mesmo tipo para cada par do conjunto R variáveis ​​medidas em uma escala quantitativa em uma amostra.

EXEMPLO

Suponha que estamos estudando relações entre 5 variáveis ​​(vl, v2,..., v5; P= 5), medido em uma amostra de N=30 Humano. Abaixo está uma tabela de dados iniciais e uma matriz de correlação.

E
dados relacionados:

Matriz de correlação:

É fácil ver que a matriz de correlação é quadrada, simétrica em relação à diagonal principal (takkakg, y = /) y), com unidades na diagonal principal (já que G e = Gu = 1).

A matriz de correlação é quadrado: o número de linhas e colunas é igual ao número de variáveis. Ela é simétrico em relação à diagonal principal, uma vez que a correlação X com noé igual a correlação no com X. As unidades estão localizadas em sua diagonal principal, pois a correlação de uma característica consigo mesma é igual a um. Consequentemente, nem todos os elementos da matriz de correlação são passíveis de análise, mas aqueles que estão acima ou abaixo da diagonal principal.

Número de coeficientes de correlação, As características P a serem analisadas no estudo das relações são determinadas pela fórmula: P(P- 1)/2. No exemplo acima, o número de tais coeficientes de correlação é 5(5 - 1)/2 = 10.

A principal tarefa de analisar a matriz de correlações é revelando a estrutura de inter-relações de um conjunto de feições. Isso permite uma análise visual plêiades de correlação- imagem gráfica estruturas estatisticamenteconexões significativas se não houver muitas dessas conexões (até 10-15). Outra maneira é usar métodos multivariados: regressão múltipla, análise fatorial ou de cluster (consulte a seção "Métodos multivariados..."). Por meio da análise fatorial ou de cluster, é possível identificar agrupamentos de variáveis ​​que estão mais relacionadas entre si do que com outras variáveis. Uma combinação desses métodos também é muito eficaz, por exemplo, se houver muitos sinais e eles não forem homogêneos.

Comparação de correlações - uma tarefa adicional de analisar a matriz de correlação, que tem duas opções. Se for necessário comparar correlações em uma das linhas da matriz de correlação (para uma das variáveis), aplica-se o método de comparação para amostras dependentes (pp. 148-149). Ao comparar correlações de mesmo nome calculadas para amostras diferentes, é usado o método de comparação para amostras independentes (pp. 147-148).

Métodos de comparação correlações em diagonais matriz de correlação (para avaliar a estacionariedade de um processo aleatório) e comparar de várias matrizes de correlação obtidas para diferentes amostras (por sua homogeneidade) são demoradas e estão além do escopo deste livro. Você pode se familiarizar com esses métodos no livro de GV Sukhodolsky 1 .

O problema da significância estatística das correlações. O problema é que o procedimento de teste de hipótese estatística envolve 1-múltiplo teste realizado em uma amostra. Se o mesmo método for aplicado muitas vezes, mesmo que em relação a diferentes variáveis, a probabilidade de obter um resultado puramente por acaso aumenta. Em geral, se repetirmos o mesmo método de teste de hipóteses às vezes em relação a diferentes variáveis ​​ou amostras, então com o valor estabelecido de a, temos a garantia de receber a confirmação da hipótese em ahk o número de casos.

Vamos supor que a matriz de correlação para 15 variáveis ​​seja analisada, ou seja, são calculados 15(15-1)/2 = 105 coeficientes de correlação. Para testar as hipóteses, é definido o nível a = 0,05. Testando a hipótese 105 vezes, obteremos sua confirmação cinco vezes (!), independentemente de a conexão realmente existir. Sabendo disso e tendo recebido, digamos, 15 coeficientes de correlação "estatisticamente significativos", podemos dizer quais deles são obtidos por acaso e quais refletem uma relação real?

A rigor, para tomar uma decisão estatística, é necessário reduzir o nível a tantas vezes quanto o número de hipóteses testadas. Mas isso dificilmente é aconselhável, pois a probabilidade de ignorar uma conexão realmente existente (cometa um erro do tipo II) aumenta de maneira imprevisível.

A matriz de correlação por si só não é uma base suficientepara conclusões estatísticas sobre os coeficientes individuais incluídos nelecorrelações!

Existe apenas uma maneira realmente convincente de resolver esse problema: dividir a amostra aleatoriamente em duas partes e levar em consideração apenas as correlações estatisticamente significativas em ambas as partes da amostra. Uma alternativa pode ser a utilização de métodos multivariados (análise fatorial, cluster ou regressão múltipla) - para a seleção e posterior interpretação de grupos de variáveis ​​relacionadas estatisticamente significantes.

O problema dos valores ausentes. Se houver valores ausentes nos dados, duas opções para calcular a matriz de correlação são possíveis: a) exclusão de valores linha por linha (excluircasoslista); b) exclusão aos pares de valores (excluircasosemparelhados). No eliminação linha a linha observações com lacunas, toda a linha é excluída para o objeto (sujeito) que possui pelo menos um valor ausente para uma das variáveis. Este método leva a uma matriz de correlação "correta" no sentido de que todos os coeficientes são calculados a partir do mesmo conjunto de objetos. No entanto, se os valores ausentes forem distribuídos aleatoriamente nas variáveis, esse método pode levar ao fato de que não restará um único objeto no conjunto de dados considerado (cada linha conterá pelo menos um valor ausente). Para evitar essa situação, use outro método chamado remoção em pares. Esse método leva em consideração apenas as lacunas em cada par selecionado de colunas de variáveis ​​e ignora as lacunas em outras variáveis. A correlação para um par de variáveis ​​é calculada para aqueles objetos onde não há lacunas. Em muitas situações, especialmente quando o número de lacunas é relativamente pequeno, digamos 10%, e as lacunas são distribuídas de forma bastante aleatória, esse método não leva a erros graves. No entanto, às vezes este não é o caso. Por exemplo, no viés sistemático (deslocamento) da estimativa, a localização sistemática das lacunas pode ser “oculta”, razão pela qual a diferença nos coeficientes de correlação construídos em diferentes subconjuntos (por exemplo, para diferentes subgrupos de objetos ). Outro problema associado à matriz de correlação calculada com em pares a remoção da lacuna ocorre ao usar essa matriz em outros tipos de análise (por exemplo, em regressão múltipla ou análise fatorial). Eles assumem que uma matriz de correlação "correta" é usada com um certo nível de consistência e "correspondência" de vários coeficientes. O uso de uma matriz com estimativas "ruins" (tendenciosas) leva ao fato de que o programa ou não consegue analisar tal matriz, ou os resultados serão errôneos. Portanto, se for utilizado um método de eliminação de dados faltantes em pares, é necessário verificar se existem ou não padrões sistemáticos na distribuição dos gaps.

Se a eliminação pareada de dados ausentes não levar a nenhuma mudança sistemática nas médias e variâncias (desvios padrão), essas estatísticas serão semelhantes às calculadas com o método linear de remoção de lacunas. Se houver uma diferença significativa, então há razão para supor que há uma mudança nas estimativas. Por exemplo, se a média (ou desvio padrão) dos valores da variável MAS, que foi usado no cálculo de sua correlação com a variável NO, muito menor que a média (ou desvio padrão) dos mesmos valores da variável MAS, que foram usados ​​no cálculo de sua correlação com a variável C, então há todas as razões para esperar que essas duas correlações (A-Bnós) com base em diferentes subconjuntos de dados. Haverá uma mudança nas correlações causada pela localização não aleatória das lacunas nos valores das variáveis.

Análise de plêiades de correlação. Após resolver o problema da significância estatística dos elementos da matriz de correlação, as correlações estatisticamente significativas podem ser representadas graficamente na forma de uma plêiade de correlação ou plêiades. Galáxia de correlação -é uma figura que consiste em vértices e linhas que os conectam. Os vértices correspondem às feições e geralmente são denotados por números - os números das variáveis. As linhas correspondem a relações estatisticamente significativas e expressam graficamente o sinal e, às vezes, o nível de significância /j da relação.

A galáxia de correlação pode refletir tudo relações estatisticamente significativas da matriz de correlação (às vezes chamado gráfico de correlação ) ou apenas sua parte significativamente selecionada (por exemplo, correspondendo a um fator de acordo com os resultados da análise fatorial).

EXEMPLO DE CONSTRUÇÃO DE UMA CORRELAÇÃO PLEIADI


Preparação para a certificação estadual (final) de graduados: formação do banco de dados USE (lista geral de participantes USE de todas as categorias, indicando disciplinas) - levando em consideração dias de reserva em caso de coincidência de disciplinas;

  • Plano de trabalho (27)

    Decisão

    2. As atividades da instituição educacional para melhorar o conteúdo e avaliar a qualidade nas disciplinas de educação natural e matemática MOU escola secundária No. 4, Litvinovskaya, Chapaevskaya,

  • é uma avaliação quantitativa do estudo estatístico da relação entre fenômenos, utilizado em métodos não paramétricos.

    O indicador mostra como a soma observada das diferenças quadradas entre os ranks difere do caso de nenhuma conexão.

    Atribuição de serviço. Com esta calculadora online, você pode:

    • cálculo do coeficiente de correlação de postos de Spearman;
    • cálculo do intervalo de confiança para o coeficiente e avaliação de sua significância;

    Coeficiente de correlação de posto de Spearman refere-se aos indicadores da avaliação da proximidade da comunicação. Uma característica qualitativa da rigidez da relação do coeficiente de correlação de postos, bem como outros coeficientes de correlação, podem ser avaliados usando a escala de Chaddock.

    Cálculo do coeficiente consiste nos seguintes passos:

    Propriedades do coeficiente de correlação de postos de Spearman

    Area de aplicação. Coeficiente de correlação de classificação usado para avaliar a qualidade da comunicação entre dois conjuntos. Além disso, sua significância estatística é usada ao analisar dados para heterocedasticidade.

    Exemplo. Em uma amostra de dados de variáveis ​​observadas X e Y:

    1. fazer uma tabela de classificação;
    2. encontre o coeficiente de correlação de posto de Spearman e teste sua significância no nível 2a
    3. avaliar a natureza do vício
    Decisão. Atribua classificações ao recurso Y e ao fator X .
    XSclassificação X, dxclassificação Y, d y
    28 21 1 1
    30 25 2 2
    36 29 4 3
    40 31 5 4
    30 32 3 5
    46 34 6 6
    56 35 8 7
    54 38 7 8
    60 39 10 9
    56 41 9 10
    60 42 11 11
    68 44 12 12
    70 46 13 13
    76 50 14 14

    Matriz de classificação.
    classificação X, dxclassificação Y, d y(dx - dy) 2
    1 1 0
    2 2 0
    4 3 1
    5 4 1
    3 5 4
    6 6 0
    8 7 1
    7 8 1
    10 9 1
    9 10 1
    11 11 0
    12 12 0
    13 13 0
    14 14 0
    105 105 10

    Verificando a exatidão da compilação da matriz com base no cálculo da soma de verificação:

    A soma sobre as colunas da matriz são iguais entre si e a soma de verificação, o que significa que a matriz está composta corretamente.
    Usando a fórmula, calculamos o coeficiente de correlação de postos de Spearman.


    A relação entre o traço Y e o fator X é forte e direta
    Significado do coeficiente de correlação de posto de Spearman
    Para testar a hipótese nula ao nível de significância α sobre a igualdade do coeficiente geral de correlação de postos de Spearman a zero sob a hipótese concorrente H i . p ≠ 0, é necessário calcular o ponto crítico:

    onde n é o tamanho da amostra; ρ é o coeficiente de correlação do posto amostral de Spearman: t(α, k) é o ponto crítico da região crítica bilateral, que é encontrado a partir da tabela de pontos críticos da distribuição de Student, de acordo com o nível de significância α e o número de graus de liberdade k = n-2.
    Se |p|< Т kp - нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между качественными признаками не значима. Если |p| >T kp - hipótese nula é rejeitada. Existe uma correlação de classificação significativa entre as características qualitativas.
    De acordo com a tabela de Student encontramos t(α/2, k) = (0,1/2;12) = 1,782

    Desde T kp< ρ , то отклоняем гипотезу о равенстве 0 коэффициента ранговой корреляции Спирмена. Другими словами, коэффициент ранговой корреляции статистически - значим и ранговая корреляционная связь между оценками по двум тестам значимая.

    Na prática, o coeficiente de correlação de posto de Spearman (P) é frequentemente usado para determinar a proximidade da relação entre duas características. Os valores de cada recurso são classificados em ordem crescente (de 1 a n), então é determinada a diferença (d) entre as classificações correspondentes a uma observação.

    Exemplo 1. A relação entre o volume de produção industrial e os investimentos em capital fixo em 10 regiões de um dos distritos federais da Federação Russa em 2003 é caracterizada pelos dados a seguir.
    Calcular Coeficientes de correlação de postos de Spearman e Kendala. Verifique sua significância em α=0,05. Formule uma conclusão sobre a relação entre o volume de produção industrial e os investimentos em ativos fixos nas regiões da Federação Russa em consideração.

    Atribua classificações ao recurso Y e ao fator X . Encontre a soma da diferença dos quadrados d 2 .
    Usando a calculadora, calculamos o coeficiente de correlação de posto de Spearman:

    X S classificação X, dx classificação Y, d y (dx - dy) 2
    1.3 300 1 2 1
    1.8 1335 2 12 100
    2.4 250 3 1 4
    3.4 946 4 8 16
    4.8 670 5 7 4
    5.1 400 6 4 4
    6.3 380 7 3 16
    7.5 450 8 5 9
    7.8 500 9 6 9
    17.5 1582 10 16 36
    18.3 1216 11 9 4
    22.5 1435 12 14 4
    24.9 1445 13 15 4
    25.8 1820 14 19 25
    28.5 1246 15 10 25
    33.4 1435 16 14 4
    42.4 1800 17 18 1
    45 1360 18 13 25
    50.4 1256 19 11 64
    54.8 1700 20 17 9
    364

    A relação entre a característica Y fator X é forte e direta.

    Estimativa do coeficiente de correlação de postos de Spearman



    De acordo com a tabela de Student, encontramos Ttable.
    Tabela T \u003d (18; 0,05) \u003d 1,734
    Como Tobs > Ttabl, rejeitamos a hipótese de que o coeficiente de correlação de postos seja igual a zero. Em outras palavras, o coeficiente de correlação de postos de Spearman é estatisticamente significativo.

    Estimativa de intervalo para o coeficiente de correlação de classificação (intervalo de confiança)
    Intervalo de confiança para o coeficiente de correlação de postos de Spearman: p(0,5431;0,9095).

    Exemplo #2. Dados iniciais.

    5 4
    3 4
    1 3
    3 1
    6 6
    2 2
    Como a matriz tem ranks relacionados (o mesmo número de rank) da 1ª linha, vamos reformulá-los. Os ranks são reformados sem alterar a importância do rank, ou seja, as razões correspondentes (maior, menor ou igual a) devem ser preservadas entre os números de rank. Também não é recomendado definir o rank acima de 1 e abaixo do valor igual ao número de parâmetros (neste caso n = 6). A reforma das fileiras é feita na tabela.
    Novas classificações
    1 1 1
    2 2 2
    3 3 3.5
    4 3 3.5
    5 5 5
    6 6 6
    Como existem fileiras vinculadas da 2ª linha na matriz, vamos reformulá-las. A reforma das fileiras é feita na tabela.
    Números de assentos na fila ordenadaLocalização dos fatores de acordo com a avaliação do especialistaNovas classificações
    1 1 1
    2 2 2
    3 3 3
    4 4 4.5
    5 4 4.5
    6 6 6
    Matriz de classificação.
    classificação X, dxclassificação Y, d y(dx - dy) 2
    5 4.5 0.25
    3.5 4.5 1
    1 3 4
    3.5 1 6.25
    6 6 0
    2 2 0
    21 21 11.5
    Uma vez que entre os valores dos recursos x e y existem vários idênticos, ou seja, fileiras vinculadas são formadas, então, neste caso, o coeficiente de Spearman é calculado como:

    Onde


    j - números de links em ordem para o recurso x;
    E j é o número de postos idênticos na j-ésima cesta em x;
    k - número de roldanas em ordem para o recurso y;
    Em k - o número de postos idênticos na k-ésima cesta em y.
    A = [(2 3 -2)]/12 = 0,5
    B = [(2 3 -2)]/12 = 0,5
    D = A + B = 0,5 + 0,5 = 1

    A relação entre a característica Y e o fator X é moderada e direta.