Pontuação total. Estabeleça padrões de desempenho de teste


Resultados do teste de dimensionamento

Stevens (1946) identificou 4 níveis de escalas de medida, diferindo no grau em que as estimativas que lhes pertencem retêm as propriedades do conjunto dos números reais. Estas são as escalas:

Nominal (ou nominativo, escala de nomenclatura)

Ordinal

Intervalo

Escala de relacionamento.

Interpretação dos resultados do teste

Em testes com interpretação orientada para a norma a principal tarefa é determinar o lugar comparativo de cada um dos testados no grupo geral de assuntos. Obviamente, o lugar de cada sujeito depende da formação de qual grupo ele é avaliado. O mesmo resultado pode ser classificado como bastante alto se o grupo for fraco, e bastante baixo se o grupo for forte. É por isso que é necessário, se possível, usar normas que reflitam os resultados do teste por uma grande amostra representativa de sujeitos.

Em testes com interpretação orientada a critérios a tarefa é comparar as realizações educacionais de cada aluno com a quantidade de conhecimento, habilidades e habilidades planejadas para assimilação. Nesse caso, uma área específica de conteúdo é usada como referencial interpretativo, e não uma ou outra amostra de assuntos. O principal problema é o estabelecimento de uma pontuação de aprovação que separa aqueles que dominam o material testado daqueles que não dominam.

Estabeleça padrões de desempenho de teste

Para eliminar a dependência da interpretação dos resultados de outros participantes do teste, são usados ​​padrões especiais de desempenho do teste e, assim, a pontuação primária de um sujeito de teste individual é comparada com os padrões de desempenho do teste. Normas - trata-se de um conjunto de indicadores que são estabelecidos empiricamente com base nos resultados de um teste por uma amostra bem definida de sujeitos. O desenvolvimento e os procedimentos para obtenção desses indicadores são processo de normalização(ou padronização) teste. As normas mais comuns são a média e o desvio padrão de um conjunto de pontuações individuais. A correlação da pontuação primária do sujeito com os padrões de desempenho permite estabelecer o lugar do sujeito na amostra utilizada para padronizar o teste.

Tipos de escalas usadas para converter pontuações primárias

As conversões mais famosas de pontuações primárias são:

Classificação percentual, refletindo a porcentagem de sujeitos do grupo normativo, cujos resultados são inferiores ou iguais a um determinado valor do escore primário;

Linear Z-avaliação, definida como a razão entre o desvio individual da nota do teste e o desvio padrão para o grupo de sujeitos;

Estimativas que são uma transformação linear z-avaliações (escala T, pontuações padrão de QI, etc.);

Escalas de estanina e parede, que são obtidas dividindo a escala de pontos primários em vários intervalos.

Escala de classificação de percentil

Os percentis permitem definir a classificação do indicador primário do assunto no grupo normativo. A classificação percentual correspondente a uma determinada pontuação primária mostra a porcentagem de indivíduos na amostra normativa cujos resultados não são superiores à pontuação primária fornecida.

Os percentis não devem ser confundidos com porcentagens que representam a porcentagem de tarefas concluídas corretamente pelos sujeitos do grupo. Ao contrário do último - primário - o percentil é um indicador derivado que indica a participação do número total de sujeitos do grupo.

Além da conveniência associada à facilidade de interpretação, as classificações percentuais têm desvantagens significativas. A escala de classificações de percentis não é linear, ou seja, em diferentes áreas da escala de pontuação primária, um aumento de 1 ponto pode corresponder a diferentes aumentos na escala de percentil. Portanto, os percentis não apenas não refletem, mas até distorcem as diferenças reais no resultado do teste.

Portanto, o uso de percentis é bastante limitado. Devido à sua conveniência e simplicidade, eles são usados ​​principalmente em testes normativos para autoavaliação do conhecimento dos alunos, relatando os resultados para os próprios alunos e seus pais.

Escala Z

Converte resultados individuais em uma escala padrão com uma pontuação média geral e uma medida comum de variância. Z- avaliação i-ésimo o aluno é encontrado pela fórmula:

Onde pontuação primária i-ésimo o sujeito; - média de pontuações individuais N grupo de teste ( i=1,2,…,N); é o desvio padrão para o conjunto de pontuações primárias.

Z-escala é padrão com média zero e desvio padrão unitário. Com sua ajuda, você pode trazer as pontuações dos alunos obtidas em vários testes para um formulário conveniente para comparação.

Valor Z-estimativa é igual à distância entre o escore primário considerado e o valor médio das estimativas para o grupo, expresso em unidades de desvio padrão: dentro de quantos desvios padrão está o escore primário do sujeito abaixo ou acima da média do grupo.

Os escores Z, com raras exceções, recebem valores do intervalo (-3, +3). Por ser conveniente para análise científica no processo de desenvolvimento de novos testes, a escala Z é inconveniente para uso prático na avaliação do conhecimento dos sujeitos do grupo. Os escores Z podem assumir valores fracionários e negativos, que são difíceis de trabalhar em cálculos e difíceis de interpretar para usuários de teste. Arredondar Z-scores para valores inteiros nem sempre é aceitável, porque o objetivo principal da criação de provas é identificar diferenças na preparação das disciplinas. Valores negativos de Z-score, que indicam resultados abaixo da média para o grupo de alunos testados, também causam alguns inconvenientes - causarão rejeição óbvia entre os alunos que os receberam. Em geral, tudo isso torna o Z-score inconveniente para relatar os resultados aos sujeitos e força o uso de métodos especiais de conversão para pontuar os alunos.

Transformações de pontuação Z

As transformações do Z-score visam traduzi-los em valores mais fáceis de anotar e explicar. Nesse caso, a transformação utilizada deve ser linear para preservar a forma da distribuição dos escores Z. A fórmula geral para tal transformação é

Z1 = M+ ?Z,

Onde Z 1 é a estimativa convertida, Mé o novo valor médio (o valor médio das pontuações após a transformação), - novo desvio padrão. Transformações diferentes têm significados diferentes M e . Aqui estão algumas das transformações mais conhecidas de Z-scores.

Escala T(McCall, 1939, para relatar o desempenho das crianças em testes de habilidade mental). O valor médio é escolhido M = 50 e desvio padrão? = 10. Obtemos: Z 1 \u003d 50 + 10 Z

Escala CEEV(ETS, para notificar futuros alunos sobre as notas do vestibular). O valor médio é escolhido M = 500 e desvio padrão? = 100. Obtemos: Z 1 \u003d 500 + 100 Z

escala de QI(Weshler, 1939, para interpretar as pontuações de inteligência de adultos). O valor médio é escolhido M = 100 e desvio padrão? = 15. Obtemos: Z 1 \u003d 100 + 15 Z

Escalas de stalines e paredes

Às vezes, ao relatar resultados, escalas que consistem em inteiros únicos são usadas, por exemplo, de 1 a 9 ou de 1 a 10. Isso é conveniente para relatar resultados de testes, porque. tais escalas são obviamente simples.

Dividir a distribuição normal em 9 intervalos resulta em uma escala de Stanine com 9 unidades padrão. Nesta escala, a média é 5 e o desvio padrão é aproximadamente 2. Ao avaliar sujeitos em qualquer teste com qualquer número de itens, as piores pontuações de 4% recebem uma stanina de 1 e as melhores pontuações uma stanina de 9. a pior e a melhor pontuação são 7% atribuem as estaninas 2 e 8, respectivamente. Os próximos 12% dos resultados são os estaninas 3 e 7. Os próximos 17% são atribuídos aos estaninas 4 e 6 e, finalmente, 20% dos resultados médios correspondem ao estanina 5.

Na escala de parede, muitas vezes chamada de escala Cattell, toda a matriz de resultados é dividida em 10 partes com um intervalo de 0,5 desvio padrão. Na escala de parede, a média aritmética é 5,5 e a distância entre duas unidades padrão adjacentes é 0,5.

Às vezes, uma escala de onze pontos é obtida da escala de Stanine, identificando um por cento dos sujeitos mais fortes e mais fracos e atribuindo-lhes as pontuações máxima e mínima, respectivamente.

Definir uma pontuação de aprovação

Existem muitos métodos para estabelecer uma pontuação de aprovação em testes orientados a critérios. Todos os métodos são divididos em absolutos e relativos. Quase todos os métodos envolvem especialistas no procedimento para determinar a pontuação de aprovação. Vamos dar uma olhada em alguns dos métodos conhecidos.

Métodos centrados no trabalho

Método Nedelsky(1954) - para tarefas fechadas.

Cada especialista deve analisar todas as tarefas e riscar para cada tarefa o número de respostas que o sujeito minimamente competente poderá recusar. Para cada tarefa, o especialista indica a recíproca do número de respostas restantes. Por exemplo, se em uma tarefa com cinco respostas o especialista riscou duas, então ele indicará o número 1/3 para esta tarefa. Então todos esses recíprocos são somados. O número resultante pode ser considerado como uma provável avaliação do assunto mínimo competente por este perito. Em seguida, as pontuações de todos os especialistas são calculadas em média.

Método Angoff(1971). Pede-se aos especialistas que imaginem um grupo de sujeitos minimamente competentes e, para cada item, estimem a proporção de sujeitos desse grupo que responderam corretamente ao item. (Isto é o mesmo que estimar a probabilidade de um sujeito minimamente competente responder à tarefa corretamente.) Essas probabilidades são somadas para cada especialista e calculada a média de todos os especialistas.

Método Ebel(1972). Este método usa uma grade 2D para categorizar cada tarefa. Os especialistas são solicitados a dividir todas as tarefas de acordo com a dificuldade (são oferecidos três níveis de dificuldade - a tarefa é fácil, dificuldade média, difícil) e pela relevância do seu conteúdo (são oferecidos 4 níveis de relevância - essencial, importante, aceitável, controverso ). Assim, todas as tarefas são dispostas nas células desta grade. Em seguida, os especialistas devem avaliar como o sujeito minimamente competente realizará as tarefas em cada célula, ou seja, indicar a porcentagem do número de tarefas na célula que ele deve responder corretamente.

Métodos Centrados no Assunto(Nedelsky, 1954; Zieky e Livingston, 1977)

Método de grupo contrastante

Os especialistas concordam sobre qual é o resultado da realização do teste no nível de competência mínima. Em seguida, os especialistas dividem todos os sujeitos em dois grupos - competentes e incompetentes (excluindo aqueles que, na opinião deles, estão na fronteira). Em seguida, gráficos da distribuição de pontos para cada um dos grupos são plotados em um desenho. O ponto de intersecção dos gráficos é considerado como uma pontuação de aprovação.

Método de grupo de limite

Em contraste com o método anterior, os especialistas são solicitados a identificar sujeitos que, em sua opinião, estão na fronteira entre dois grupos contrastantes que diferem em competência. A mediana da distribuição das pontuações do grupo selecionado é considerada como a pontuação de aprovação.

Os críticos dessa abordagem apontam que o estabelecimento de uma pontuação de aprovação com base no desempenho do teste pelos sujeitos não corresponde em essência ao objetivo principal do teste orientado a critérios, uma vez que esta abordagem não está relacionada com o conteúdo do teste.

estandardização

- unificação, uniformizando o procedimento e os resultados das provas. Graças à padronização da metodologia, a comparabilidade dos resultados obtidos para diferentes disciplinas é alcançada e torna-se possível expressar os resultados dos testes em indicadores relativos à amostra de padronização.

1) estandardização - processamento e regulamentação do procedimento de realização, unificação de instruções, formulários de pesquisa, métodos de registro de resultados, condições de realização da pesquisa, características dos contingentes de sujeitos. A estrita periodicidade do procedimento de exame é um pré-requisito para garantir a confiabilidade do teste e determinar as normas de teste para avaliar os resultados do exame.

2) estandardização - transformação da escala de classificação normal em uma nova escala baseada não nos valores quantitativos do indicador estudado, mas em seu lugar relativo na distribuição dos resultados na amostra de sujeitos.

Etapas de padronização

Estágio 1. Criação de um procedimento de teste uniforme.

Consiste em determinar os momentos da situação diagnóstica.

· Condições de teste (sala, iluminação e outros fatores externos).

· O conteúdo da instrução e as características de sua apresentação (tom de voz, pausas, velocidade da fala, etc.).

· A presença de material de estímulo padrão (por exemplo, cartões de Rorschach).

· Limites de tempo para este teste.

· Formulário padrão para realizar este teste.

· Contabilizar a influência de fatores situacionais no processo e nos resultados dos testes.

· Contabilizando a influência do comportamento do diagnosticador no processo e no resultado do teste

· Contabilizando a influência da experiência do sujeito nos testes.

Etapa 2. Criação de uma avaliação uniforme do desempenho do teste. Com interpretação padrão dos resultados obtidos e processamento padrão preliminar. Nesta fase, o indicador obtido é comparado com a norma para a realização deste teste para uma determinada idade.

Etapa 3. Determinação de padrões de desempenho de teste. As normas são desenvolvidas para diferentes idades, profissões, gêneros, etc.

pontuação z

As transformações mais comuns das estimativas primárias são a centralização e a normalização por meio de desvios padrão. O procedimento de normalização consiste na transição para outras unidades de medida. A função de normalização é geralmente Z-score (indicador padrão), que expressa o desvio de um resultado individual X em unidades proporcionais ao desvio padrão.

Mais difundidos em psicodiagnóstico são os indicadores padrão calculados com base em uma transformação linear e não linear de indicadores primários distribuídos de acordo com uma lei normal ou próxima da normal. Nesse cálculo, é realizada uma transformada z das estimativas. Para determinar a pontuação do padrão z, determine a diferença entre o resultado primário individual e a média do grupo normal e, em seguida, divida essa diferença pelo δ da amostra normal.

X - pontuação bruta (número de tarefas concluídas)

Mx - o valor médio de tarefas concluídas para toda a amostra

δ - desvio padrão (em psicologia estrangeira SD)

O matemático Carl Gauss propôs uma função que descreve a distribuição normal. Gráfico de equação de distribuição normal - curva de sino unimodal simétrica (ou curva de sino ).

Vamos chamar a média aritmética Mx e o desvio padrão δ (sigma pequeno). Com uma distribuição normal, todas as grandezas estudadas estão dentro de Mx ± 5 δ.

Dentro de Mx ± δ é 68,26%, os 31,74% restantes estão localizados simetricamente em 15,87

Dentro de Mx ± 2 δ é 95,44%

E dentro de Mx ± 3 δ é 99,72%

PERCENTIS

Percentil é a porcentagem de indivíduos da amostra de padronização que pontuam abaixo do indicador primário fornecido. A escala de percentis pode ser considerada como um conjunto de gradações de ranks com o número de ranks 100 e contando a partir do 1º rank, correspondendo ao menor resultado;

percentil 50 ( R 50 ) corresponde à mediana da distribuição dos resultados

Percentis não devem ser confundidos com porcentagens regulares. Estes últimos representam a proporção de soluções corretas do número total de itens de teste em um resultado individual. Classificações R 1 e R 100 recebem, respectivamente, os resultados mais baixos e mais altos daqueles observados na amostra, no entanto, esses ranks podem corresponder a indicadores distantes de zero (nenhuma solução correta) ou absoluto (todas as soluções corretas). Por exemplo, com um total de 120 tarefas, o resultado mínimo correspondente à primeira classificação pode ser de 6 soluções corretas, enquanto o resultado máximo correspondente à classificação R 100 , serão 95 tarefas resolvidas corretamente. Essa situação é observada, por exemplo, ao avaliar testes de velocidade.

A principal desvantagem das escalas de percentil são as unidades de medida desiguais. Em uma distribuição normal, as variáveis ​​individuais são agrupadas no centro da distribuição e se dispersam à medida que se afastam das bordas. Portanto, frequências iguais de casos próximos ao centro correspondem a intervalos mais curtos ao longo do eixo x, localizados nas bordas da distribuição de estimativas. Os percentis mostram a posição relativa de cada sujeito em uma amostra normal, mas não a magnitude da diferença entre os resultados. Isso cria algum inconveniente na interpretação dos resultados individuais. Assim, a diferença nos indicadores primários correspondentes ao intervalo R 70 R 80, pode ser de 10 pontos, e a diferença no número de soluções corretas no intervalo de ranks R 50R 60, - apenas 1 - 3 pontos.

No entanto, as estimativas de percentil também têm várias vantagens. São de fácil acesso ao entendimento dos usuários de informações psicodiagnósticas, são universais em relação a diversos tipos de métodos e são facilmente calculáveis.

Normas estatísticas

MAS. Normas estatísticas. Valores de limite na escala de pontuações de testes, formados com base na distribuição de frequência de pontuações de testes na amostra de padronização. Como regra, esses valores de limite separam uma porcentagem fixa de sujeitos da amostra: (decil), 25 (quartil), 50 (mediana). Em uma distribuição normal, a norma estatística é descrita usando parâmetros (média mais/menos sigma, ou desvio padrão). As normas estatísticas servem para tomar uma "decisão comparativa" e não fornecem informações para a tomada de "decisões normativas"

B. Normas de idade - versões privadas de normas psicodiagnósticas coletadas para crianças de diferentes idades.

NO. Normas de critérios - normas de diagnóstico, nas quais é especificada a correspondência entre as pontuações dos testes na escala da propriedade medida e o nível do indicador de critério. No caso do comportamento do critério, as normas do critério indicam a probabilidade de ocorrência do comportamento do critério para um determinado valor da pontuação do teste.

G. normas escolares são desenvolvidos com base em testes de desempenho escolar ou testes de habilidades escolares.

D. padrões profissionais. São estabelecidos com base em testes para vários grupos profissionais.

E. Normas locais . Eles são estabelecidos para categorias restritas de pessoas que diferem na presença de uma característica comum - idade, sexo, área geográfica, status socioeconômico.

J. normas nacionais. Desenvolvido para representantes de uma determinada nação ou país como um todo.

STANAINS

Um exemplo de uma escala não linear convertida para uma escala padrão é a escala Stanine (inglês padrão nove - padrão nove), onde as pontuações assumem valores de 1 a 9, M = 5, δ = 2

A escala Stanine está se tornando cada vez mais difundida, combinando as vantagens dos indicadores de escala padrão e a simplicidade dos percentis. Os indicadores primários são facilmente convertidos em stalines. Para isso, os sujeitos são classificados em ordem crescente de resultados e a partir deles formam grupos com o número de pessoas proporcional a determinadas frequências de avaliações na distribuição normal dos resultados dos exames.

PAREDES

Ao transformar notas em uma escala stans (do inglês standsrt ten - standard ten) um procedimento semelhante é realizado com a única diferença de que dez intervalos padrão estão na base desta escala.

Resultados do teste de dimensionamento

Stevens (1946) identificou 4 níveis de escalas de medida, diferindo no grau em que as estimativas que lhes pertencem retêm as propriedades do conjunto dos números reais. Estas são as escalas:

Nominal (ou nominativo, escala de nomenclatura)

Ordinal

Intervalo

Escala de relacionamento.

Interpretação dos resultados do teste

Em testes com interpretação orientada para a norma a principal tarefa é determinar o lugar comparativo de cada um dos testados no grupo geral de assuntos. Obviamente, o lugar de cada sujeito depende da formação de qual grupo ele é avaliado. O mesmo resultado pode ser classificado como bastante alto se o grupo for fraco, e bastante baixo se o grupo for forte. É por isso que é necessário, se possível, usar normas que reflitam os resultados do teste por um grande representante (da amostra francesa de sujeitos.

Em testes com interpretação orientada a critérios a tarefa é comparar as realizações educacionais de cada aluno com o volume de conhecimento, habilidades e habilidades planejadas para assimilação. Nesse caso, uma área específica de conteúdo é usada como referencial interpretativo, e não uma ou outra amostra de assuntos. O principal problema é o estabelecimento de uma pontuação de aprovação que separa aqueles que dominam o material testado daqueles que não dominam.

Estabeleça padrões de desempenho de teste

Para eliminar a dependência da interpretação dos resultados de outros participantes do teste, são usados ​​padrões especiais de desempenho do teste e, assim, a pontuação primária de um sujeito de teste individual é comparada com os padrões de desempenho do teste. Normas - trata-se de um conjunto de indicadores que são estabelecidos empiricamente com base nos resultados de um teste por uma amostra bem definida de sujeitos. O desenvolvimento e os procedimentos para obtenção desses indicadores são processo de normalização(ou estandardização) teste. As normas mais comuns são a média e o desvio padrão de um conjunto de pontuações individuais. A correlação da pontuação primária do sujeito com os padrões de desempenho permite estabelecer o lugar do sujeito na amostra utilizada para padronizar o teste.

Tipos de escalas usadas para converter pontuações primárias

As conversões mais famosas de pontuações primárias são:

Classificação percentual, refletindo a porcentagem de sujeitos do grupo normativo, cujos resultados são inferiores ou iguais a um determinado valor do escore primário;

Linear Z-avaliação, definida como a razão entre o desvio individual da nota do teste e o desvio padrão para o grupo de sujeitos;

Estimativas que são uma transformação linear z-avaliações (escala T, pontuações padrão de QI, etc.);

Escalas de estanina e parede, que são obtidas dividindo a escala de pontos primários em vários intervalos.

Escala de classificação de percentil

Os percentis permitem definir a classificação do indicador primário do assunto no grupo normativo. A classificação percentual correspondente a uma determinada pontuação primária mostra a porcentagem de indivíduos na amostra normativa cujos resultados não são superiores à pontuação primária fornecida.

Os percentis não devem ser confundidos com porcentagens que representam a porcentagem de tarefas concluídas corretamente pelos sujeitos do grupo. Ao contrário do último - primário - o percentil é um indicador derivado que indica a participação do número total de sujeitos do grupo.

Além da conveniência associada à facilidade de interpretação, as classificações percentuais têm desvantagens significativas. A escala de classificação de percentil não é linear, ou seja, em diferentes áreas da escala de pontuação primária, um aumento de 1 ponto pode corresponder a diferentes aumentos na escala de percentil. Portanto, os percentis não apenas não refletem, mas até distorcem as diferenças reais no resultado do teste.

Portanto, o uso de percentis é bastante limitado. Devido à sua conveniência e simplicidade, eles são usados ​​principalmente em testes normativos para autoavaliação do conhecimento dos alunos, relatando os resultados para os próprios alunos e seus pais.

Z- escala

Converte resultados individuais em uma escala padrão com uma pontuação média geral e uma medida comum de variância. Z- avaliação eu- º o aluno é encontrado pela fórmula:

Onde pontuação primária eu- º o sujeito; OCRUncertain203"> é o desvio padrão do conjunto de pontuações primárias.

Z-escala é padrão com média zero e desvio padrão unitário. Com sua ajuda, você pode trazer as pontuações dos alunos obtidas em vários testes para um formulário conveniente para comparação.

Valor Z-estimativa é igual à distância entre o escore primário considerado e o valor médio das estimativas para o grupo, expresso em unidades de desvio padrão: dentro de quantos desvios padrão está o escore primário do sujeito abaixo ou acima da média do grupo.

Os escores Z, com raras exceções, recebem valores do intervalo (-3, +3). Por ser conveniente para análise científica no processo de desenvolvimento de novos testes, a escala Z é inconveniente para uso prático na avaliação do conhecimento dos sujeitos do grupo. Os escores Z podem assumir valores fracionários e negativos, que são difíceis de trabalhar em cálculos e difíceis de interpretar para usuários de teste. Arredondar Z-scores para valores inteiros nem sempre é aceitável, pois o principal objetivo da criação de testes é identificar diferenças na preparação das disciplinas. Valores negativos de Z-score, que indicam resultados abaixo da média para o grupo de alunos testados, também causam alguns inconvenientes - causarão rejeição óbvia entre os alunos que os recebem. Em geral, tudo isso torna o Z-score inconveniente para relatar os resultados aos sujeitos e força o uso de métodos especiais de conversão para pontuar os alunos.

TransformaçõesZ-estimativas

As transformações do Z-score visam traduzi-los em valores mais fáceis de anotar e explicar. Nesse caso, a transformação utilizada deve ser linear para preservar a forma da distribuição dos escores Z. A fórmula geral para tal transformação é

Z1= M+ σZ,

onde Z1 é a estimativa convertida, Mé o novo valor médio (o valor médio das pontuações após a transformação), - novo desvio padrão. Transformações diferentes têm significados diferentes M e . Aqui estão algumas das transformações mais conhecidas de Z-scores.

T-escala(McCall, 1939, para relatar o desempenho das crianças em testes de habilidade mental). O valor médio é escolhido M = 50 e desvio padrão σ = 10. Obtemos: Z1=50 + 10 Z

Escala CEEV(ETS, para notificar futuros alunos sobre as notas do vestibular). O valor médio é escolhido M = 500 e desvio padrão σ = 100. Obtemos: Z1 = 500 + 100 Z

Escala QI(Weshler, 1939, para interpretar as pontuações de inteligência de adultos). O valor médio é escolhido M = 100 e desvio padrão σ = 15. Obtemos: Z1 = 100 + 15 Z

Escalas de stalines e paredes

Às vezes, ao relatar resultados, escalas que consistem em inteiros únicos são usadas, por exemplo, de 1 a 9 ou de 1 a 10. Isso é conveniente para relatar resultados de testes, pois tais escalas têm uma simplicidade óbvia.

Dividir a distribuição normal em 9 intervalos resulta em uma escala de Stanine com 9 unidades padrão. Nesta escala, a média é 5 e o desvio padrão é aproximadamente 2. Ao avaliar sujeitos em qualquer teste com qualquer número de itens, as piores pontuações de 4% recebem uma stanina de 1 e as melhores pontuações uma stanina de 9. a pior e a melhor pontuação são 7% atribuem as estaninas 2 e 8, respectivamente. Os próximos 12% dos resultados são os estaninas 3 e 7. Os próximos 17% são atribuídos aos estaninas 4 e 6 e, finalmente, 20% dos resultados médios correspondem ao estanina 5.

Na escala de parede, muitas vezes chamada de escala Cattell, toda a matriz de resultados é dividida em 10 partes com um intervalo de 0,5 desvio padrão. Na escala de parede, a média aritmética é assumida como 5,5, e a distância entre duas unidades padrão adjacentes é 0,5, a partir de métodos conhecidos.

Métodos centrados no trabalho

MétodoNedelsky(1954) - para tarefas fechadas.

Cada especialista deve analisar todas as tarefas e riscar para cada tarefa o número de respostas que o sujeito minimamente competente poderá recusar. Para cada tarefa, o especialista indica a recíproca do número de respostas restantes. Por exemplo, se em uma tarefa com cinco respostas o especialista riscou duas, então ele indicará o número 1/3 para esta tarefa. Então todos esses recíprocos são somados. O número resultante pode ser considerado como uma provável avaliação do assunto mínimo competente por este perito. Em seguida, as pontuações de todos os especialistas são calculadas em média.

MétodoAngoff(1971). Pede-se aos especialistas que imaginem um grupo de sujeitos minimamente competentes e, para cada item, estimem a proporção de sujeitos desse grupo que responderam corretamente ao item. (Isto é o mesmo que estimar a probabilidade de um sujeito minimamente competente responder à tarefa corretamente.) Essas probabilidades são somadas para cada especialista e calculada a média de todos os especialistas.

Métodoebel(1972). Este método usa uma grade 2D para categorizar cada tarefa. Os especialistas são solicitados a dividir todas as tarefas de acordo com a dificuldade (são oferecidos três níveis de dificuldade - a tarefa é fácil, dificuldade média, difícil) e pela relevância do seu conteúdo (são oferecidos 4 níveis de relevância - essencial, importante, aceitável, controverso ). Assim, todas as tarefas são dispostas nas células desta grade. Em seguida, os especialistas devem avaliar como o sujeito mínimo competente irá completar as tarefas em cada célula, ou seja, indicar a porcentagem do número de tarefas na célula que ele deve responder corretamente.

Métodos Centrados no Assunto(Nedelsky, 1954; Zieky e Livingston, 1977)

Método de grupo contrastante

Os especialistas concordam sobre qual é o resultado da realização do teste no nível de competência mínima. Em seguida, os especialistas dividem todos os sujeitos em dois grupos - competentes e incompetentes (excluindo aqueles que, na opinião deles, estão na fronteira). Em seguida, gráficos da distribuição de pontos para cada um dos grupos são plotados em um desenho. O ponto de intersecção dos gráficos é considerado como uma pontuação de aprovação.

Método de grupo de limite

Em contraste com o método anterior, os especialistas são solicitados a identificar sujeitos que, em sua opinião, estão na fronteira entre dois grupos contrastantes que diferem em competência. A mediana da distribuição das pontuações do grupo selecionado é considerada como a pontuação de aprovação.

Os críticos dessa abordagem apontam que o estabelecimento de uma pontuação de aprovação com base no desempenho do teste pelos sujeitos não corresponde em essência ao objetivo principal do teste orientado a critérios, uma vez que essa abordagem não está relacionada ao conteúdo do teste .

Avaliação do desenvolvimento físico de crianças em uma escala Z - score

Uma parte integrante de qualquer programa de estudo da saúde e nutrição das crianças, tanto no nível populacional quanto na avaliação da nutrição e saúde do indivíduo, é rastrear os parâmetros antropométricos das crianças em comparação com as curvas de crescimento padrão. A Organização Mundial da Saúde recomenda um método de avaliação do estado nutricional de crianças baseado na utilização de indicadores de medidas corporais totais (comprimento e peso corporal). A avaliação dos dados antropométricos consiste em calcular o número de desvios padrão (Co ou s) pelos quais o indicador estudado de peso ou comprimento corporal difere da mediana da população padrão (os padrões internacionais da OMS são calculados com dados de um estudo de parâmetros antropométricos de crianças nos EUA e Grã-Bretanha). O desvio padrão calculado é chamado Z - pontuação ou Z-score.

Os dados antropométricos de cada criança são caracterizados pelo seu escore Z. Se os dados antropométricos da criança forem menores que a mediana do padrão, o Z - score terá um valor negativo, se os indicadores estiverem acima da mediana, o Z - score será positivo.

O valor que Z-score calculado para três indicadores:

1. Peso corporal para idade - Mt/V,

2. Comprimento do corpo para idade - Dt/V,

3. Peso corporal para comprimento corporal - Mt / Dt.

O indicador Mt/Dt é usado apenas na idade de até 10 anos para meninas e até 11,5 anos para meninos.

Para diagnósticos, são determinados os valores limite do SD, o que nos permite distinguir as seguintes opções para os indicadores estimados:

- baixo (n), caracterizando DT e MT insuficientes - são definidos em valores de CO menores que -2;

- em alta), caracterizando excesso de DT e MT - são fixados em valores de CO superiores a +2;

— normal (nm)- é definido em valores de CO na faixa de -2 a +2;

O índice de comprimento para idade caracteriza o crescimento linear e avalia o retardo de crescimento a longo prazo, ou seja, Z-score menos de -2 pode indicar desnutrição crônica resultando em crescimento atrofiado.

Z-score peso corporal para comprimento corporal reflete as proporções do corpo ou desenvolvimento harmonioso, e é muito sensível à desnutrição aguda.

Z-score o peso corporal para a idade é sensível à desnutrição aguda e reflete a desnutrição atual ou recente da criança.

Para processar os dados antropométricos e calcular os índices da OMS, foi desenvolvido e distribuído gratuitamente um programa de computador especial ANTHRO v.1.01, 1990. O programa considera automaticamente a idade da criança em meses. Na prática, ao usar o programa, é necessário registrar a data de nascimento e a data do exame da criança.

Para um grupo ou população de crianças, o valor da pontuação Z do grupo pode ser calculado e estimado estatisticamente. O valor de Z - score na população padrão é igual a zero. Quanto mais o Z-score da população de estudo for diferente de zero, maior será a diferença entre o grupo de estudo de crianças e a população de referência. O valor do escore Z do grupo pode ser utilizado para análise comparativa de contingentes infantis e no sistema de monitoramento de saúde.

Os indicadores derivados podem ser subdivididos de acordo com sua finalidade. Alguns deles servem para determinar o nível de treinamento alcançado em uma determinada escala, enquanto outros - para estabelecer a posição relativa do sujeito em um determinado grupo normativo. Em particular, os percentis servem para resolver o segundo problema, permitindo estabelecer a classificação do indicador primário do sujeito no grupo normativo. A classificação do indicador em percentis é determinada pela porcentagem de sujeitos da amostra de padronização cujos resultados não são superiores a esse indicador primário. O processo de construção de uma escala de percentis consiste em determinar as classificações percentuais dos indicadores primários do grupo normativo.

O método de construção da escala de percentil pode ser considerado em um pequeno exemplo dos resultados de um teste realizado por um grupo de 25 sujeitos, embora, é claro, seja improvável que se encontre tal amostra na prática. Normalmente a construção dessas escalas é realizada em grandes arrays. Vamos, por exemplo, 25 alunos testados em uma das disciplinas receberem os resultados primários apresentados na Tabela. 7.2:

Tabela 7.2. Resultado dos testes

A primeira linha da Tabela 7.2 contém as pontuações observadas dos sujeitos da amostra, ordenadas do menor para o maior (da esquerda para a direita). Normalmente, para grupos grandes, a ordenação simples é ineficaz e é mais conveniente usar dados agrupados, o que envolve a introdução de notas para grupos individuais (consulte a Seção 5.2 para obter detalhes).

A segunda linha apresenta os resultados da contagem do número de sujeitos que obtiveram a mesma pontuação no teste. Cada elemento da segunda linha mostra o número de repetições da pontuação e, portanto, é chamado de frequência das pontuações brutas observadas dos sujeitos. Se as frequências forem somadas da esquerda para a direita, serão obtidos os valores das frequências acumuladas (acumuladas). As frequências acumuladas são a soma das frequências observadas nesse escore ou abaixo dele. Por exemplo, há 9 sujeitos que pontuaram 7 ou menos porque as Frequências Cumulativas para uma pontuação de 7 é o número 9.



O cálculo das classificações de percentis para preencher a quarta linha da tabela é complicado pela necessidade de determinar os limites reais do intervalo de confiança (consulte a Seção 5.5) contendo a pontuação verdadeira de cada sujeito da amostra. A duração real do intervalo depende do valor do erro padrão da medição. No entanto, 0,5 unidades de pontuação bruta são geralmente usadas para definir os limites do intervalo. Neste caso, se o sujeito recebeu uma pontuação de 5, o verdadeiro valor de sua pontuação está na faixa de 4,5 a 5,5, ou seja, (4.5; 5), e os números 4.5 e 5.5 são chamados de limites inferior e superior do intervalo unitário de estimativas, respectivamente.

Os conceitos de limites "superiores" e "inferiores" são utilizados para construir uma escala de graus percentuais, assumindo uma distribuição uniforme dos resultados dos sujeitos dentro do intervalo de confiança. Por exemplo, ao calcular a porcentagem

Tabela 7.3. Construindo uma escala de classificação de percentil

classificação para uma pontuação de teste de 5, supõe-se que os resultados de dois sujeitos estão localizados no intervalo (4,5; 5,5) uniformemente (Tabela 7.3).

Muito provavelmente, um resultado estará abaixo do ponto correspondente a 5, e um estará acima deste ponto. Assim, entre as disciplinas cuja nota verdadeira é inferior a 5, podemos incluir três alunos, dos quais um tem nota 3, o segundo - nota 4 e o terceiro - um de dois que recebeu uma pontuação de 5, que em termos percentuais será (3/25) 100% \u003d 12%. Esta é a classificação percentual correspondente a 5, que fornece uma interpretação conveniente dos resultados do aluno: 12% dos alunos da amostra normativa completaram 5 ou menos itens de teste. De acordo com a definição apresentada anteriormente, o percentil 12 em um grupo de 25 sujeitos é 5. Referente aos dados obtidos na terceira coluna da Tabela. 7.2, podemos dizer com certeza que o resultado primário de 5 pontos é ruim, pois supera os resultados de apenas 12% dos sujeitos da amostra de padronização. Este é um resultado concreto e facilmente perceptível, o que é conveniente, em primeiro lugar, para os alunos ao comparar os resultados em vários testes. Um resultado primário que está abaixo de qualquer uma das pontuações da amostra de padronização tem uma classificação de percentil zero. Uma pontuação mais alta do que qualquer outra na amostra receberá uma classificação percentual de 100. É claro que nem uma classificação de zero nem uma classificação de 100% indica conhecimento zero ou absoluto do sujeito controlado.

É possível resolver o problema inverso quando é necessário determinar r-ésimo percentil, ou melhor, o ponto abaixo do qual se situam R% resultados . Para determinar p-th percentil, você precisa concluir 5 etapas, que são obtidas usando a tabela. 7.4 e são dados na tabela. 7.5.

Tabela 7.4. Relação entre pontuações brutas e frequências

Tabela 7.5.Determinação de percentis

Etapa Etapa de cálculo Exemplo de cálculo
Cálculo (rl)/100%, onde P- frequência acumulada no grupo de avaliação
Determinação do limite inferior real eu categoria de estimativas contendo o resultado da 1ª etapa
Subtração de k acumulado eu frequências (cum.f) do resultado do 1º passo (determinação das frequências abaixo (RP)/100%)
Determinação da fração do intervalo de descargas que se encontra sob a frequência (rp)/100%
Somando os resultados da 4ª etapa aos resultados da 2ª etapa. Fórmula final

Os percentis não devem ser confundidos com porcentagens que representam a porcentagem de tarefas concluídas corretamente pelos sujeitos do grupo. Diferentemente deste último, o percentil primário é um indicador derivado que indica a participação no número total de sujeitos do grupo.

Além da conveniência da facilidade de interpretação, as classificações percentuais têm duas desvantagens significativas. A primeira é que as classificações percentuais são valores de uma escala ordinal, pois mostram a posição relativa de cada indivíduo na amostra normativa, e não revelam a diferença entre os resultados dos sujeitos individuais do grupo. A segunda desvantagem agrava a primeira até certo ponto - os percentis não apenas não refletem, mas até distorcem as diferenças reais no resultado do teste. Isso se deve às peculiaridades da distribuição dos percentis, que tem caráter retangular. A distribuição dos indicadores primários difere significativamente de uma retangular e se aproxima de uma curva normal para bons testes normativos. A este respeito, pequenos desvios da média no centro da distribuição dos resultados observados são muito aumentados por percentis, enquanto desvios relativamente grandes nas bordas da curva em sino serão comprimidos.

As desvantagens mencionadas são a principal razão pela qual o uso de percentis é bastante limitado. Devido à sua conveniência e simplicidade, são utilizados principalmente em testes para autoavaliação do conhecimento dos alunos.

ESCALA Z

O método mais simples para identificar o local do resultado do i-ésimo aluno (X) em comparação com os resultados de outros é baseado no cálculo do desvio da pontuação Xi do valor médio das pontuações X para um grupo de alunos testados. O desvio é encontrado calculando a diferença X-X f Se a diferença X-Xt> Ah, então o resultado aluno acima da média do grupo. Um valor de diferença negativo indica um resultado abaixo da média. x.

Como as médias aritméticas obtidas para diferentes testes e em diferentes grupos diferem significativamente, surge o problema da comparabilidade dos desvios. A mesma pontuação Xt num grupo fraco pode estar acima da média, num grupo forte pode estar muito abaixo. Além disso, a escala de desvio acaba sendo esticada de forma diferente dependendo da duração do teste.

Um meio conveniente de superar as dificuldades observadas é a conversão de resultados individuais em uma escala Z padrão com uma pontuação média geral e uma medida comum de variação de pontuação. Em geral, a construção de escalas padrão é realizada por transformações lineares ou não lineares de escores brutos. Em uma transformação linear, as pontuações padrão expressam o desvio das pontuações individuais da pontuação bruta média em unidades proporcionais ao desvio padrão da distribuição. Neste último caso, o resultado escalonado do i-ésimo aluno é encontrado pela fórmula

Onde X.- pontuação bruta do i-ésimo sujeito; X- o valor médio das pontuações individuais dos sujeitos de teste do grupo (i= 1,2,..., N); Sx- o desvio padrão sobre o conjunto de pontuações brutas calculadas usando a fórmula (consulte a seção 5.2).

Devido ao fato de que de cada valor inicial X ( subtraído x, o mesmo ^ é subtraído da média das pontuações originais. Portanto, a média aritmética da diferença X-Xi(/ = 1,2,..., N), obtido para o grupo de alunos testados é igual a zero. Esta afirmação é ilustrada de forma bastante convincente pelo exemplo de cálculo do valor médio das diferenças X-Xi para uma matriz de resultados de teste de 10 sujeitos (seção 5.2). A soma das diferenças é igual a zero:

Da mesma forma, é fácil mostrar que o desvio padrão sobre o conjunto de valores é 1. Assim, o Z-score é padrão com média zero e um desvio padrão. Com sua ajuda, é possível trazer as pontuações dos alunos obtidas em vários testes para uma forma conveniente para comparação, normalizando os resultados individuais.

Para o exemplo acima, as pontuações de 10 sujeitos na escala Z são obtidas dividindo as diferenças calculadas pelo desvio padrão de 2,6:

É interessante comparar os resultados escalonados obtidos com os escores brutos de 10 sujeitos (Tabela 7.6).

Tabela 7.6. Resultados comparativos

Assunto número i Número de Trabalho XI Xi-X Zi
0,38
-0 -1,14
-4" -1,52
-1,52
-1 -0,38
-1 -0,38
-1 -0,38
-1,52
0,38
X=5 Sx=2,6 Quantidade = 0 Z=0 S z =\

Ao usar testes que passaram no estágio de padronização de longo prazo e têm estimativas estáveis ​​de parâmetros gerais, a conversão de pontuações brutas para a escala Z é realizada de acordo com a fórmula

Onde M e um x- média aritmética geral e variância geral, respectivamente.

Obviamente, para uma pontuação bruta exatamente igual à média, o Z-score vai para zero. Valores Z negativos indicam desempenho abaixo da média, enquanto valores Z positivos indicam bom desempenho, acima da média do grupo de pontuações brutas.

Os escores Z são especialmente úteis no caso de uma distribuição normal de escores primários, quando todos os valores Z geralmente variam entre -3 e +3. Às vezes, eles tentam expandir o intervalo de variação e levar em consideração todas as pontuações que variam de -5 a +5, o que, sem dúvida, não faz sentido, pois os valores nas extremidades do intervalo são determinados com um erro de medição muito grande.

A vantagem indiscutível da escala Z é a média aritmética comum e a medida geral da variação dos dados, o que torna possível obter a comparabilidade dos resultados em diferentes testes. No entanto, além das vantagens óbvias, também existem desvantagens. Por ser conveniente para análise científica no processo de desenvolvimento de novos testes, a escala Z é inconveniente para uso prático na avaliação do conhecimento dos sujeitos do grupo. Isso se deve principalmente ao fato de que os valores Z geralmente precisam ser calculados com várias casas decimais, pois a média das pontuações individuais raramente é um número inteiro. Como a identificação de diferenças na preparação do teste é o principal objetivo do desenho do teste, é fácil entender que o arredondamento dos escores Z nem sempre é aceitável, pois pode anular as diferenças iniciais nos escores individuais e, assim, reduzir o efeito diferenciador do teste.

O efeito de reduzir a capacidade de diferenciação do teste como resultado do arredondamento dos escores Z pode ser ilustrado por um exemplo dos dados na Tabela. 7.6. Os resultados do segundo e terceiro sujeitos diferindo antes do arredondamento Z 2 = -1,14 e Z 3 = -1,52 se transformam depois nas mesmas pontuações Z 2 = Z 3 = - 1.

Certos inconvenientes são causados ​​por valores negativos do Z-score, indicando resultados abaixo da média para o grupo de alunos testados. É claro que na prática de controle, valores negativos de Z-scores causarão rejeição óbvia entre os alunos que os receberam. Em geral, tudo isso torna o Z-score inconveniente para relatar os resultados às disciplinas do grupo e força o uso de métodos especiais de conversão para classificar os alunos.