Scorul total. Stabiliți standarde de performanță a testelor


Scalarea rezultatelor testelor

Stevens (1946) a identificat 4 niveluri de scale de măsurare, care diferă prin gradul în care estimările care le aparțin păstrează proprietățile mulțimii numerelor reale. Acestea sunt scalele:

Nominal (sau nominativ, scară de denumire)

Ordinal

Interval

Scala de relații.

Interpretarea rezultatelor testelor

În teste cu interpretare orientată spre normă sarcina principală este de a determina locul comparativ al fiecăruia dintre cei testați în grupul general de subiecți. Evident, locul fiecărui subiect depinde de contextul din care grupă este evaluat. Același rezultat poate fi clasificat ca destul de ridicat dacă grupul este slab și destul de scăzut dacă grupul este puternic. De aceea este necesar, dacă este posibil, să se utilizeze norme care să reflecte rezultatele testului de către un eșantion mare reprezentativ de subiecți.

În teste cu interpretare orientată pe criterii sarcina este de a compara realizările educaționale ale fiecărui elev cu volumul de cunoștințe, abilități și abilități planificate pentru asimilare. În acest caz, o anumită zonă de conținut este folosită ca cadru interpretativ de referință, și nu unul sau altul eșantion de subiecți. Problema principală este stabilirea unui punctaj de trecere care să-i separe pe cei care au stăpânit materialul testat de cei care nu l-au stăpânit.

Stabiliți standarde de performanță a testelor

Pentru a elimina dependența interpretării de rezultatele altor participanți la test, sunt utilizate standarde speciale de performanță a testului și, astfel, scorul primar al unui subiect individual de testare este comparat cu standardele de performanță a testului. Norme - acesta este un set de indicatori care sunt stabiliți empiric pe baza rezultatelor unui test de către un eșantion bine definit de subiecți. Dezvoltarea și procedurile de obținere a acestor indicatori sunt proces de normalizare(sau standardizare) Test. Cele mai comune norme sunt media și abaterea standard a unui set de scoruri individuale. Corelarea punctajului primar al subiectului cu standardele de performanță vă permite să stabiliți locul subiectului în eșantionul utilizat pentru standardizarea testului.

Tipuri de scale utilizate pentru a converti scorurile primare

Cele mai cunoscute conversii ale scorurilor primare sunt:

Rang percentile, reflectând procentul subiecților din grupa normativă, ale căror rezultate sunt mai mici sau egale cu o valoare dată a punctajului primar;

Liniar Z-aprecierea, definită ca raportul dintre abaterea individuală a punctajului la test și abaterea standard pentru grupul de subiecți;

Estimări care sunt o transformare liniară z-evaluări (scara T, scoruri IQ standard etc.);

Scale stanine și de perete, care se obțin prin împărțirea scarii punctelor primare în diferite intervale.

Scala de rang percentile

Percentile vă permit să stabiliți rangul indicatorului primar al subiectului în grupul normativ. Rangul percentilei corespunzător unui punctaj primar dat arată procentul subiecților din eșantionul normativ ale căror rezultate nu sunt mai mari decât scorul primar dat.

Percentilele nu trebuie confundate cu procentele reprezentând procentul sarcinilor îndeplinite corect de subiecții grupului. Spre deosebire de ultimul - primar - percentila este un indicator derivat care indică ponderea numărului total de subiecți din grup.

Pe lângă comoditatea asociată cu ușurința interpretării, rangurile percentile au dezavantaje semnificative. Scara rangurilor percentile este neliniară, adică în diferite zone ale scalei de scor primar, o creștere de 1 punct poate corespunde unor creșteri diferite pe scala percentilei. Prin urmare, percentilele nu numai că nu reflectă, dar chiar distorsionează diferențele reale în rezultatul testului.

Prin urmare, utilizarea percentilelor este destul de limitată. Datorită confortului și simplității lor, ele sunt utilizate în principal în testele orientate spre norme pentru autoevaluarea cunoștințelor elevilor, raportând rezultatele elevilor înșiși și părinților acestora.

Scara Z

Convertește rezultatele individuale la o scală standard cu un scor mediu general și o măsură comună a varianței. Z- evaluare i-a studentul se gaseste dupa formula:

Unde scor primar i-a subiectul; - media scorurilor individuale N grup de testare ( i=1,2,…,N); este abaterea standard pentru setul de scoruri primare.

Z-scala este standard cu medie zero și abatere standard unitară. Cu ajutorul acestuia, puteți aduce scorurile studenților obținute la diferite teste într-o formă convenabilă pentru comparație.

Valoare Z-estimarea este egală cu distanța dintre scorul primar considerat și valoarea medie a estimărilor pentru grup, exprimată în unități de abatere standard: în câte abateri standard se află scorul primar al subiectului sub sau peste media grupului.

Scorurile Z, cu rare excepții, iau valori din intervalul (-3, +3). Fiind convenabilă pentru analiza științifică în procesul de dezvoltare a noilor teste, scara Z este incomodă pentru utilizare practică în evaluarea cunoștințelor subiecților grupului. Scorurile Z pot lua valori fracționale și negative, cu care sunt dificil de lucrat în calcule și greu de interpretat pentru utilizatorii de testare. Rotunjirea scorurilor Z la valori întregi nu este întotdeauna acceptabilă, deoarece scopul principal al creării testelor este identificarea diferențelor în pregătirea subiecților. Valorile negative ale scorului Z, indicând rezultate sub media pentru grupul de elevi testați, provoacă și anumite neplăceri - vor provoca o respingere evidentă în rândul elevilor care le-au primit. În general, toate acestea fac ca scorul Z să fie incomod pentru raportarea rezultatelor către subiecți și obligă la utilizarea unor metode speciale de conversie pentru notarea studenților.

Transformări Z-score

Transformările scorului Z urmăresc să le traducă în valori care sunt mai ușor de notat și explicat. În acest caz, transformarea utilizată trebuie să fie liniară pentru a păstra forma distribuției scorurilor Z. Formula generală pentru o astfel de transformare este

Z1 = M+ ? Z ,

Unde Z 1 este estimarea convertită, M este noua valoare medie (valoarea medie a scorurilor după transformare), - noua abatere standard. Transformările diferite au semnificații diferite Mși . Iată câteva dintre cele mai cunoscute transformări ale scorurilor Z.

scara T(McCall, 1939, pentru raportarea performanței copiilor la testele de abilități mentale). Se alege valoarea medie M = 50 și abaterea standard? = 10. Obținem: Z 1 \u003d 50 + 10 Z

scara CEEV(ETS, pentru a notifica potențialii studenți cu privire la scorurile examenului de admitere la facultate). Se alege valoarea medie M = 500 și abaterea standard? = 100. Obținem: Z 1 \u003d 500 + 100 Z

Scala IQ(Weshler, 1939, pentru interpretarea scorurilor inteligenței adulților). Se alege valoarea medie M = 100 și abaterea standard? = 15. Obținem: Z 1 \u003d 100 + 15 Z

Solzi de staline și pereți

Uneori, la raportarea rezultatelor, se folosesc scale formate din numere întregi unice, de exemplu, de la 1 la 9 sau de la 1 la 10. Acest lucru este convenabil pentru raportarea rezultatelor testelor, deoarece. astfel de scale sunt evident simple.

Împărțirea distribuției normale în 9 intervale are ca rezultat o scală Stanine cu 9 unități standard. Pe această scară, media este 5, iar abaterea standard este de aproximativ 2. Atunci când se evaluează subiecții la orice test cu orice număr de itemi, celor mai slabe scoruri de 4% li se atribuie o stanină de 1 și celor mai bune scoruri o stanină de 9. Următorul cele mai slabe și cele mai bune scoruri sunt 7% atribuiți stanines 2 și, respectiv, 8. În urma acestora, 12% din rezultate sunt stanini 3 și 7. Următorilor 17% li se atribuie stanini 4 și 6, iar în final, 20% din rezultatele medii corespund staninii 5.

În scara de perete, numită adesea scara Cattell, întreaga gamă de rezultate este împărțită în 10 părți cu un interval de 0,5 abateri standard. La scara de perete, media aritmetică este considerată 5,5, iar distanța dintre două unități standard adiacente este 0,5.

Uneori, din scala Stanine se obține o scală de unsprezece puncte prin identificarea unui procent dintre cei mai puternici și cei mai slabi subiecți și atribuindu-le scorurile maxime și, respectiv, minime.

Stabilirea unui scor de trecere

Există multe metode de stabilire a unui scor de trecere la testarea orientată pe criterii. Toate metodele sunt împărțite în absolute și relative. Aproape toate metodele implică experți în procedura de determinare a punctajului de promovare. Să aruncăm o privire la câteva dintre metodele cunoscute.

Metode centrate pe locuri de muncă

metoda Nedelsky(1954) - pentru sarcini închise.

Fiecare expert trebuie să analizeze toate sarcinile și să taie pentru fiecare sarcină numărul de răspunsuri pe care subiectul minim competent le va putea refuza. Pentru fiecare sarcină, expertul indică reciproca numărului de răspunsuri rămase. De exemplu, dacă într-o sarcină cu cinci răspunsuri expertul a bifat două, atunci va indica numărul 1/3 pentru această sarcină. Apoi toate aceste reciproce sunt rezumate. Numărul rezultat poate fi considerat o evaluare probabilă a subiectului minim competent de către acest expert. Apoi se face media scorurilor tuturor experților.

Metoda Angoff(1971). Experții sunt rugați să-și imagineze un grup de subiecți minim competenți și, pentru fiecare item, să estimeze proporția subiecților din acest grup care au răspuns corect la item. (Acesta este același cu estimarea probabilității ca un subiect minim competent să răspundă corect la sarcină.) Aceste probabilități sunt adăugate pentru fiecare expert și mediate pentru toți experții.

Metoda Ebel(1972). Această metodă utilizează o grilă 2D pentru a clasifica fiecare sarcină. Experții sunt rugați să împartă toate sarcinile în funcție de dificultate (se oferă trei niveluri de dificultate - sarcina este ușoară, dificultate medie, dificilă) și după relevanța conținutului acesteia (sunt oferite 4 niveluri de relevanță - esențial, important, acceptabil, controversat). ). Astfel, toate sarcinile sunt așezate în celulele acestei grile. Apoi experții trebuie să evalueze modul în care subiectul minim competent va îndeplini sarcinile în fiecare celulă, adică. indicați procentul din numărul de sarcini din celulă la care trebuie să răspundă corect.

Metode centrate pe subiect(Nedelsky, 1954; Zieky și Livingston, 1977)

Metoda grupului contrastant

Experții se pun de acord cu privire la care este rezultatul efectuării testului la nivelul de competență minimă. Apoi experții împart toți subiecții în două grupe - competenți și incompetenți (cu excepția celor care, în opinia lor, sunt la graniță). Apoi, grafice ale distribuției punctelor pentru fiecare dintre grupuri sunt trasate pe un singur desen. Punctul de intersecție al graficelor este luat ca punctaj de trecere.

Metoda grupului de limite

Spre deosebire de metoda anterioară, experților li se cere să identifice subiecții care, în opinia lor, se află la granița dintre două grupuri contrastante care diferă ca competență. Mediana distribuției scorurilor din grupul selectat este luată ca punctaj de trecere.

Criticii acestei abordări subliniază că stabilirea unui punctaj de promovare pe baza efectuării testului de către subiecți nu corespunde în esență scopului principal al testării orientate pe criterii, întrucât această abordare nu are legătură cu conținutul testului.

Standardizare

- unificare, aducerea la aceleași standarde a procedurii și a punctajelor la test. Datorită standardizării metodologiei, se realizează comparabilitatea rezultatelor obținute la diferite subiecți și devine posibilă exprimarea punctajelor la test în indicatori raportați la eșantionul de standardizare.

1) Standardizare - prelucrarea și reglementarea procedurii de desfășurare, unificarea instrucțiunilor, formularele de anchetă, metodele de înregistrare a rezultatelor, condițiile de desfășurare a anchetei, caracteristicile contingentelor de subiecți. Periodicitatea strictă a procedurii de examinare este o condiție prealabilă pentru asigurarea fiabilității testului și determinarea normelor de testare pentru evaluarea rezultatelor la examen.

2) Standardizare - transformarea scalei normale de rating într-o nouă scală bazată nu pe valorile cantitative ale indicatorului studiat, ci pe locul său relativ în distribuția rezultatelor în eșantionul de subiecți.

Etapele standardizării

Etapa 1. Crearea unei proceduri uniforme de testare.

Constă în determinarea momentelor situației diagnostice.

· Condiții de testare (încăpere, iluminare și alți factori externi).

· Conținutul instrucțiunii și caracteristicile prezentării acesteia (tonul vocii, pauze, viteza de vorbire etc.).

· Prezența unui material de stimul standard (de exemplu, carduri Rorschach).

· Limitele de timp pentru acest test.

· Formular standard pentru efectuarea acestui test.

· Contabilizarea influenței factorilor situaționali asupra procesului și a rezultatelor testelor.

· Luarea în considerare a influenței comportamentului diagnosticianului asupra procesului și a rezultatului testului

· Luarea în considerare a influenței experienței subiectului în testare.

Etapa 2. Crearea unei evaluări uniforme a performanței testului. Cu interpretarea standard a rezultatelor obţinute şi prelucrarea standard preliminară. În această etapă, indicatorul obținut este comparat cu norma de efectuare a acestui test pentru o anumită vârstă.

Etapa 3. Determinarea standardelor de performanță a testelor. Normele sunt dezvoltate pentru diferite vârste, profesii, genuri etc.

scorul z

Cele mai frecvente transformări ale estimărilor primare sunt centrarea și normalizarea prin abateri standard. Procedura de normalizare consta in trecerea la alte unitati de masura. Funcția de normalizare este de obicei Scorul Z (indicator standard), care exprimă abaterea unui rezultat individual X în unităţi proporţionale cu abaterea standard.

Mai răspândiți în psihodiagnostic sunt indicatorii standard calculați pe baza unei transformări liniare și neliniare a indicatorilor primari repartizați după o lege normală sau apropiată de normal. Într-un astfel de calcul, se efectuează o transformare z a estimărilor. Pentru a determina scorul z, se determină diferența dintre rezultatul primar individual și media pentru grupul normal și apoi se împarte această diferență la δ eșantionului normal.

X - scor brut (numărul de sarcini finalizate)

Mx - valoarea medie a sarcinilor finalizate pentru întregul eșantion

δ - abaterea standard (în psihologia străină SD)

Matematicianul Carl Gauss a propus o funcție care descrie distribuția normală. Graficul ecuației de distribuție normală - curba clopot unimodală simetrică (sau curba clopotului ).

Să numim media aritmetică Mx și abaterea standard δ (sigma mică). Cu o distribuție normală, toate mărimile studiate sunt în Mx ± 5 δ.

În Mx ± δ este 68,26%, restul de 31,74% sunt situate simetric la 15,87

În Mx ± 2 δ este 95,44%

Și în Mx ± 3 δ este 99,72%

PERCENTILE

Percentila este procentul de indivizi din eșantionul de standardizare care au un punctaj sub indicatorul primar dat. Scala percentilei poate fi considerată ca un set de gradații de rang cu numărul de ranguri 100 și numărând de la rangul 1, corespunzător celui mai mic rezultat;

percentila 50 ( R 50 )corespunde cu mediana distribuţiei rezultatelor

Percentilele nu trebuie confundate cu procentele obișnuite. Acestea din urmă reprezintă proporția de soluții corecte din numărul total de itemi de testare dintr-un rezultat individual. Ranguri R 1 și R 100 primesc, respectiv, cele mai mici și cele mai mari rezultate din cele observate în eșantion, totuși, aceste ranguri pot corespunde unor indicatori departe de zero (fără soluții corecte) sau absoluti (toate soluțiile sunt corecte). De exemplu, cu un total de 120 de sarcini, rezultatul minim corespunzător primului rang poate fi 6 soluții corecte, în timp ce rezultatul maxim corespunzător rangului R 100 , vor fi 95 de sarcini rezolvate corect. Această situație se observă, de exemplu, la evaluarea testelor de viteză.

Principalul dezavantaj al scalelor percentile este unitățile de măsură inegale. Într-o distribuție normală, variabilele individuale sunt grupate strâns în centrul distribuției și se dispersează pe măsură ce se îndepărtează de margini. Prin urmare, frecvențe egale de cazuri în apropierea centrului corespund unor intervale mai scurte de-a lungul axei x, situate la marginile distribuției estimărilor. Percentilele arată poziția relativă a fiecărui subiect într-un eșantion normal, dar nu și magnitudinea diferenței dintre rezultate. Acest lucru creează unele inconveniente în interpretarea rezultatelor individuale. Astfel, diferența de indicatori primari corespunzători intervalului R 70 R 80, poate fi de 10 puncte, iar diferența în numărul de soluții corecte în intervalul de ranguri R 50R 60, - doar 1 - 3 puncte.

Cu toate acestea, estimările percentile au și o serie de avantaje. Sunt ușor accesibile pentru înțelegerea utilizatorilor informațiilor de psihodiagnostic, sunt universale în raport cu diverse tipuri de metode și sunt ușor de calculat.

Norme statistice

DAR. Norme statistice. Valori limită pe scara scorurilor la test, formate pe baza distribuției de frecvență a scorurilor la test în eșantionul de standardizare. De regulă, aceste valori de limită separă un procent fix de subiecți din eșantion: (decilă), 25 (cuartilă), 50 (mediană). Într-o distribuție normală, norma statistică este descrisă folosind parametri (media plus/minus sigma sau abaterea standard). Normele statistice servesc la luarea unei „decizii comparative” și nu oferă informații pentru luarea „deciziilor normative”

B. Norme de vârstă - versiuni private ale normelor de psihodiagnostic colectate pentru copii de diferite vârste.

LA. Norme de criterii - norme de diagnostic, în care se precizează corespondența dintre scorurile testelor pe scara proprietății măsurate și nivelul indicatorului de criteriu. În cazul comportamentului de criteriu, normele de criteriu indică probabilitatea de apariție a comportamentului de criteriu pentru o valoare dată a punctajului testului.

G. normele școlare sunt elaborate pe baza unor teste de realizare școlare sau a unor teste de abilități școlare.

D. standarde profesionale. Sunt stabilite pe baza de teste pentru diferite grupuri profesionale.

E. Norme locale . Sunt stabilite pentru categorii restrânse de persoane care diferă prin prezența unei trăsături comune - vârstă, sex, zonă geografică, statut socioeconomic.

J. normele nationale. Dezvoltat pentru reprezentanții unei anumite națiuni sau țări în ansamblu.

STANAINS

Un exemplu de scară neliniară convertită într-o scală standard este scara Stanine (standard engleză nouă - standard nouă), unde scorurile iau valori de la 1 la 9, M = 5, δ = 2

Scala Stanine devine din ce în ce mai răspândită, combinând avantajele indicatorilor de scară standard și simplitatea percentilelor. Indicatorii primari sunt ușor convertiți în staline. Pentru aceasta, subiecții sunt ordonați în ordine crescătoare a rezultatelor și formează grupuri cu numărul de persoane proporțional cu anumite frecvențe de aprecieri în distribuția normală a rezultatelor testelor.

PERETI

La transformarea notelor într-o scală stans (din limba engleză standsrt zece - standard zece) o procedură similară este efectuată cu singura diferență că zece intervale standard se află la baza acestei scale.

Scalarea rezultatelor testelor

Stevens (1946) a identificat 4 niveluri de scale de măsurare, care diferă prin gradul în care estimările care le aparțin păstrează proprietățile mulțimii numerelor reale. Acestea sunt scalele:

Nominal (sau nominativ, scară de denumire)

Ordinal

Interval

Scala de relații.

Interpretarea rezultatelor testelor

În teste cu interpretare orientată spre normă sarcina principală este de a determina locul comparativ al fiecăruia dintre cei testați în grupul general de subiecți. Evident, locul fiecărui subiect depinde de contextul din care grupă este evaluat. Același rezultat poate fi clasificat ca destul de ridicat dacă grupul este slab și destul de scăzut dacă grupul este puternic. De aceea este necesar, dacă este posibil, să se utilizeze norme care să reflecte rezultatele testului de către un mare reprezentant (din eșantionul francez de subiecți.

În teste cu interpretare orientată pe criterii sarcina este de a compara realizările educaționale ale fiecărui elev cu volumul de cunoștințe, abilități și abilități planificate pentru asimilare. În acest caz, o anumită zonă de conținut este folosită ca cadru interpretativ de referință, și nu unul sau altul eșantion de subiecți. Problema principală este stabilirea unui punctaj de trecere care să-i separe pe cei care au stăpânit materialul testat de cei care nu l-au stăpânit.

Stabiliți standarde de performanță a testelor

Pentru a elimina dependența interpretării de rezultatele altor participanți la test, sunt utilizate standarde speciale de performanță a testului și, astfel, scorul primar al unui subiect individual de testare este comparat cu standardele de performanță a testului. Norme - acesta este un set de indicatori care sunt stabiliți empiric pe baza rezultatelor unui test de către un eșantion bine definit de subiecți. Dezvoltarea și procedurile de obținere a acestor indicatori sunt proces de normalizare(sau standardizare) Test. Cele mai comune norme sunt media și abaterea standard a unui set de scoruri individuale. Corelarea punctajului primar al subiectului cu standardele de performanță vă permite să stabiliți locul subiectului în eșantionul utilizat pentru standardizarea testului.

Tipuri de scale utilizate pentru a converti scorurile primare

Cele mai cunoscute conversii ale scorurilor primare sunt:

Rang percentile, reflectând procentul subiecților din grupa normativă, ale căror rezultate sunt mai mici sau egale cu o valoare dată a punctajului primar;

Liniar Z-aprecierea, definită ca raportul dintre abaterea individuală a punctajului la test și abaterea standard pentru grupul de subiecți;

Estimări care sunt o transformare liniară z-evaluări (scara T, scoruri IQ standard etc.);

Scale stanine și de perete, care se obțin prin împărțirea scarii punctelor primare în diferite intervale.

Scala de rang percentile

Percentile vă permit să stabiliți rangul indicatorului primar al subiectului în grupul normativ. Rangul percentilei corespunzător unui punctaj primar dat arată procentul subiecților din eșantionul normativ ale căror rezultate nu sunt mai mari decât scorul primar dat.

Percentilele nu trebuie confundate cu procentele reprezentând procentul sarcinilor îndeplinite corect de subiecții grupului. Spre deosebire de ultimul - primar - percentila este un indicator derivat care indică ponderea numărului total de subiecți din grup.

Pe lângă comoditatea asociată cu ușurința interpretării, rangurile percentile au dezavantaje semnificative. Scala de rang percentile este neliniară, adică, în diferite zone ale scalei de scor primar, o creștere de 1 punct poate corespunde unor creșteri diferite ale scalei percentilei. Prin urmare, percentilele nu numai că nu reflectă, dar chiar distorsionează diferențele reale în rezultatul testului.

Prin urmare, utilizarea percentilelor este destul de limitată. Datorită confortului și simplității lor, ele sunt utilizate în principal în testele orientate spre norme pentru autoevaluarea cunoștințelor elevilor, raportând rezultatele elevilor înșiși și părinților acestora.

Z- scară

Convertește rezultatele individuale la o scală standard cu un scor mediu general și o măsură comună a varianței. Z- evaluare i- th studentul se gaseste dupa formula:

Unde scor primar i- th subiectul; OCRUncertain203"> este abaterea standard a setului de scoruri primare.

Z-scala este standard cu medie zero și abatere standard unitară. Cu ajutorul acestuia, puteți aduce scorurile studenților obținute la diferite teste într-o formă convenabilă pentru comparație.

Valoare Z-estimarea este egală cu distanța dintre scorul primar considerat și valoarea medie a estimărilor pentru grup, exprimată în unități de abatere standard: în câte abateri standard se află scorul primar al subiectului sub sau peste media grupului.

Scorurile Z, cu rare excepții, iau valori din intervalul (-3, +3). Fiind convenabilă pentru analiza științifică în procesul de dezvoltare a noilor teste, scara Z este incomodă pentru utilizare practică în evaluarea cunoștințelor subiecților grupului. Scorurile Z pot lua valori fracționale și negative, cu care sunt dificil de lucrat în calcule și greu de interpretat pentru utilizatorii de testare. Rotunjirea scorurilor Z la valori întregi nu este întotdeauna acceptabilă, deoarece scopul principal al creării de teste este de a identifica diferențele în pregătirea subiecților. Valorile negative ale scorului Z, indicând rezultate sub media pentru grupul de elevi testați, provoacă și anumite neplăceri - vor provoca o respingere evidentă în rândul elevilor care le-au primit. În general, toate acestea fac ca scorul Z să fie incomod pentru raportarea rezultatelor către subiecți și obligă la utilizarea unor metode speciale de conversie pentru notarea studenților.

TransformăriZ- estimări

Transformările scorului Z urmăresc să le traducă în valori care sunt mai ușor de notat și explicat. În acest caz, transformarea utilizată trebuie să fie liniară pentru a păstra forma distribuției scorurilor Z. Formula generală pentru o astfel de transformare este

Z1= M+ σ Z,

unde Z1 este estimarea convertită, M este noua valoare medie (valoarea medie a scorurilor după transformare), - noua abatere standard. Transformările diferite au semnificații diferite Mși . Iată câteva dintre cele mai cunoscute transformări ale scorurilor Z.

T-scară(McCall, 1939, pentru raportarea performanței copiilor la testele de abilități mentale). Se alege valoarea medie M = 50 și abaterea standard σ = 10. Se obține: Z1=50 + 10 Z

scara CEEV(ETS, pentru a notifica potențialii studenți cu privire la scorurile examenului de admitere la facultate). Se alege valoarea medie M = 500 și abaterea standard σ = 100. Se obține: Z1=500 + 100 Z

Scară IQ(Weshler, 1939, pentru interpretarea scorurilor inteligenței adulților). Se alege valoarea medie M = 100 și abaterea standard σ = 15. Se obține: Z1=100 + 15 Z

Solzi de staline și pereți

Uneori, la raportarea rezultatelor, se folosesc scale formate din numere întregi unice, de exemplu, de la 1 la 9 sau de la 1 la 10. Acest lucru este convenabil pentru raportarea rezultatelor testelor, deoarece astfel de scale au o simplitate evidentă.

Împărțirea distribuției normale în 9 intervale are ca rezultat o scală Stanine cu 9 unități standard. Pe această scară, media este 5, iar abaterea standard este de aproximativ 2. Atunci când se evaluează subiecții la orice test cu orice număr de itemi, celor mai slabe scoruri de 4% li se atribuie o stanină de 1 și celor mai bune scoruri o stanină de 9. Următorul cele mai slabe și cele mai bune scoruri sunt 7% atribuiți stanines 2 și, respectiv, 8. În urma acestora, 12% din rezultate sunt stanini 3 și 7. Următorilor 17% li se atribuie stanini 4 și 6, iar în final, 20% din rezultatele medii corespund staninii 5.

În scara de perete, numită adesea scara Cattell, întreaga gamă de rezultate este împărțită în 10 părți cu un interval de 0,5 abateri standard. La scara de perete, se presupune că media aritmetică este de 5,5, iar distanța dintre două unități standard adiacente este de 0,5 din metodele cunoscute.

Metode centrate pe locuri de muncă

MetodăNedelsky(1954) - pentru sarcini închise.

Fiecare expert trebuie să analizeze toate sarcinile și să taie pentru fiecare sarcină numărul de răspunsuri pe care subiectul minim competent le va putea refuza. Pentru fiecare sarcină, expertul indică reciproca numărului de răspunsuri rămase. De exemplu, dacă într-o sarcină cu cinci răspunsuri expertul a bifat două, atunci va indica numărul 1/3 pentru această sarcină. Apoi toate aceste reciproce sunt rezumate. Numărul rezultat poate fi considerat o evaluare probabilă a subiectului minim competent de către acest expert. Apoi se face media scorurilor tuturor experților.

MetodăAngoff(1971). Experții sunt rugați să-și imagineze un grup de subiecți minim competenți și, pentru fiecare item, să estimeze proporția subiecților din acest grup care au răspuns corect la item. (Acesta este același cu estimarea probabilității ca un subiect minim competent să răspundă corect la sarcină.) Aceste probabilități sunt adăugate pentru fiecare expert și mediate pentru toți experții.

Metodăebel(1972). Această metodă utilizează o grilă 2D pentru a clasifica fiecare sarcină. Experții sunt rugați să împartă toate sarcinile în funcție de dificultate (se oferă trei niveluri de dificultate - sarcina este ușoară, dificultate medie, dificilă) și după relevanța conținutului acesteia (sunt oferite 4 niveluri de relevanță - esențial, important, acceptabil, controversat). ). Astfel, toate sarcinile sunt așezate în celulele acestei grile. Apoi experții trebuie să evalueze modul în care subiectul minim competent va îndeplini sarcinile din fiecare celulă, adică să indice procentul din numărul de sarcini din celulă la care trebuie să răspundă corect.

Metode centrate pe subiect(Nedelsky, 1954; Zieky și Livingston, 1977)

Metoda grupului contrastant

Experții se pun de acord cu privire la care este rezultatul efectuării testului la nivelul de competență minimă. Apoi experții împart toți subiecții în două grupe - competenți și incompetenți (cu excepția celor care, în opinia lor, sunt la graniță). Apoi, grafice ale distribuției punctelor pentru fiecare dintre grupuri sunt trasate pe un singur desen. Punctul de intersecție al graficelor este luat ca punctaj de trecere.

Metoda grupului de limite

Spre deosebire de metoda anterioară, experților li se cere să identifice subiecții care, în opinia lor, se află la granița dintre două grupuri contrastante care diferă ca competență. Mediana distribuției scorurilor din grupul selectat este luată ca punctaj de trecere.

Criticii acestei abordări subliniază că stabilirea unui punctaj de promovare pe baza efectuării testului de către subiecți nu corespunde în esență scopului principal al testării orientate pe criterii, întrucât această abordare nu are legătură cu conținutul testului. .

Evaluarea dezvoltării fizice a copiilor pe o scară Z - scor

O parte integrantă a oricărui program de studiere a sănătății și nutriției copiilor, atât la nivel de populație, cât și în evaluarea nutriției și sănătății individului, este urmărirea parametrilor antropometrici ai copiilor în comparație cu curbele standard de creștere. Organizația Mondială a Sănătății recomandă o metodă de evaluare a stării nutriționale a copiilor pe baza utilizării unor indicatori ai măsurătorilor corporale totale (lungime și greutate corporală). Evaluarea datelor antropometrice constă în calcularea numărului de abateri standard (Co sau s) prin care indicatorul studiat al greutății sau lungimii corporale diferă de mediana populației standard (standardele internaționale ale OMS sunt calculate pe baza datelor dintr-un studiu al parametrilor antropometrici de copii din SUA şi Marea Britanie). Se numește abaterea standard calculată Z - scor sau Z-scor.

Datele antropometrice ale fiecărui copil sunt caracterizate de scorul Z. Dacă datele antropometrice ale copilului sunt mai mici decât mediana standardului, atunci scorul Z va avea o valoare negativă, dacă indicatorii sunt peste mediană, atunci scorul Z va fi pozitiv.

valoarea Scorul Z calculat pentru trei indicatori:

1. Greutatea corporală pentru vârstă - Mt / V,

2. Lungimea corpului pentru vârstă - Dt / V,

3. Greutatea corporală pentru lungimea corpului - Mt / Dt.

Indicatorul Mt/Dt este utilizat numai la vârsta de până la 10 ani pentru fete și până la 11,5 ani pentru băieți.

Pentru diagnosticare, sunt determinate valorile limită ale SD, care ne permit să distingem următoarele opțiuni pentru indicatorii estimați:

- scăzut (n), care caracterizează DT și MT insuficiente - sunt stabilite la valori ale CO mai mici de -2;

- ridicat (in), care caracterizează excesul DT și MT - sunt setate la valori ale CO mai mari de +2;

- normal (nm)- este setat la valori CO în intervalul de la -2 la +2;

Indicele lungime pentru vârstă caracterizează creșterea liniară și evaluează întârzierea creșterii pe termen lung, adică Scorul Z mai puțin de -2 poate indica o malnutriție cronică care duce la încetinirea creșterii.

Scorul Z Greutatea corporală pentru lungimea corpului reflectă proporțiile corpului sau dezvoltarea armonioasă și este foarte sensibilă la malnutriția acută.

Scorul Z greutatea corporală pentru vârstă este sensibilă la malnutriția acută și reflectă malnutriția actuală sau recentă a copilului.

Pentru procesarea datelor antropometrice și calcularea indicilor OMS, a fost dezvoltat și distribuit gratuit un program special de calculator ANTHRO v.1.01, 1990. Programul ține cont automat de vârsta copilului în luni. În practică, atunci când se utilizează programul, este necesar să se înregistreze data nașterii și data examinării copilului.

Pentru un grup sau populație de copii, valoarea grupului Z - scor poate fi calculată și estimată statistic. Valoarea Z - scor în populația standard este egală cu zero. Cu cât scorul Z din populația studiată diferă de zero, cu atât este mai mare diferența dintre grupul de copii studiat și populația de referință. Valoarea grupului Z - scor poate fi utilizată pentru analiza comparativă a contingentelor de copii și în sistemul de monitorizare a sănătății.

Indicatorii derivați pot fi subdivizați în funcție de scopul lor. Unele dintre ele servesc la determinarea nivelului de pregătire atins la o anumită scară, în timp ce altele servesc la stabilirea poziţiei relative a subiectului într-un anumit grup normativ. În special, percentilele servesc la rezolvarea celei de-a doua probleme, permițându-vă să stabiliți rangul indicatorului primar al subiectului în grupul normativ. Clasamentul indicatorului în percentile este determinat de procentul subiecților din eșantionul de standardizare ale căror rezultate nu sunt mai mari decât acest indicator primar. Procesul de construire a unei scale de percentile constă în determinarea rangurilor percentile ale indicatorilor primari ai grupului normativ.

Metoda de construire a scalei percentilei poate fi văzută pe un mic exemplu de rezultate ale unui test efectuat de un grup de 25 de subiecți, deși, desigur, este puțin probabil să îndeplinească un astfel de eșantion în practică. De obicei, construcția acestor scale se realizează pe matrice mari. Să fie, de exemplu, 25 de elevi testați la una dintre disciplinele care au primit rezultatele primare prezentate în tabel. 7.2:

Tabelul 7.2. Rezultatele testului

Primul rând din Tabelul 7.2 conține scorurile observate ale subiecților din eșantion, ordonate de la cel mai mic la cel mai mare (de la stânga la dreapta). De obicei, pentru grupuri mari, ordonarea simplă este ineficientă și este mai convenabil să se utilizeze date grupate, care implică introducerea de note pentru grupuri individuale (a se vedea Secțiunea 5.2 pentru detalii).

A doua linie prezintă rezultatele numărării numărului de subiecți care au același punctaj la test. Fiecare element din al doilea rând arată numărul de repetări ale scorului și, prin urmare, se numește frecvența scorurilor brute observate ale subiecților. Dacă frecvențele sunt însumate de la stânga la dreapta, atunci se vor obține valorile frecvențelor acumulate (cumulate). Frecvențele cumulate sunt suma frecvențelor observate la sau sub acel scor. De exemplu, există 9 subiecți care au obținut un scor 7 sau mai mic, deoarece Frecvențele cumulate pentru un scor de 7 este numărul 9.



Calculul rangurilor percentile de completat al patrulea rând al tabelului este complicat de necesitatea de a determina limitele reale ale intervalului de încredere (vezi Secțiunea 5.5) care conține scorul adevărat al fiecărui subiect din eșantion. Lungimea reală a intervalului depinde de valoarea erorii standard a măsurării. Cu toate acestea, 0,5 unități de scor brut sunt de obicei folosite pentru a defini limitele intervalului. În acest caz, dacă subiectul a primit un punctaj de 5, valoarea adevărată a punctajului său se află în intervalul de la 4,5 la 5,5, adică. (4.5; 5), iar numerele 4.5 și 5.5 sunt numite limitele inferioare și, respectiv, superioare ale intervalului unitar al estimărilor.

Conceptele de limite „superioare” și „inferioare” sunt folosite pentru a construi o scală de ranguri percentile, presupunând o distribuție uniformă a rezultatelor subiecților în intervalul de încredere. De exemplu, la calcularea procentului

Tabelul 7.3. Construirea unei scale de rang percentile

rang pentru un scor de test de 5, se presupune că rezultatele a doi subiecți sunt situate pe intervalul (4,5; 5,5) uniform (Tabelul 7.3).

Cel mai probabil, un rezultat va fi sub punctul corespunzător lui 5, iar unul va fi deasupra acestui punct. Astfel, printre subiectele al căror punctaj adevărat este mai mic de 5, putem include trei elevi, dintre care unul are un punctaj de 3, al doilea - un punctaj de 4 și al treilea - unul de Două care a primit un scor de 5, care în termeni procentuali va fi (3/25) 100% \u003d 12%. Acesta este rangul percentilei corespunzător lui 5, care oferă o interpretare convenabilă a rezultatelor elevului: 12% dintre studenții din eșantionul normativ au completat 5 sau mai puțini itemi de test. În conformitate cu definiția introdusă mai devreme, percentila a 12-a într-un grup de 25 de subiecți este 5. Referindu-ne la datele obținute în coloana a treia a tabelului. 7.2, putem spune cu siguranță că rezultatul primar de 5 puncte este slab, deoarece depășește rezultatele de doar 12% dintre subiecții eșantionului de standardizare. Acesta este un rezultat concret și ușor de perceput, care este convenabil, în primul rând, pentru studenți atunci când compară realizările la o serie de teste. Un rezultat primar care este sub oricare dintre scorurile eșantionului de standardizare are un rang de percentilă zero. Un rezultat care este mai mare decât oricare altul din eșantion va primi un rang percentil de 100. Desigur, nici un rang zero și nici un rang de 100% nu indică cunoștințe zero sau absolute despre subiectul controlat.

Este posibil să se rezolve problema inversă atunci când este necesar să se determine r-th percentila, sau mai degrabă, punctul sub care se află R % rezultate . Pentru determinare p-th percentila, trebuie să parcurgeți 5 pași, care se obțin folosind tabelul. 7.4 și sunt date în tabel. 7.5.

Tabelul 7.4. Relația dintre scorurile brute și frecvențe

Tabelul 7.5.Determinarea percentilelor

Etapa Etapa de calcul Exemplu de calcul
Calcul (rl)/100%, unde P- frecvenţa cumulativă în grupul de evaluare
Determinarea limitei inferioare efective L categorie de estimări care conţin rezultatul etapei I
Scăderea k acumulat L frecvente (cum.f) din rezultatul primei etape (determinarea frecvențelor de mai jos (rp)/100%)
Determinarea fracției din intervalul de descărcări care se află sub frecvență (rp)/100%
Adăugarea rezultatelor pasului 4 la rezultatele pasului 2. Formula finală

Percentilele nu trebuie confundate cu procentele reprezentând procentul sarcinilor îndeplinite corect de subiecții grupului. Spre deosebire de acesta din urmă, percentila primară este un indicator derivat care indică ponderea numărului total de subiecți din grup.

Pe lângă comoditatea ușurinței interpretării, rangurile percentile au două dezavantaje semnificative. Primul este că rangurile percentile sunt valori ale unei scale ordinale, deoarece arată poziția relativă a fiecărui individ în eșantionul normativ și nu dezvăluie diferența dintre rezultatele subiecților individuali ai grupului. Al doilea dezavantaj îl agravează într-o anumită măsură pe primul - percentilele nu numai că nu reflectă, dar chiar distorsionează diferențele reale în rezultatul testului. Acest lucru se datorează particularităților distribuției percentilelor, care are un caracter dreptunghiular. Distribuția indicatorilor primari diferă semnificativ de una dreptunghiulară și se apropie de o curbă normală pentru teste bune orientate spre norme. În acest sens, abaterile mici de la media din centrul distribuției rezultatelor observate sunt mult crescute cu percentile, în timp ce abaterile relativ mari de la marginile curbei clopot vor fi comprimate.

Dezavantajele menționate sunt principalul motiv pentru care utilizarea percentilelor este destul de limitată. Datorită confortului și simplității lor, ele sunt utilizate în principal în testele de autoevaluare a cunoștințelor elevilor.

SCALA Z

Cea mai simplă metodă de identificare a locului rezultatului elevului i-lea (X)în comparație cu rezultatele altora se bazează pe calcularea abaterii scorului Xi de la valoarea medie a scorurilor X pentru un grup de studenți testați. Abaterea se găsește calculând diferența X-X f Dacă diferența X-Xt> Oh, atunci rezultatul 1 elev peste media grupului. O valoare negativă a diferenței indică un rezultat sub medie. X.

Întrucât mediile aritmetice obținute pentru diferite teste și în diferite grupuri diferă semnificativ, se pune problema comparabilității abaterilor. Același scor X tîntr-un grup slab poate fi peste medie, într-un grup puternic poate fi mult mai scăzut. În plus, scara de abatere se dovedește a fi întinsă diferit în funcție de lungimea testului.

Un mijloc convenabil de a depăși dificultățile observate este conversia rezultatelor individuale într-o scară Z standard cu un scor mediu general și o măsură comună a variației scorului. În general, construcția scalelor standard se realizează prin transformări liniare sau neliniare ale scorurilor brute. Într-o transformare liniară, scorurile standard exprimă abaterea scorurilor individuale de la scorul brut mediu în unități proporționale cu abaterea standard a distribuției. În acest din urmă caz, rezultatul scalat al elevului i-lea se găsește prin formula

Unde X.- scorul brut al subiectului i; X- valoarea medie a punctajelor individuale ale subiecților de testare ai grupului (i= 1,2,..., N); S x- abaterea standard asupra setului de scoruri brute calculate folosind formula (vezi secțiunea 5.2).

Datorită faptului că din fiecare valoare iniţială X ( scazut X, același ^ se scade din media scorurilor originale. Prin urmare, media aritmetică a diferenței X-Xi(/ = 1,2,..., N), obținut pentru grupul de elevi testați este egal cu zero. Această afirmație este ilustrată destul de convingător de exemplul de calcul al valorii medii a diferențelor X-X i pentru o matrice a rezultatelor testelor de 10 subiecți (secțiunea 5.2). Suma diferențelor este egală cu zero:

În mod similar, este ușor de arătat că abaterea standard asupra setului de valori este 1. Astfel, scorul Z este standard cu medie zero și o abatere standard. Cu ajutorul acestuia, este posibil să aduceți scorurile studenților obținute la diferite teste într-o formă convenabilă pentru comparare prin normalizarea rezultatelor individuale.

Pentru exemplul de mai sus, scorurile a 10 subiecți pe scara Z sunt obținute prin împărțirea diferențelor calculate la abaterea standard de 2,6:

Este interesant de comparat rezultatele scalate obținute cu scorurile brute a 10 subiecți (Tabelul 7.6).

Tabelul 7.6. Rezultate comparative

Numărul subiectului i Numărul postului X i Xi-X Zi
0,38
-0 -1,14
-4" -1,52
-1,52
-1 -0,38
-1 -0,38
-1 -0,38
-1,52
0,38
X=5 Sx=2,6 Suma = 0 Z=0 S z =\

Când se utilizează teste care au trecut de o etapă de standardizare pe termen lung și au estimări stabile ale parametrilor generali, conversia scorurilor brute la scara Z se realizează conform formulei

Unde Mși un x - media aritmetică generală și, respectiv, varianța generală.

Evident, pentru un scor brut exact egal cu media, scorul Z merge la zero. Valorile Z negative indică performanță sub medie, în timp ce valorile Z pozitive indică performanță bună, peste media grupului a scorurilor brute.

Scorurile Z sunt utile în special în cazul unei distribuții normale a scorurilor primare, când toate valorile Z variază în general între -3 și +3. Uneori, încearcă să extindă intervalul de variație și să ia în considerare toate scorurile cuprinse între -5 și +5, ceea ce, fără îndoială, este lipsit de sens, deoarece valorile de la sfârșitul intervalului sunt determinate cu o eroare de măsurare foarte mare.

Avantajul fără îndoială al scării Z este media aritmetică comună și măsura generală a variației datelor, ceea ce face posibilă obținerea comparabilității rezultatelor în diferite teste. Cu toate acestea, pe lângă avantajele evidente, există și dezavantaje. Fiind convenabilă pentru analiza științifică în procesul de dezvoltare a noilor teste, scara Z este incomodă pentru utilizare practică în evaluarea cunoștințelor subiecților grupului. Acest lucru se datorează în primul rând faptului că valorile Z trebuie adesea calculate cu mai multe zecimale, deoarece media scorurilor individuale este rareori un număr întreg. Deoarece identificarea diferențelor în pregătirea testului este scopul principal al proiectării testului, este ușor de înțeles că rotunjirea scorurilor Z nu este întotdeauna acceptabilă, deoarece poate anula diferențele inițiale în scorurile individuale și, prin urmare, poate reduce efectul de diferențiere al Test.

Efectul reducerii capacității de diferențiere a testului ca rezultat al rotunjirii scorurilor Z poate fi ilustrat printr-un exemplu de date din tabel. 7.6. Rezultatele celui de-al doilea și al treilea subiect care diferă înainte de rotunjirea Z 2 = -1,14 și Z 3 = -1,52 se transformă după aceasta în aceleași scoruri Z 2 = Z 3 = - 1.

Anumite inconveniente sunt cauzate de valorile negative ale scorului Z, indicând rezultate sub media pentru grupul de elevi testați. Este clar că în practica controlului, valorile negative ale scorurilor Z vor provoca o respingere evidentă în rândul elevilor care le-au primit. În general, toate acestea fac ca scorul Z să fie incomod pentru raportarea rezultatelor către subiecții grupului și forțează utilizarea unor metode speciale de conversie pentru notarea studenților.