Gesamtpunktzahl. Etablieren Sie Testleistungsstandards


Skalierungstestergebnisse

Stevens (1946) identifizierte 4 Ebenen von Messskalen, die sich darin unterscheiden, inwieweit die zugehörigen Schätzungen die Eigenschaften der Menge der reellen Zahlen beibehalten. Das sind die Waagen:

Nominal (oder Nominativ, Namensskala)

Ordinal

Intervall

Beziehungsskala.

Interpretation der Testergebnisse

Bei Tests mit normorientierte Auslegung Die Hauptaufgabe besteht darin, den Vergleichsplatz jedes der Geprüften in der allgemeinen Gruppe von Fächern zu bestimmen. Offensichtlich hängt der Platz jedes Themas davon ab, aus welcher Gruppe es bewertet wird. Dasselbe Ergebnis kann bei einer schwachen Gruppe als ziemlich hoch und bei einer starken Gruppe als eher niedrig eingestuft werden. Deshalb ist es notwendig, wenn möglich Normen zu verwenden, die die Testergebnisse einer großen repräsentativen Stichprobe von Probanden widerspiegeln.

Bei Tests mit kriterienorientierte Interpretation Die Aufgabe besteht darin, die schulischen Leistungen jedes Schülers mit dem für die Assimilation geplanten Umfang an Kenntnissen, Fähigkeiten und Fertigkeiten zu vergleichen. In diesem Fall wird ein bestimmter Inhaltsbereich als interpretativer Bezugsrahmen verwendet und nicht die eine oder andere Stichprobe von Themen. Das Hauptproblem ist die Festlegung einer zum Bestehen erforderlichen Punktzahl, die diejenigen, die den zu testenden Stoff beherrschen, von denen trennt, die ihn nicht beherrschen.

Etablieren Sie Testleistungsstandards

Um die Abhängigkeit der Interpretation von den Ergebnissen anderer Testteilnehmer zu eliminieren, werden spezielle Testleistungsstandards verwendet und somit die Primärpunktzahl einer einzelnen Testperson mit den Testleistungsstandards verglichen. Normen - Hierbei handelt es sich um eine Reihe von Indikatoren, die empirisch auf der Grundlage der Ergebnisse eines Tests durch eine genau definierte Stichprobe von Probanden ermittelt werden. Die Entwicklung und Verfahren zum Erhalt dieser Indikatoren sind Normalisierungsprozess(oder Standardisierung) Prüfung. Die gebräuchlichsten Normen sind der Mittelwert und die Standardabweichung einer Reihe von Einzelwerten. Durch die Korrelation der Primärpunktzahl des Fachs mit den Leistungsstandards können Sie den Platz des Fachs in der zur Standardisierung des Tests verwendeten Stichprobe ermitteln.

Arten von Skalen, die zum Konvertieren von Primärwerten verwendet werden

Die bekanntesten Umrechnungen von Primärwerten sind:

Perzentilrang, der den Prozentsatz der Probanden in der normativen Gruppe widerspiegelt, deren Ergebnisse niedriger oder gleich einem bestimmten Wert der Primärpunktzahl sind;

Linear Z-Bewertung, definiert als das Verhältnis der individuellen Abweichung des Testergebnisses zur Standardabweichung für die Gruppe der Probanden;

Schätzungen, die eine lineare Transformation sind z-Bewertungen (T-Skala, Standard-IQ-Werte usw.);

Stanine- und Wandskalen, die durch Unterteilen der Skala der Primärpunkte in verschiedene Intervalle erhalten werden.

Perzentile Rangskala

Mit Perzentilen können Sie den Rang des primären Indikators des Subjekts in der normativen Gruppe festlegen. Der Perzentilrang, der einem gegebenen Primärwert entspricht, zeigt den Prozentsatz der Probanden in der Normstichprobe, deren Ergebnisse nicht höher als der gegebene Primärwert sind.

Perzentile sollten nicht mit Prozentsätzen verwechselt werden, die den Prozentsatz der Aufgaben darstellen, die von den Probanden der Gruppe korrekt erledigt wurden. Im Gegensatz zum letzten – primären – ist das Perzentil ein abgeleiteter Indikator, der den Anteil an der Gesamtzahl der Probanden in der Gruppe angibt.

Neben der Bequemlichkeit, die mit der einfachen Interpretation verbunden ist, haben Perzentilränge erhebliche Nachteile. Die Skala der Perzentilränge ist nichtlinear, d.h. In verschiedenen Bereichen der primären Punkteskala kann eine Erhöhung um 1 Punkt unterschiedlichen Erhöhungen auf der Perzentilskala entsprechen. Daher spiegeln Perzentile nicht nur nicht wider, sondern verfälschen sogar die tatsächlichen Unterschiede im Ergebnis des Tests.

Daher ist die Verwendung von Perzentilen eher begrenzt. Aufgrund ihrer Bequemlichkeit und Einfachheit werden sie hauptsächlich in normorientierten Tests zur Selbsteinschätzung des Wissens der Schüler verwendet, wobei die Ergebnisse den Schülern selbst und ihren Eltern mitgeteilt werden.

Z-Skala

Konvertiert einzelne Ergebnisse in eine Standardskala mit einer durchschnittlichen Gesamtpunktzahl und einem gemeinsamen Varianzmaß. Z- Auswertung i-ten Student wird durch die Formel gefunden:

Woher primäre Punktzahl i-ten das Thema; - Durchschnitt der Einzelnoten N Testgruppe ( i=1,2,…,N); ist die Standardabweichung für den Satz von Primärwerten.

Z-Skala ist Standard mit Mittelwert Null und Einheitsstandardabweichung. Mit seiner Hilfe können Sie die Ergebnisse von Schülern, die bei verschiedenen Tests erzielt wurden, in eine Form bringen, die für den Vergleich geeignet ist.

Wert Z-Schätzung ist gleich dem Abstand zwischen der berücksichtigten Primärpunktzahl und dem Durchschnittswert der Schätzungen für die Gruppe, ausgedrückt in Einheiten der Standardabweichung: Innerhalb von wie vielen Standardabweichungen liegt die Primärpunktzahl des Probanden unter oder über dem Gruppenmittel.

Z-Scores nehmen mit seltenen Ausnahmen Werte aus dem Intervall (-3, +3) an. Da die Z-Skala für die wissenschaftliche Analyse im Prozess der Entwicklung neuer Tests geeignet ist, ist sie für die praktische Verwendung bei der Bewertung des Wissens der Themen der Gruppe unbequem. Z-Scores können gebrochene und negative Werte annehmen, die in Berechnungen schwer zu verarbeiten und für Testbenutzer schwer zu interpretieren sind. Das Runden von Z-Scores auf ganzzahlige Werte ist nicht immer akzeptabel, weil Der Hauptzweck der Erstellung von Tests besteht darin, Unterschiede in der Vorbereitung der Probanden zu identifizieren. Negative Z-Score-Werte, die Ergebnisse unter dem Durchschnitt der Gruppe der getesteten Schüler anzeigen, verursachen auch gewisse Unannehmlichkeiten – sie werden bei den Schülern, die sie erhalten haben, eine offensichtliche Ablehnung hervorrufen. Im Allgemeinen macht all dies den Z-Score unpraktisch, um den Probanden Ergebnisse zu melden, und erzwingt die Verwendung spezieller Umrechnungsmethoden für die Bewertung von Schülern.

Z-Score-Transformationen

Z-Score-Transformationen zielen darauf ab, sie in Werte zu übersetzen, die einfacher aufzuschreiben und zu erklären sind. In diesem Fall muss die verwendete Transformation linear sein, um die Form der Verteilung der Z-Scores beizubehalten. Die allgemeine Formel für eine solche Transformation lautet

Z1 = M+ ? Z ,

Wobei Z 1 die umgewandelte Schätzung ist, M ist der neue Mittelwert (der Mittelwert der Bewertungen nach der Transformation), - neue Standardabweichung. Unterschiedliche Transformationen haben unterschiedliche Bedeutungen M und . Hier sind einige der bekanntesten Transformationen von Z-Scores.

Spur T(McCall, 1939, für die Berichterstattung über die Leistung von Kindern bei Tests zur geistigen Leistungsfähigkeit). Der Mittelwert wird gewählt M = 50 und Standardabweichung? = 10. Wir erhalten: Z 1 \u003d 50 + 10 Z

CEEV-Skala(ETS, um potenzielle Studenten über die Ergebnisse der Aufnahmeprüfung für das College zu informieren). Der Mittelwert wird gewählt M = 500 und Standardabweichung? = 100. Wir erhalten: Z 1 \u003d 500 + 100 Z

IQ-Skala(Weshler, 1939, zur Interpretation der Intelligenzwerte von Erwachsenen). Der Mittelwert wird gewählt M = 100 und Standardabweichung? = 15. Wir erhalten: Z 1 \u003d 100 + 15 Z

Schuppen von Stalines und Mauern

Manchmal werden beim Melden von Ergebnissen Skalen verwendet, die aus einzelnen ganzen Zahlen bestehen, z. B. von 1 bis 9 oder von 1 bis 10. Dies ist praktisch für das Melden von Testergebnissen, weil. solche Skalen sind offensichtlich einfach.

Die Unterteilung der Normalverteilung in 9 Intervalle ergibt eine Stanine-Skala mit 9 Standardeinheiten. Auf dieser Skala beträgt der Mittelwert 5 und die Standardabweichung ungefähr 2. Bei der Bewertung von Probanden in einem beliebigen Test mit einer beliebigen Anzahl von Items wird den schlechtesten 4 % eine Stanine von 1 und den besten Ergebnissen eine Stanine von 9 zugewiesen. Die nächste Die schlechtesten und besten Ergebnisse sind 7%, die Stanine 2 bzw. 8 zuweisen. Die nächsten 12 % der Ergebnisse sind die Stannine 3 und 7. Den nächsten 17 % werden die Stannine 4 und 6 zugeordnet, und schließlich entsprechen 20 % der durchschnittlichen Ergebnisse dem Stannin 5.

In der Wandskala, oft Cattell-Skala genannt, wird die gesamte Reihe von Ergebnissen in 10 Teile mit einem Intervall von 0,5 Standardabweichung unterteilt. Bei der Wandskala wird der arithmetische Mittelwert mit 5,5 angenommen, der Abstand zwischen zwei benachbarten Normeinheiten mit 0,5.

Manchmal wird eine Elf-Punkte-Skala aus der Stanine-Skala erhalten, indem ein Prozent der stärksten und schwächsten Probanden identifiziert und ihnen die maximale bzw. minimale Punktzahl zugewiesen wird.

Festlegen einer bestandenen Punktzahl

Es gibt viele Methoden, um bei kriterienorientierten Tests eine zum Bestehen erforderliche Punktzahl zu ermitteln. Alle Methoden sind in absolute und relative unterteilt. Bei fast allen Methoden sind Experten in das Verfahren zur Ermittlung der Bestehensgrenze eingebunden. Werfen wir einen Blick auf einige der bekannten Methoden.

Jobzentrierte Methoden

Nedelsky-Methode(1954) - für geschlossene Aufgaben.

Jeder Experte muss alle Aufgaben analysieren und für jede Aufgabe die Anzahl der Antworten ankreuzen, die der minimal kompetente Proband ablehnen kann. Für jede Aufgabe gibt der Experte den Kehrwert der Anzahl der verbleibenden Antworten an. Wenn der Experte beispielsweise bei einer Aufgabe mit fünf Antworten zwei durchgestrichen hat, gibt er für diese Aufgabe die Zahl 1/3 an. Dann werden alle diese Kehrwerte summiert. Die resultierende Zahl kann als wahrscheinliche Einschätzung des mindestens kompetenten Faches durch diesen Experten angesehen werden. Anschließend werden die Bewertungen aller Experten gemittelt.

Angoff-Methode(1971). Experten werden gebeten, sich eine Gruppe minimal kompetenter Probanden vorzustellen und für jedes Item den Anteil der Probanden in dieser Gruppe zu schätzen, die das Item richtig beantwortet haben. (Dies entspricht der Schätzung der Wahrscheinlichkeit, dass ein minimal kompetenter Proband die Aufgabe richtig beantwortet.) Diese Wahrscheinlichkeiten werden für jeden Experten addiert und über alle Experten gemittelt.

Ebel-Methode(1972). Diese Methode verwendet ein 2D-Raster, um jede Aufgabe zu kategorisieren. Experten werden gebeten, alle Aufgaben nach Schwierigkeitsgrad (es werden drei Schwierigkeitsgrade angeboten - die Aufgabe ist leicht, mittelschwer, schwierig) und nach inhaltlicher Relevanz (es werden 4 Relevanzgrade angeboten - wesentlich, wichtig, akzeptabel, kontrovers) einzuteilen ). Somit sind alle Aufgaben in den Zellen dieses Rasters angeordnet. Dann müssen die Experten bewerten, wie das minimal kompetente Subjekt die Aufgaben in jeder Zelle ausführen wird, d.h. Geben Sie den Prozentsatz der Anzahl der Aufgaben in der Zelle an, die er richtig beantworten muss.

Subjektzentrierte Methoden(Nedelsky, 1954; Zieky und Livingston, 1977)

Kontrastierende Gruppenmethode

Die Experten einigen sich darauf, was das Ergebnis der Durchführung des Tests auf dem Niveau der Mindestkompetenz ist. Dann teilen die Experten alle Themen in zwei Gruppen ein - kompetent und inkompetent (ausgenommen diejenigen, die ihrer Meinung nach an der Grenze sind). Als nächstes werden Graphen der Verteilung von Punkten für jede der Gruppen auf einer Zeichnung aufgetragen. Der Schnittpunkt der Graphen wird als Bestehenswert genommen.

Grenzgruppenmethode

Im Gegensatz zur bisherigen Methode werden Experten gebeten, Probanden zu identifizieren, die ihrer Meinung nach an der Grenze zwischen zwei kontrastierenden Gruppen liegen, die sich in ihrer Kompetenz unterscheiden. Der Median der Verteilung der Noten der ausgewählten Gruppe wird als die zum Bestehen erforderliche Punktzahl genommen.

Kritiker dieses Ansatzes weisen darauf hin, dass die Ermittlung einer Bestehensgrenze auf der Grundlage der Testleistung der Probanden im Kern nicht dem Hauptziel des kriterienorientierten Testens entspreche dieser Ansatz hat nichts mit dem Inhalt des Tests zu tun.

Standardisierung

- Vereinheitlichung, um das Verfahren und die Testergebnisse auf die gleichen Standards zu bringen. Dank der Standardisierung der Methodik wird die Vergleichbarkeit der für verschiedene Fächer erzielten Ergebnisse erreicht und es wird möglich, Testergebnisse in Indikatoren relativ zur Standardisierungsstichprobe auszudrücken.

1) Standardisierung - Bearbeitung und Regelung des Durchführungsverfahrens, Vereinheitlichung der Anweisungen, Erhebungsformulare, Methoden zur Erfassung der Ergebnisse, Bedingungen zur Durchführung der Erhebung, Merkmale der Probandenkontingente. Die strenge Periodizität des Prüfungsverfahrens ist eine Voraussetzung, um die Zuverlässigkeit der Prüfung zu gewährleisten und die Prüfungsnormen für die Bewertung der Prüfungsergebnisse festzulegen.

2) Standardisierung - Umwandlung der normalen Bewertungsskala in eine neue Skala, die nicht auf den quantitativen Werten des untersuchten Indikators basiert, sondern auf seiner relativen Position in der Verteilung der Ergebnisse in der Stichprobe der Probanden.

Stufen der Standardisierung

Stufe 1. Schaffung eines einheitlichen Prüfverfahrens.

Es besteht darin, die Momente der diagnostischen Situation zu bestimmen.

· Testbedingungen (Raum, Beleuchtung und andere externe Faktoren).

· Der Inhalt der Anweisung und die Merkmale ihrer Präsentation (Tonfall, Pausen, Sprechgeschwindigkeit usw.).

· Das Vorhandensein von Standard-Stimulus-Material (z. B. Rorschach-Karten).

· Fristen für diesen Test.

· Standardformular zur Durchführung dieses Tests.

· Berücksichtigung des Einflusses situativer Faktoren auf den Prozess und die Testergebnisse.

· Berücksichtigung des Einflusses des Verhaltens des Diagnostikers auf den Verlauf und das Testergebnis

· Berücksichtigung des Einflusses der Erfahrung des Probanden beim Testen.

Stufe 2. Erstellung einer einheitlichen Bewertung der Testleistung. Mit Standardinterpretation der erhaltenen Ergebnisse und vorläufige Standardverarbeitung. In diesem Stadium wird der erhaltene Indikator mit der Norm für die Durchführung dieses Tests für ein bestimmtes Alter verglichen.

Stufe 3. Bestimmung von Testleistungsstandards. Normen werden für verschiedene Altersgruppen, Berufe, Geschlechter usw. entwickelt.

z-Score

Die häufigsten Transformationen primärer Schätzungen sind Zentrierung und Normalisierung durch Standardabweichungen. Das Normierungsverfahren besteht im Übergang zu anderen Maßeinheiten. Die Normalisierungsfunktion ist in der Regel Z-Score (Standardindikator), der die Abweichung eines Einzelergebnisses ausdrückt X in Einheiten proportional zur Standardabweichung.

Weit verbreiteter in der Psychodiagnostik sind Standardindikatoren, die auf der Grundlage einer linearen und nichtlinearen Transformation von nach einem normalen oder normalnormalen Gesetz verteilten Primärindikatoren berechnet werden. Bei einer solchen Berechnung wird eine z-Transformation der Schätzungen durchgeführt. Um den Z-Standardwert zu bestimmen, bestimmen Sie die Differenz zwischen dem individuellen Primärergebnis und dem Mittelwert für die Normalgruppe und dividieren Sie diese Differenz dann durch das δ der Normalstichprobe.

X - Rohpunktzahl (Anzahl der erledigten Aufgaben)

Mx - der Durchschnittswert der abgeschlossenen Aufgaben für die gesamte Stichprobe

δ - Standardabweichung (in der Fremdpsychologie SD)

Der Mathematiker Carl Gauß schlug eine Funktion vor, die die Normalverteilung beschreibt. Nor- symmetrische unimodale Glockenkurve (bzw Glockenkurve ).

Nennen wir das arithmetische Mittel Mx und die Standardabweichung δ (Sigma klein). Bei einer Normalverteilung liegen alle untersuchten Größen innerhalb von Mx ± 5 δ.

Innerhalb von Mx ± δ sind 68,26 %, die restlichen 31,74 % liegen symmetrisch bei 15,87

Innerhalb von Mx ± 2 δ ist 95,44 %

Und innerhalb von Mx ± 3 δ ist 99,72 %

PERZENTILE

Perzentil ist der Prozentsatz der Personen aus der Standardisierungsstichprobe, die unter dem angegebenen Primärindikator liegen. Die Perzentilskala kann als Reihe von Rangabstufungen betrachtet werden, wobei die Anzahl der Ränge 100 beträgt und ab dem 1. Rang gezählt wird, was dem niedrigsten Ergebnis entspricht;

50. Perzentil ( R 50 ) entspricht dem Median der Ergebnisverteilung

Perzentile sollten nicht mit regulären Prozentsätzen verwechselt werden. Letztere stellen den Anteil richtiger Lösungen an der Gesamtzahl der Testaufgaben in einem Einzelergebnis dar. Ränge R1 und R 100 erhalten jeweils die niedrigsten und höchsten Ergebnisse von den in der Stichprobe beobachteten, diese Ränge können jedoch Indikatoren weit von Null (keine richtigen Lösungen) oder absoluten (alle Lösungen sind richtig) Indikatoren entsprechen. Beispielsweise kann bei insgesamt 120 Aufgaben das dem ersten Rang entsprechende Minimalergebnis 6 richtige Lösungen sein, während das dem Rang entsprechende Maximalergebnis sein kann R 100 , werden 95 richtig gelöste Aufgaben sein. Diese Situation wird beispielsweise bei der Auswertung von Speedtests beobachtet.

Der Hauptnachteil von Perzentilskalen sind die ungleichmäßigen Maßeinheiten. Bei einer Normalverteilung sind einzelne Variablen in der Mitte der Verteilung eng gruppiert und streuen, wenn sie sich von den Rändern entfernen. Daher entsprechen gleiche Häufigkeiten von Fällen nahe der Mitte kürzeren Intervallen entlang der x-Achse, die sich an den Rändern der Verteilung der Schätzungen befinden. Perzentile zeigen die relative Position jedes Probanden in einer normalen Stichprobe, aber nicht die Größe des Unterschieds zwischen den Ergebnissen. Dies führt zu einigen Unannehmlichkeiten bei der Interpretation einzelner Ergebnisse. Somit entspricht der Unterschied in den Primärindikatoren dem Intervall R 70 R 80, kann 10 Punkte betragen, und der Unterschied in der Anzahl der richtigen Lösungen im Bereich der Ränge R 50R 60, - nur 1 - 3 Punkte.

Perzentilschätzungen haben jedoch auch eine Reihe von Vorteilen. Sie sind dem Verständnis der Nutzer psychodiagnostischer Informationen leicht zugänglich, universell in Bezug auf verschiedene Arten von Methoden und leicht zu berechnen.

Statistische Normen

SONDERN. Statistische Normen. Grenzwerte der Testnotenskala, gebildet anhand der Häufigkeitsverteilung von Testnoten in der Standardisierungsstichprobe. In der Regel trennen diese Grenzwerte einen festen Prozentsatz von Probanden aus der Stichprobe: (Dezil), 25 (Quartil), 50 (Median). Bei einer Normalverteilung wird die statistische Norm durch Parameter (Mittelwert plus/minus Sigma oder Standardabweichung) beschrieben. Statistische Normen dienen der „Vergleichsentscheidung“ und geben keine Auskunft für „normative Entscheidungen“

B. Altersnormen - private Versionen psychodiagnostischer Normen, die für Kinder unterschiedlichen Alters gesammelt wurden.

BEIM. Kriteriennormen - diagnostische Normen, in denen die Übereinstimmung zwischen den Testergebnissen auf der Skala der gemessenen Eigenschaft und dem Niveau des Kriteriumsindikators angegeben ist. Im Fall von Kriteriumsverhalten geben Kriteriumsnormen die Wahrscheinlichkeit des Auftretens von Kriteriumsverhalten für einen gegebenen Wert des Testergebnisses an.

G. Schulnormen werden auf der Grundlage von schulischen Leistungstests oder schulischen Befähigungstests entwickelt.

D. professionelle Maßstäbe. Werden anhand von Tests für verschiedene Berufsgruppen ermittelt.

E. Lokale Normen . Sie werden für enge Kategorien von Personen festgelegt, die sich durch ein gemeinsames Merkmal unterscheiden - Alter, Geschlecht, geografisches Gebiet, sozioökonomischer Status.

J. nationale Normen. Entwickelt für Vertreter einer bestimmten Nation oder eines Landes als Ganzes.

STANAINE

Ein Beispiel für eine nichtlineare, in eine Standardskala umgewandelte Skala ist die Stanine-Skala (englischer Standard neun – Standard neun), bei der die Punktzahlen Werte von 1 bis 9 annehmen, M = 5, δ = 2

Die Stanine-Skala findet immer mehr Verbreitung und kombiniert die Vorteile von Standard-Skalenindikatoren mit der Einfachheit von Perzentilen. Primärindikatoren lassen sich leicht in Stalines umwandeln. Dazu werden die Probanden nach aufsteigender Ergebnisreihenfolge gereiht und bilden daraus Gruppen mit Personenzahlen proportional zu bestimmten Bewertungshäufigkeiten in der Normalverteilung der Testergebnisse.

WÄNDE

Beim Umwandeln von Noten in eine Skala Stans (vom englischen standrt ten - standard ten) wird ein ähnliches Verfahren durchgeführt, mit dem einzigen Unterschied, dass dieser Skala zehn Standardintervalle zugrunde liegen.

Skalierungstestergebnisse

Stevens (1946) identifizierte 4 Ebenen von Messskalen, die sich darin unterscheiden, inwieweit die zugehörigen Schätzungen die Eigenschaften der Menge der reellen Zahlen beibehalten. Das sind die Waagen:

Nominal (oder Nominativ, Namensskala)

Ordinal

Intervall

Beziehungsskala.

Interpretation der Testergebnisse

Bei Tests mit normorientierte Auslegung Die Hauptaufgabe besteht darin, den Vergleichsplatz jedes der Geprüften in der allgemeinen Gruppe von Fächern zu bestimmen. Offensichtlich hängt der Platz jedes Themas davon ab, aus welcher Gruppe es bewertet wird. Dasselbe Ergebnis kann bei einer schwachen Gruppe als ziemlich hoch und bei einer starken Gruppe als eher niedrig eingestuft werden. Deshalb ist es notwendig, wenn möglich, Normen zu verwenden, die die Testergebnisse einer großen repräsentativen Gruppe (aus einer französischen Probandenstichprobe) widerspiegeln.

Bei Tests mit kriterienorientierte Interpretation Die Aufgabe besteht darin, die schulischen Leistungen jedes Schülers mit der Menge an Kenntnissen, Fähigkeiten und Fertigkeiten zu vergleichen, die für die Assimilation vorgesehen sind. In diesem Fall wird ein bestimmter Inhaltsbereich als interpretativer Bezugsrahmen verwendet und nicht die eine oder andere Stichprobe von Themen. Das Hauptproblem ist die Festlegung einer zum Bestehen erforderlichen Punktzahl, die diejenigen, die den zu testenden Stoff beherrschen, von denen trennt, die ihn nicht beherrschen.

Etablieren Sie Testleistungsstandards

Um die Abhängigkeit der Interpretation von den Ergebnissen anderer Testteilnehmer zu eliminieren, werden spezielle Testleistungsstandards verwendet und somit die Primärpunktzahl einer einzelnen Testperson mit den Testleistungsstandards verglichen. Normen - Hierbei handelt es sich um eine Reihe von Indikatoren, die empirisch auf der Grundlage der Ergebnisse eines Tests durch eine genau definierte Stichprobe von Probanden ermittelt werden. Die Entwicklung und Verfahren zum Erhalt dieser Indikatoren sind Normalisierungsprozess(oder Standardisierung) Prüfung. Die gebräuchlichsten Normen sind der Mittelwert und die Standardabweichung einer Reihe von Einzelwerten. Durch die Korrelation der Primärpunktzahl des Fachs mit den Leistungsstandards können Sie den Platz des Fachs in der zur Standardisierung des Tests verwendeten Stichprobe ermitteln.

Arten von Skalen, die zum Konvertieren von Primärwerten verwendet werden

Die bekanntesten Umrechnungen von Primärwerten sind:

Perzentilrang, der den Prozentsatz der Probanden in der normativen Gruppe widerspiegelt, deren Ergebnisse niedriger oder gleich einem bestimmten Wert der Primärpunktzahl sind;

Linear Z-Bewertung, definiert als das Verhältnis der individuellen Abweichung des Testergebnisses zur Standardabweichung für die Gruppe der Probanden;

Schätzungen, die eine lineare Transformation sind z-Bewertungen (T-Skala, Standard-IQ-Werte usw.);

Stanine- und Wandskalen, die durch Unterteilen der Skala der Primärpunkte in verschiedene Intervalle erhalten werden.

Perzentile Rangskala

Mit Perzentilen können Sie den Rang des primären Indikators des Subjekts in der normativen Gruppe festlegen. Der Perzentilrang, der einem gegebenen Primärwert entspricht, zeigt den Prozentsatz der Probanden in der Normstichprobe, deren Ergebnisse nicht höher als der gegebene Primärwert sind.

Perzentile sollten nicht mit Prozentsätzen verwechselt werden, die den Prozentsatz der Aufgaben darstellen, die von den Probanden der Gruppe korrekt erledigt wurden. Im Gegensatz zum letzten – primären – ist das Perzentil ein abgeleiteter Indikator, der den Anteil an der Gesamtzahl der Probanden in der Gruppe angibt.

Neben der Bequemlichkeit, die mit der einfachen Interpretation verbunden ist, haben Perzentilränge erhebliche Nachteile. Die Perzentil-Rangskala ist nichtlinear, d. h. in verschiedenen Bereichen der primären Score-Skala kann eine Erhöhung um 1 Punkt unterschiedlichen Erhöhungen auf der Perzentilskala entsprechen. Daher spiegeln Perzentile nicht nur nicht wider, sondern verfälschen sogar die tatsächlichen Unterschiede im Ergebnis des Tests.

Daher ist die Verwendung von Perzentilen eher begrenzt. Aufgrund ihrer Bequemlichkeit und Einfachheit werden sie hauptsächlich in normorientierten Tests zur Selbsteinschätzung des Wissens der Schüler verwendet, wobei die Ergebnisse den Schülern selbst und ihren Eltern mitgeteilt werden.

Z- Skala

Konvertiert einzelne Ergebnisse in eine Standardskala mit einer durchschnittlichen Gesamtpunktzahl und einem gemeinsamen Varianzmaß. Z- Auswertung ich- th Student wird durch die Formel gefunden:

wo primäre Punktzahl ich- th das Thema; OCRUncertain203"> ist die Standardabweichung des Satzes von Primärwerten.

Z-Skala ist Standard mit Mittelwert Null und Einheitsstandardabweichung. Mit seiner Hilfe können Sie die Ergebnisse von Schülern, die bei verschiedenen Tests erzielt wurden, in eine Form bringen, die für den Vergleich geeignet ist.

Wert Z-Schätzung ist gleich dem Abstand zwischen der berücksichtigten Primärpunktzahl und dem Durchschnittswert der Schätzungen für die Gruppe, ausgedrückt in Einheiten der Standardabweichung: Innerhalb von wie vielen Standardabweichungen liegt die Primärpunktzahl des Probanden unter oder über dem Gruppenmittel.

Z-Scores nehmen mit seltenen Ausnahmen Werte aus dem Intervall (-3, +3) an. Da die Z-Skala für die wissenschaftliche Analyse im Prozess der Entwicklung neuer Tests geeignet ist, ist sie für die praktische Verwendung bei der Bewertung des Wissens der Themen der Gruppe unbequem. Z-Scores können gebrochene und negative Werte annehmen, die in Berechnungen schwer zu verarbeiten und für Testbenutzer schwer zu interpretieren sind. Das Runden von Z-Werten auf ganzzahlige Werte ist nicht immer akzeptabel, da der Hauptzweck der Erstellung von Tests darin besteht, Unterschiede in der Vorbereitung der Probanden zu identifizieren. Negative Z-Score-Werte, die Ergebnisse unter dem Durchschnitt der Gruppe der getesteten Schüler anzeigen, verursachen auch gewisse Unannehmlichkeiten – sie werden bei den Schülern, die sie erhalten haben, eine offensichtliche Ablehnung hervorrufen. Im Allgemeinen macht all dies den Z-Score unpraktisch, um den Probanden Ergebnisse zu melden, und erzwingt die Verwendung spezieller Umrechnungsmethoden für die Bewertung von Schülern.

TransformationenZ-Schätzungen

Z-Score-Transformationen zielen darauf ab, sie in Werte zu übersetzen, die einfacher aufzuschreiben und zu erklären sind. In diesem Fall muss die verwendete Transformation linear sein, um die Form der Verteilung der Z-Scores beizubehalten. Die allgemeine Formel für eine solche Transformation lautet

Z1= M+ σZ,

wobei Z1 die konvertierte Schätzung ist, M ist der neue Mittelwert (der Mittelwert der Bewertungen nach der Transformation), - neue Standardabweichung. Unterschiedliche Transformationen haben unterschiedliche Bedeutungen M und . Hier sind einige der bekanntesten Transformationen von Z-Scores.

T-Skala(McCall, 1939, für die Berichterstattung über die Leistung von Kindern bei Tests zur geistigen Leistungsfähigkeit). Der Mittelwert wird gewählt M = 50 und Standardabweichung σ = 10. Wir erhalten: Z1=50 + 10 Z

CEEV-Skala(ETS, um potenzielle Studenten über die Ergebnisse der Aufnahmeprüfung für das College zu informieren). Der Mittelwert wird gewählt M = 500 und Standardabweichung σ = 100. Wir erhalten: Z1=500 + 100 Z

Skala IQ(Weshler, 1939, zur Interpretation der Intelligenzwerte von Erwachsenen). Der Mittelwert wird gewählt M = 100 und Standardabweichung σ = 15. Wir erhalten: Z1=100 + 15 Z

Schuppen von Stalines und Mauern

Manchmal werden beim Berichten von Ergebnissen Skalen verwendet, die aus einzelnen ganzen Zahlen bestehen, z. B. von 1 bis 9 oder von 1 bis 10. Dies ist praktisch für das Berichten von Testergebnissen, da solche Skalen offensichtlich einfach sind.

Die Unterteilung der Normalverteilung in 9 Intervalle ergibt eine Stanine-Skala mit 9 Standardeinheiten. Auf dieser Skala beträgt der Mittelwert 5 und die Standardabweichung ungefähr 2. Bei der Bewertung von Probanden in einem beliebigen Test mit einer beliebigen Anzahl von Items wird den schlechtesten 4 % eine Stanine von 1 und den besten Ergebnissen eine Stanine von 9 zugewiesen. Die nächste Die schlechtesten und besten Ergebnisse sind 7%, die Stanine 2 bzw. 8 zuweisen. Die nächsten 12 % der Ergebnisse sind die Stannine 3 und 7. Den nächsten 17 % werden die Stannine 4 und 6 zugeordnet, und schließlich entsprechen 20 % der durchschnittlichen Ergebnisse dem Stannin 5.

In der Wandskala, oft Cattell-Skala genannt, wird die gesamte Reihe von Ergebnissen in 10 Teile mit einem Intervall von 0,5 Standardabweichung unterteilt. Bei der Wandskala wird nach bekannten Verfahren der arithmetische Mittelwert mit 5,5 und der Abstand zwischen zwei benachbarten Normeinheiten mit 0,5 angenommen.

Jobzentrierte Methoden

MethodeNedelsky(1954) - für geschlossene Aufgaben.

Jeder Experte muss alle Aufgaben analysieren und für jede Aufgabe die Anzahl der Antworten ankreuzen, die der minimal kompetente Proband ablehnen kann. Für jede Aufgabe gibt der Experte den Kehrwert der Anzahl der verbleibenden Antworten an. Wenn der Experte beispielsweise bei einer Aufgabe mit fünf Antworten zwei durchgestrichen hat, gibt er für diese Aufgabe die Zahl 1/3 an. Dann werden alle diese Kehrwerte summiert. Die resultierende Zahl kann als wahrscheinliche Einschätzung des mindestens kompetenten Faches durch diesen Experten angesehen werden. Anschließend werden die Bewertungen aller Experten gemittelt.

MethodeAngoff(1971). Experten werden gebeten, sich eine Gruppe minimal kompetenter Probanden vorzustellen und für jedes Item den Anteil der Probanden in dieser Gruppe zu schätzen, die das Item richtig beantwortet haben. (Dies entspricht der Schätzung der Wahrscheinlichkeit, dass ein minimal kompetenter Proband die Aufgabe richtig beantwortet.) Diese Wahrscheinlichkeiten werden für jeden Experten addiert und über alle Experten gemittelt.

MethodeEbel(1972). Diese Methode verwendet ein 2D-Raster, um jede Aufgabe zu kategorisieren. Experten werden gebeten, alle Aufgaben nach Schwierigkeitsgrad (es werden drei Schwierigkeitsgrade angeboten - die Aufgabe ist leicht, mittelschwer, schwierig) und nach inhaltlicher Relevanz (es werden 4 Relevanzgrade angeboten - wesentlich, wichtig, akzeptabel, kontrovers) einzuteilen ). Somit sind alle Aufgaben in den Zellen dieses Rasters angeordnet. Dann müssen die Experten bewerten, wie die minimal kompetente Person die Aufgaben in jeder Zelle erledigen wird, d.h. den Prozentsatz der Anzahl der Aufgaben in der Zelle angeben, die er richtig beantworten muss.

Subjektzentrierte Methoden(Nedelsky, 1954; Zieky und Livingston, 1977)

Kontrastierende Gruppenmethode

Die Experten einigen sich darauf, was das Ergebnis der Durchführung des Tests auf dem Niveau der Mindestkompetenz ist. Dann teilen die Experten alle Themen in zwei Gruppen ein - kompetent und inkompetent (ausgenommen diejenigen, die ihrer Meinung nach an der Grenze sind). Als nächstes werden Graphen der Verteilung von Punkten für jede der Gruppen auf einer Zeichnung aufgetragen. Der Schnittpunkt der Graphen wird als Bestehenswert genommen.

Grenzgruppenmethode

Im Gegensatz zur bisherigen Methode werden Experten gebeten, Probanden zu identifizieren, die ihrer Meinung nach an der Grenze zwischen zwei kontrastierenden Gruppen liegen, die sich in ihrer Kompetenz unterscheiden. Der Median der Verteilung der Noten der ausgewählten Gruppe wird als die zum Bestehen erforderliche Punktzahl genommen.

Kritiker dieses Ansatzes weisen darauf hin, dass die Ermittlung einer Bestehensgrenze auf der Grundlage der Testleistung der Probanden im Wesentlichen nicht dem Hauptziel des kriterienorientierten Testens entspreche, da dieser Ansatz nicht auf den Inhalt des Tests bezogen sei .

Beurteilung der körperlichen Entwicklung von Kindern auf einer Z-Skala

Ein integraler Bestandteil jedes Programms zur Untersuchung der Gesundheit und Ernährung von Kindern, sowohl auf Bevölkerungsebene als auch bei der Beurteilung der Ernährung und Gesundheit des Einzelnen, ist die Verfolgung der anthropometrischen Parameter von Kindern im Vergleich zu Standardwachstumskurven. Die Weltgesundheitsorganisation empfiehlt eine Methode zur Beurteilung des Ernährungszustands von Kindern, die auf der Verwendung von Indikatoren für Ganzkörpermessungen (Länge und Körpergewicht) basiert. Die Auswertung anthropometrischer Daten besteht in der Berechnung der Anzahl der Standardabweichungen (Co oder s), um die sich der untersuchte Indikator für Körpergewicht oder -länge vom Median der Standardbevölkerung unterscheidet (internationale WHO-Standards werden anhand von Daten aus einer Studie über anthropometrische Parameter von berechnet Kinder in den USA und Großbritannien). Die berechnete Standardabweichung wird aufgerufen Z - Score oder Z-Score.

Anthropometrische Daten jedes Kindes werden durch ihren Z-Score charakterisiert. Wenn die anthropometrischen Daten des Kindes unter dem Median des Standards liegen, hat der Z-Score einen negativen Wert, wenn die Indikatoren über dem Median liegen, ist der Z-Score positiv.

der Wert Z-Score berechnet für drei Indikatoren:

1. Körpergewicht für das Alter - Mt / V,

2. Körperlänge für das Alter - Dt / V,

3. Körpergewicht für Körperlänge - Mt / Dt.

Der Indikator Mt / Dt wird nur im Alter von bis zu 10 Jahren für Mädchen und bis zu 11,5 Jahren für Jungen verwendet.

Für die Diagnose werden die Grenzwerte von SD bestimmt, die es uns ermöglichen, die folgenden Optionen für die geschätzten Indikatoren zu unterscheiden:

- niedrig (n), Charakterisierung von unzureichendem DT und MT - sind auf CO-Werte von weniger als -2 eingestellt;

- Hoch in), kennzeichnend für überschüssiges DT und MT - sind auf CO-Werte von mehr als +2 eingestellt;

— normal (nm)- wird auf CO-Werte im Bereich von -2 bis +2 eingestellt;

Der Längen-für-Alter-Index charakterisiert das lineare Wachstum und bewertet die langfristige Wachstumsretardierung, d.h. Z-Score weniger als -2 kann auf chronische Unterernährung hinweisen, die zu Wachstumsstörungen führt.

Z-Score Körpergewicht für Körperlänge spiegelt Körperproportionen oder eine harmonische Entwicklung wider und ist sehr empfindlich gegenüber akuter Mangelernährung.

Z-Score Körpergewicht für das Alter ist empfindlich gegenüber akuter Unterernährung und spiegelt die aktuelle oder kürzliche Unterernährung des Kindes wider.

Um anthropometrische Daten zu verarbeiten und WHO-Indizes zu berechnen, wurde ein spezielles Computerprogramm ANTHRO v.1.01, 1990 entwickelt und kostenlos verteilt, das automatisch das Alter des Kindes in Monaten berücksichtigt. In der Praxis ist es bei der Nutzung des Programms notwendig, das Geburtsdatum und das Datum der Untersuchung des Kindes zu registrieren.

Für eine Gruppe oder Population von Kindern kann der Wert des Gruppe-Z-Scores berechnet und statistisch geschätzt werden. Der Wert des Z-Scores in der Standardpopulation ist gleich Null. Je mehr der Z-Score in der Studienpopulation von Null abweicht, desto größer ist der Unterschied zwischen der Studiengruppe der Kinder und der Referenzpopulation. Der Wert des Gruppe-Z-Scores kann zur vergleichenden Analyse von Kinderkontingenten und im Gesundheitsmonitoringsystem verwendet werden.

Abgeleitete Indikatoren können nach ihrem Verwendungszweck unterteilt werden. Einige von ihnen dienen dazu, den erreichten Ausbildungsstand auf einer bestimmten Skala zu bestimmen, während andere dazu dienen, die relative Position des Subjekts in einer bestimmten normativen Gruppe zu bestimmen. Insbesondere dienen Perzentile zur Lösung des zweiten Problems, mit denen Sie den Rang des primären Indikators des Subjekts in der normativen Gruppe festlegen können. Der Rang des Indikators in Perzentilen wird durch den Prozentsatz der Probanden aus der Standardisierungsstichprobe bestimmt, deren Ergebnisse nicht höher als dieser Primärindikator sind. Der Prozess der Konstruktion einer Perzentilskala besteht darin, die Perzentilränge der Primärindikatoren der normativen Gruppe zu bestimmen.

Die Methode zur Konstruktion der Perzentilskala kann an einem kleinen Beispiel der Ergebnisse eines Tests betrachtet werden, der von einer Gruppe von 25 Probanden durchgeführt wurde, obwohl es natürlich unwahrscheinlich ist, dass eine solche Stichprobe in der Praxis getroffen wird. Üblicherweise wird der Aufbau dieser Waagen auf großen Arrays durchgeführt. Nehmen wir zum Beispiel an, dass 25 Studenten, die in einem der Fächer getestet wurden, die in der Tabelle dargestellten primären Ergebnisse erhalten haben. 7.2:

Tabelle 7.2. Testergebnisse

Die erste Zeile in Tabelle 7.2 enthält die beobachteten Punktzahlen der Probanden in der Stichprobe, geordnet vom niedrigsten zum höchsten (von links nach rechts). Für große Gruppen ist eine einfache Sortierung in der Regel unwirksam, und es ist bequemer, gruppierte Daten zu verwenden, was die Einführung von Noten für einzelne Gruppen beinhaltet (siehe Abschnitt 5.2 für Einzelheiten).

Die zweite Zeile zeigt die Ergebnisse der Zählung der Anzahl der Probanden, die das gleiche Testergebnis haben. Jedes Element der zweiten Reihe zeigt die Anzahl der Wiederholungen des Scores und wird daher als Häufigkeit der beobachteten Rohscores der Probanden bezeichnet. Wenn die Frequenzen von links nach rechts summiert werden, werden die Werte der akkumulierten (kumulierten) Frequenzen erhalten. Die kumulierten Häufigkeiten sind die Summe der Häufigkeiten, die bei oder unter diesem Wert beobachtet wurden. Beispiel: Es gibt 9 Probanden, die 7 oder weniger Punkte erzielt haben, weil die kumulativen Häufigkeiten für eine Punktzahl von 7 die Zahl 9 ist.



Die Berechnung der Perzentilränge zum Ausfüllen der vierten Zeile der Tabelle wird durch die Notwendigkeit erschwert, die tatsächlichen Grenzen des Konfidenzintervalls (siehe Abschnitt 5.5) zu bestimmen, das die wahre Punktzahl jedes Probanden in der Stichprobe enthält. Die tatsächliche Länge des Intervalls hängt vom Wert des Standardfehlers der Messung ab. Normalerweise werden jedoch 0,5 Einheiten des Rohwerts verwendet, um die Grenzen des Intervalls zu definieren. Wenn der Proband in diesem Fall eine Punktzahl von 5 erhalten hat, liegt der wahre Wert seiner Punktzahl im Bereich von 4,5 bis 5,5, d.h. (4.5; 5), und die Zahlen 4.5 und 5.5 werden als untere bzw. obere Grenze des Einheitsintervalls der Schätzungen bezeichnet.

Die Konzepte der „oberen“ und „unteren“ Grenzen werden verwendet, um eine Skala von Perzentilrängen zu konstruieren, wobei eine gleichmäßige Verteilung der Ergebnisse der Probanden innerhalb des Konfidenzintervalls angenommen wird. Zum Beispiel bei der Berechnung des Prozentsatzes

Tabelle 7.3. Erstellen einer Perzentil-Rangskala

Rang bei einem Testergebnis von 5 wird davon ausgegangen, dass die Ergebnisse zweier Probanden gleichauf im Intervall (4,5; 5,5) liegen (Tab. 7.3).

Höchstwahrscheinlich wird ein Ergebnis unter dem Punkt liegen, der 5 entspricht, und eines wird über diesem Punkt liegen. Somit können wir unter den Fächern, deren wahre Punktzahl weniger als 5 beträgt, drei Schüler aufnehmen, von denen einer eine Punktzahl von 3 hat, der zweite - eine Punktzahl von 4 und der dritte - einer von zwei wer eine Punktzahl von 5 erhalten hat, was prozentual (3/25) 100% \u003d 12% entspricht. Dies ist der Perzentilrang, der 5 entspricht, was eine bequeme Interpretation der Schülerergebnisse ermöglicht: 12 % der Schüler aus der normativen Stichprobe haben 5 oder weniger Testaufgaben abgeschlossen. Gemäß der zuvor eingeführten Definition ist das 12. Perzentil in einer Gruppe von 25 Probanden 5. Bezugnehmend auf die in der dritten Spalte der Tabelle erhaltenen Daten. 7.2 können wir definitiv sagen, dass das Primärergebnis von 5 Punkten schlecht ist, da es die Ergebnisse von nur 12% der Probanden der Standardisierungsstichprobe übertrifft. Dies ist ein konkretes und leicht nachvollziehbares Ergebnis, das vor allem für Studenten beim Vergleich der Leistungen in mehreren Tests praktisch ist. Ein primäres Ergebnis, das unter einem der Scores der Standardisierungsstichprobe liegt, hat einen Perzentilrang von null. Ein Ergebnis, das höher als jedes andere in der Stichprobe ist, erhält einen Perzentilrang von 100. Natürlich bedeutet weder ein Nullrang noch ein 100%-Rang null oder absolutes Wissen über die kontrollierte Person.

Es ist möglich, das inverse Problem zu lösen, wenn es notwendig ist, es zu bestimmen r-th Perzentil, oder besser gesagt, der Punkt, unter dem liegen R % Ergebnisse . Zum Bestimmen p-th Perzentil müssen Sie 5 Schritte ausführen, die Sie anhand der Tabelle erhalten. 7.4 und sind in der Tabelle angegeben. 7.5.

Tabelle 7.4. Beziehung zwischen Rohwerten und Häufigkeiten

Tabelle 7.5.Bestimmung von Perzentilen

Schritt Berechnungsschritt Rechenbeispiel
Berechnung (rl)/100 %, wobei P- kumulative Häufigkeit in der Bewertungsgruppe
Bestimmung der tatsächlichen Untergrenze L Kategorie von Schätzungen, die das Ergebnis des 1. Schritts enthalten
Subtraktion von akkumuliertem k L Frequenzen (cum.f) aus dem Ergebnis des 1. Schrittes (Ermittlung darunter liegender Frequenzen). (rp)/100%)
Bestimmung des Bruchteils des Entladungsintervalls, der unter der Häufigkeit liegt (rp)/100 %
Addieren der Ergebnisse des 4. Schritts zu den Ergebnissen des 2. Schritts. Endgültige Formel

Perzentile sollten nicht mit Prozentsätzen verwechselt werden, die den Prozentsatz der Aufgaben darstellen, die von den Probanden der Gruppe korrekt erledigt wurden. Im Gegensatz zu letzterem ist das primäre Perzentil ein abgeleiteter Indikator, der den Anteil an der Gesamtzahl der Probanden in der Gruppe angibt.

Neben der Bequemlichkeit der einfachen Interpretation haben Perzentilränge zwei wesentliche Nachteile. Das erste ist, dass Perzentilränge Werte einer Ordinalskala sind, da sie die relative Position jedes Individuums in der normativen Stichprobe zeigen und den Unterschied zwischen den Ergebnissen einzelner Subjekte der Gruppe nicht aufdecken. Der zweite Nachteil verschlimmert den ersten bis zu einem gewissen Grad - Perzentile spiegeln die tatsächlichen Unterschiede im Testergebnis nicht nur nicht wider, sondern verfälschen sie sogar. Dies liegt an den Besonderheiten der Perzentilverteilung, die einen rechteckigen Charakter hat. Die Verteilung der Primärindikatoren weicht deutlich von einer rechteckigen ab und nähert sich einer normalen Kurve für gute normorientierte Tests. In dieser Hinsicht werden kleine Abweichungen vom Mittelwert in der Mitte der Verteilung der beobachteten Ergebnisse um Perzentile stark erhöht, während relativ große Abweichungen an den Rändern der Glockenkurve komprimiert werden.

Die genannten Nachteile sind der Hauptgrund, warum die Verwendung von Perzentilen eher eingeschränkt ist. Aufgrund ihrer Bequemlichkeit und Einfachheit werden sie hauptsächlich in Tests zur Selbsteinschätzung des Wissens der Schüler verwendet.

Z-SKALA

Die einfachste Methode, um den Platz des Ergebnisses des i-ten Schülers zu ermitteln (X) im Vergleich mit den Ergebnissen anderer basiert auf der Berechnung der Abweichung des Xi-Scores vom Durchschnittswert der X-Scores für eine Gruppe von getesteten Studenten. Die Abweichung wird durch Berechnung der Differenz ermittelt X-X f Wenn der Unterschied X-Xt> Ach, dann das Ergebnis 1 Schüler über dem Gruppendurchschnitt. Ein negativer Differenzwert weist auf ein Ergebnis unterhalb des Mittelwerts hin. x.

Da sich die erhaltenen arithmetischen Mittelwerte für verschiedene Tests und in verschiedenen Gruppen deutlich unterscheiden, stellt sich das Problem der Vergleichbarkeit von Abweichungen. Die gleiche Punktzahl Xt in einer schwachen Gruppe kann es überdurchschnittlich sein, in einer starken Gruppe kann es viel niedriger sein. Zudem fällt die Abweichungsskala je nach Testlänge unterschiedlich gedehnt aus.

Ein geeignetes Mittel zur Überwindung der genannten Schwierigkeiten ist die Umwandlung der Einzelergebnisse in eine Standard-Z-Skala mit einer durchschnittlichen Gesamtpunktzahl und einem gemeinsamen Maß für die Punktzahlvariation. Im Allgemeinen erfolgt die Konstruktion von Standardskalen durch lineare oder nichtlineare Transformationen von Rohwerten. Bei einer linearen Transformation drücken Standardwerte die Abweichung der einzelnen Werte vom mittleren Rohwert in Einheiten aus, die proportional zur Standardabweichung der Verteilung sind. Im letzteren Fall wird das skalierte Ergebnis des i-ten Schülers durch die Formel gefunden

wo X.- Rohpartitur des i-ten Fachs; X- der Mittelwert der Einzelnoten der Probanden der Gruppe (i= 1,2,..., N); Sx- die Standardabweichung über den Satz von Rohwerten, berechnet mit der Formel (siehe Abschnitt 5.2).

Aufgrund der Tatsache, dass von jedem Anfangswert X ( abgezogen x, dasselbe ^ wird vom Durchschnitt der ursprünglichen Bewertungen abgezogen. Daher das arithmetische Mittel der Differenz X-X i(/ = 1,2,..., N), die für die getestete Gruppe von Studenten erhalten wird, gleich null ist. Am Beispiel der Mittelwertbildung der Differenzen lässt sich diese Aussage recht überzeugend veranschaulichen X-X ich für eine Matrix von Testergebnissen von 10 Probanden (Abschnitt 5.2). Die Summe der Differenzen ist gleich Null:

Ebenso lässt sich leicht zeigen, dass die Standardabweichung über den Wertesatz 1 beträgt. Somit ist der Z-Score Standard mit null Mittelwert und einer Standardabweichung. Mit seiner Hilfe ist es möglich, die in verschiedenen Tests erzielten Ergebnisse von Schülern durch Normalisierung der Einzelergebnisse auf eine für den Vergleich geeignete Form zu bringen.

Für das obige Beispiel werden die Punktzahlen von 10 Probanden auf der Z-Skala erhalten, indem die berechneten Differenzen durch die Standardabweichung von 2,6 dividiert werden:

Es ist interessant, die erhaltenen skalierten Ergebnisse mit den Rohwerten von 10 Probanden zu vergleichen (Tabelle 7.6).

Tabelle 7.6. Vergleichsergebnisse

Subjektnummer i Auftragsnummer X ich Xi-X Z ich
0,38
-0 -1,14
-4" -1,52
-1,52
-1 -0,38
-1 -0,38
-1 -0,38
-1,52
0,38
X=5 Sx=2,6 Betrag = 0 Z=0 Sz =\

Bei der Verwendung von Tests, die eine langfristige Standardisierungsphase durchlaufen haben und stabile Schätzungen allgemeiner Parameter aufweisen, erfolgt die Umrechnung von Rohwerten auf die Z-Skala gemäß der Formel

wo M und ein x- allgemeines arithmetisches Mittel bzw. allgemeine Varianz.

Offensichtlich geht der Z-Score für einen Rohwert, der genau dem Mittelwert entspricht, auf Null. Negative Z-Werte weisen auf eine unterdurchschnittliche Leistung hin, während positive Z-Werte auf eine gute Leistung hinweisen, die über dem Gruppendurchschnitt der Rohwerte liegt.

Z-Scores sind vor allem bei einer Normalverteilung der Primärscores sinnvoll, wenn alle Z-Werte generell zwischen -3 und +3 schwanken. Manchmal versuchen sie, das Variationsintervall zu erweitern und alle Werte von -5 bis +5 zu berücksichtigen, was zweifellos bedeutungslos ist, da die Werte an den Enden des Intervalls mit einem sehr großen Messfehler bestimmt werden.

Der unbestrittene Vorteil der Z-Skala ist der gemeinsame arithmetische Mittelwert und das Gesamtmaß der Datenvariation, wodurch eine Vergleichbarkeit der Ergebnisse verschiedener Tests erreicht werden kann. Allerdings gibt es neben den offensichtlichen Vorteilen auch Nachteile. Da die Z-Skala für die wissenschaftliche Analyse im Prozess der Entwicklung neuer Tests geeignet ist, ist sie für die praktische Verwendung bei der Bewertung des Wissens der Themen der Gruppe unbequem. Das liegt vor allem daran, dass Z-Werte oft mit mehreren Nachkommastellen berechnet werden müssen, da der Durchschnitt der Einzelwerte selten ganzzahlig ist. Da die Identifizierung von Unterschieden in der Testvorbereitung der Hauptzweck des Testdesigns ist, ist es leicht zu verstehen, dass das Runden von Z-Werten nicht immer akzeptabel ist, da es die anfänglichen Unterschiede in den einzelnen Werten zunichte machen und dadurch die differenzierende Wirkung des Tests verringern kann Prüfung.

Der Effekt der Verringerung der Differenzierungsfähigkeit des Tests als Ergebnis des Rundens der Z-Scores kann durch ein Beispiel der Daten in der Tabelle veranschaulicht werden. 7.6. Die vor der Rundung Z 2 = -1,14 und Z 3 = -1,52 unterschiedlichen Ergebnisse der zweiten und dritten Probanden ergeben danach die gleichen Noten Z 2 = Z 3 = - 1.

Bestimmte Unannehmlichkeiten werden durch negative Werte des Z-Scores verursacht, die Ergebnisse unter dem Durchschnitt für die Gruppe der getesteten Studenten anzeigen. Es ist klar, dass in der Praxis der Kontrolle negative Werte der Z-Werte bei den Schülern, die sie erhalten haben, zu offensichtlicher Ablehnung führen. Im Allgemeinen macht all dies den Z-Score unpraktisch für die Meldung von Ergebnissen an die Probanden der Gruppe und erzwingt die Verwendung spezieller Umrechnungsmethoden für die Bewertung von Schülern.