Суммарной оценки. Установление норм выполнения теста


Шкалирование результатов тестирования

Стивенс (1946) определил 4 уровня шкал измерения, отличающиеся по степени, в которой принадлежащие им оценки сохраняют свойства множестве вещественных чисел. Это шкалы:

Номинальная (или номинативная, шкала наименований)

Порядковая

Интервальная

Шкала отношений.

Интерпретация результатов тестирования

В тестах с нормативно-ориентированной интерпретацией главная задача – определение сравнительного места каждого из тестируемых в общей группе испытуемых. Очевидно, что место каждого испытуемого зависит от того, на фоне какой группы его оценивают. Один и тот же результат может быть отнесен к категории довольно высоких, если группа слабая, и к категории довольно низких, если группа – сильная. Именно поэтому необходимо по возможности использовать нормы, отражающие результаты выполнения теста большой репрезентативной выборкой испытуемых.

В тестах с критериально-ориентированной интерпретацией задача - сопоставление учебных достижений каждого ученика с планируемым к усвоению объемом знаний, умений и навыков. В этом случае в качестве интерпретационной системы отсчета используется конкретная область содержания, а не та или иная выборка испытуемых. Основной проблемой является установление проходного балла, отделяющего тех, кто освоил проверяемый материал, от тех, кто не освоил.

Установление норм выполнения теста

Чтобы устранить зависимость интерпретации от результатов других участников тестирования используют специальные нормы выполнения теста, и таким образом, первичный балл отдельного испытуемого сопоставляется с нормами выполнения теста. Нормы – это множество показателей, которые устанавливаются эмпирически по результатам выполнения теста четко определенной выборкой испытуемых. Разработка и процедуры получения этих показателей составляют процесс нормирования (или стандартизации ) теста. Наиболее распространенными нормами являются среднее значение и стандартное отклонение по множеству индивидуальных баллов. Соотнесение первичного балла испытуемого с нормами выполнения позволяет установить место испытуемого в выборке, использованной для стандартизации теста.

Виды шкал, используемых для преобразования первичных баллов

Наиболее известные преобразования первичных баллов:

Процентильный ранг, отражающий процент испытуемых в нормативной группе, результата которых ниже или равен данному значению первичного балла;

Линейная Z -оценка, определяемая как отношение индивидуального отклонения тестового балла к стандартному отклонению по группе испытуемых;

Оценки, которые являются линейным преобразованием z -оценки (Т-шкала, оценки стандартного IQ и т.д.);

Шкалы станайнов и стенов, которые получаются делением шкалы первичных баллов на различные интервалы.

Шкала процентильных рангов

Процентили позволяют установить ранг первичного показателя испытуемого в нормативной группе. Процентильный ранг, соответствующий данному первичному баллу, показывает процент испытуемых в нормативной выборке, результаты которых не выше данного первичного балла.

Процентили не следует смешивать с процентными показателями, представляющими процент правильно выполненных заданий испытуемым группы. В отличие от последнего - первичного - процентиль является производным показателем, указывающим на долю от общего числа испытуемых группы.

Помимо удобств, связанных с простотой интерпретации, процентильные ранги имеют существенные недостатки. Шкала процентильных рангов нелинейна, т.е. в различных областях шкалы первичных баллов увеличение на 1 балл может соответствовать различным увеличениям на шкале процентилей. Поэтому процентили не только не отражают, а даже искажают реальные различия результата выполнения теста.

Поэтому использование процентилей довольно ограничено. В силу удобства и простоты их применяют в основном в нормативно-ориентированных тестах для самооценки знаний учащихся, сообщения результатов самим учащимся и их родителям.

Z-шкала

Осуществляет перевод индивидуальных результатов в стандартную шкалу с общим средним баллом и общей мерой дисперсией. Z- оценку i-го ученика находят по формуле:

Где первичный балл i-го испытуемого; - среднее значение индивидуальных баллов N испытуемых группы (i=1,2,…,N ); -стандартное отклонение по множеству первичных баллов.

Z -шкала является стандартной с нулевым средним значением и единичным стандартным отклонением. С ее помощью можно привести баллы учеников, полученные по различным тестам, к одному удобному для сравнения виду.

Величина Z -оценки равна расстоянию между рассматриваемым первичным баллом и средним значением оценок по группе, выраженному в единицах стандартного отклонения: в пределах скольких стандартных отклонений первичный балл испытуемого находится ниже или выше среднего значения группы.

Z-оценки за редким исключением принимают значения из промежутка (-3,+3). Будучи удобной для научного анализа в процессе разработки новых тестов, Z-шкала является неудобной для практического использования при оценке знаний испытуемых группы. Z-оценки могут принимать дробные и отрицательные значения, с которыми сложно работать при подсчетах и трудно интерпретировать для пользователей тестов. Округление Z-оценок до целых значений не всегда допустимо, т.к. основную цель создания тестов составляет выявление различий в подготовке испытуемых. Отрицательные значения Z-показателя, указывающие на результаты ниже среднего по группе тестируемых учеников, также вызывают определенные неудобства - они вызовут явное неприятие у получивших их учеников. В целом все это делает Z-показатель неудобным для сообщения результатов испытуемым и вынуждает применять специальные методы преобразования для выставления оценок ученикам.

Преобразования Z-оценок

Преобразования Z-оценок имеют целью перевод их в значения, которые легче записывать и объяснять. При этом, используемое преобразование должно быть линейным, чтобы сохранить форму распределения Z-оценок. Общая формула такого преобразования имеет вид

Z 1 =M + ?·Z ,

Где Z 1 – преобразованная оценка, М – новое среднее значение (среднее значение оценок после преобразования), - новое стандартное отклонение. Различные преобразования отличаются значениями М и . Приведем несколько наиболее известных преобразований Z-оценок.

T-шкала (McCall, 1939, для сообщения о результатах выполнения детьми теста ментальных способностей). Выбирается среднее значение М = 50 и стандартное отклонение? = 10. Получим: Z 1 =50 + 10·Z

Шкала СЕЕВ (ETS, для сообщения абитуриентам о результатах приемных экзаменов в колледжи). Выбирается среднее значение М = 500 и стандартное отклонение? = 100. Получим: Z 1 =500 + 100·Z

Шкала IQ (Weshler, 1939, для интерпретации оценок по шкале интеллекта для взрослых). Выбирается среднее значение М = 100 и стандартное отклонение? = 15. Получим: Z 1 =100 + 15·Z

Шкалы станайнов и стенов

Иногда при сообщении результатов используют шкалы, состоящие из отдельных целых чисел, например, от 1 до 9 или от 1 до 10. Это удобно для сообщения тестовых результатов, т.к. такие шкалы обладают очевидной простотой.

Разбиение нормального распределения на 9 интервалов приводит к шкале станайнов, имеющей 9 стандартных единиц. В этой шкале среднее значение равно 5, а стандартное отклонение – примерно 2. При оценке результатов испытуемых по любому тесту с любым числом заданий 4% самых худших результатов присваивается станайн 1, а самых лучших - станайн 9. Следующим за худшими и лучшими 7% результатов присваивают станайны 2 и 8 соответственно. Следующим за ними 12% результатов - станайны 3 и 7. Следующим 17% присваивают станайны 4 и 6 и, наконец, 20% средних результатов соответствует станайн 5.

В шкале стенов, называемой часто шкалой Кэттела, весь массив результатов делится на 10 частей с интервалом 0,5 стандартного отклонения. В шкале стенов среднее арифметическое принимается равным 5,5, а расстояние между двумя соседними стандартными единицами равно 0,5.

Иногда из шкалы станайнов получают одиннадцатибалльную шкалу путем выявления по одному проценту самых сильных и самых слабых испытуемых и присвоения им соответственно максимального и минимального балла.

Установление проходного балла

Известно много методов установления проходного балла при критериально-ориентированном тестировании. Все методы делятся на абсолютные и относительные. Почти все методы вовлекают в процедуру определения проходного балла экспертов. Рассмотрим некоторых из известных методов.

Методы, центрированные на заданиях

Метод Nedelsky (1954) – для закрытых заданий.

Каждый эксперт должен проанализировать все задания и вычеркнуть для каждого задания номера ответов, от которых будет в состоянии отказаться минимально компетентный испытуемый. Для каждого задания эксперт указывает число, обратное числу оставшихся ответов. Например, если в задании с пятью ответами эксперт два вычеркнул, то он укажет число 1/3 для этого задания. Затем все эти обратные величины суммируются. Полученное число может рассматриваться как вероятная оценка минимально компетентного испытуемого этим экспертом. Затем оценки всех экспертов усредняются.

Метод Angoff (1971). Экспертов просят представить себе группу минимально компетентных испытуемых и для каждого задания оценить долю испытуемых этой группы, правильно ответивших на задание. (Это то же самое, как оценить вероятность того, что минимально компетентный испытуемый ответит на задание правильно.) Данные вероятности складываются по каждому эксперту и усредняются по всем экспертам.

Метод Ebel (1972). В этом методе используется двумерная сетка для категоризации каждого задания. Экспертов просят разделить все задания по трудности (предлагается три уровня трудности - задание легкое, средней трудности, трудное) и по релевантности его содержания (предлагается 4 уровня релевантности – существенное, важное, допустимое, спорное). Таким образом, все задания раскладываются по ячейкам этой сетки. Затем эксперты должны оценить, как минимально компетентный испытуемый выполнит задания в каждой ячейке, т.е. указать процент числа заданий в ячейке, на которые он должен ответить правильно.

Методы, центрированные на испытуемых (Nedelsky, 1954; Zieky, Livingston, 1977)

Метод контрастных групп

Эксперты договариваются о том, что является результатом выполнения теста на уровне минимальной компетентности. Затем эксперты делят всех испытуемых на две группы – компетентных и некомпетентных (исключая тех, кто, по их мнению, находится на границе). Далее строятся графики распределения баллов для каждой из группы на одном чертеже. Точка пересечения графиков принимается за проходной балл.

Метод граничных групп

В отличие от предыдущего метода экспертов просят определить испытуемых, кто, по их мнению, находится на границе между двумя контрастными группами, отличающимися по компетентности. Медиана распределения баллов отобранной группы принимается за проходной балл.

Критики данного подхода указывают, что установление проходного балла, основанного на выполнении теста испытуемыми, не соответствует по сути основной цели критериально-ориентированного тестирования, т.к. этот подход не связан с содержанием теста.

Стандартизация

– унификация, приведение к единым нормативам процедуры и оценок теста. Благодаря стандартизации методики достигается сопоставимость полученных результатов у разных испытуемых и появляется возможность выражения тестовых оценок в относительных к выборке стандартизации показателях.

1) Стандартизация – обработка и регламентация процедуры проведения, унификация инструкции, бланков обследования, способов регистрации результатов, условий проведения обследования, характеристика контингентов испытуемых. Строгая периодичность процедуры обследования – обязательное условие обеспечения надежности теста и определения тестовых норм для оценивания результатов в обследования.

2) Стандартизация – преобразование нормальной шкалы оценок в новую шкалу, основанную не на количественных значениях изучаемого показателя, а на его относительном месте в распределении результатов в выборке испытуемых.

Этапы стандартизации

1 этап. Создание единообразной процедуры тестирования.

Она состоит из определения моментов диагностической ситуации.

· Условия тестирования (помещение, освещение и др. внешние факторы).

· Содержание инструкции и особенности ее предъявления (тон голоса, паузы, скорость речи и т.д.).

· Наличие стандартного стимульного материала (например, карты Роршаха).

· Временные ограничения выполнения данного теста.

· Стандартный бланк для выполнения данного теста.

· Учет влияния ситуационных факторов на процесс и результат тестирования.

· Учет влияния поведения диагноста на процесс и результат тестирования

· Учет влияния опыта испытуемого в тестировании.

2 этап. Создание единообразной оценки выполнения теста. С тандартной интерпретации полученных результатов и предварительной стандартной обработки. На этом этапе сравнивается полученный показатель с нормой выполнения этого теста для данного возраста.

3 этап. Определение норм выполнения теста. Нормы разрабатываются для различных возрастов, профессий, полов и т.д.

z-стандартный показатель

Наиболее распространенным преобразование первичных оценок являются центрирование и нормирование посредством среднеквадратических отклонений. Процедура нормирования заключается в переходе к другим единицам измерения. В качестве функции нормирования обычно выступает Z-показатель (стандартный показатель), который выражает отклонение индивидуального результата Х в единицах, пропрорциональных стандартному отклонению.

Более широкое распространение в психодиагностике получили стандартные показатели, рассчитываемые на основе линейного и нелинейного преобразования первичных показателей, распределенных по нормальному или близкому к нормальному закону. При таком расчете проводится z-преобразование оценок. Чтобы определить z-стандартный показатель, определяют разность между индивидуальным первичным результатом средним значением для нормальной группы, а затем делят эту разность на δ нормативной выборки.

Х – сырой балл (количество выполненных заданий)

Мх – средняя величина выполненных заданий по всей выборке

δ – среднеквадратичное отклонение (в зарубежной психологии SD)

Математик Карл Гаусс предложил функцию, описывающию нормальное распределение. График уравнения нормального распределения – симметричная унимодальная колоколообразная кривая (или кривая нормального распределения ).

Назовем среднее арифметическое Мх, а стандартное отклонение δ (сигма малая). При нормальном распределении все изучаемые величины находятся в пределах Мх ± 5 δ.

В пределах Мх ± δ находится 68,26 %, остальные 31,74 % расположены симметрично по 15,87

В пределах Мх ± 2 δ находится 95,44 %

А в пределах Мх ± 3 δ находится 99,72 %

ПРОЦЕНТИЛИ

Процентиль – процентная доля индивидов из выборки стандартизации, результат которых ниже данного первичного показателя. Шкалу процентилей можно рассматривать как совокупность ранговых градаций при числе рангов 100 и отсчете от 1-го ранга, соответствующего самому низкому результату;

50-й процентиль (Р 50 )соответствует медиане распределения результатов

Процентили не следует смешивать с обычными процентными показателями. Последние представляют собой долю правильных решений из общего количества заданий теста в индивидуальном результате. Ранги Р 1 и Р 100 получают соответственно самый низкий и самый высокий результаты из наблюдавшихся в выборке, однако этим рангам могут соответствовать и далеко не нулевой (ни одного правильного решения) или абсолютный (все решения правильны) показатели. Например, при общем количестве 120 заданий минимальный результат, соответствующий первому рангу, может составить 6 правильных решений, в то время как максимальный результат, соответствующий рангу Р 100 , будет составлять 95 правильно решенных заданий. Такая ситуация наблюдается, например, при оценке тестов скорости.

Основной недостаток процентильных шкал состоит в неравномерности единиц измерения. При нормальном распределении отдельные переменные тесно группируются в центре распределения и по мере удаления к краям рассеиваются. Поэтому равным частотам случаев вблизи центра соответствуют более короткие интервалы по оси абсцисс, расположенные по краям распределения оценок. Процентили показывают относительное положение каждого испытуемого в нормальной выборке, но не величину различий между результатами. Это создает некоторые неудобства в интерпретации индивидуальных результатов. Так, разница в первичных показателях, соответствующая интервалу Р 70 Р 80, может составить 10баллов, а различие в количестве правильных решений в интервале рангов Р 50 Р 60 , - лишь 1 – 3 балла.

Вместе с тем процентильные оценки обладают и рядом достоинств. Они легко доступны пониманию пользователей психодиагностической информацией, универсальны по отношению к различным типам методик и легко рассчитываются.

Статистические нормы

А. Статистические нормы. Граничные значения на шкале тестовых баллов, образованные на основе частотного распределения тестовых баллов в выборке стандартизации. Как правило, эти граничные значения отделяют от выборки фиксированный процент испытуемых: (дециль), 25 (квартиль), 50 (медиана). При нормальном распределении статистическая норма описывается с помощью параметров (среднее плюс/минус сигма, или стандартное отклонение). Статистические нормы служат принятию «сравнительный решения» и не дают информации для принятии «нормативных решений»

Б. Возрастные нормы – частные варианты психодиагностических норм, собранные для детей разного возраста.

В. Критериальные нормы - диагностические нормы, в которых задано соответствие между тестовыми баллами по шкале измеряемого свойства и уровнем критериального показателя. В случае критериального поведения критериальные нормы указывают на вероятность появления критериального поведения при данном значении тестового балла.

Г. Школьные нормы разрабатываются на основе тесов школьных достижений или тестов школьных способностей.

Д. Профессиональный нормы. Устанавливаются на основе тестов для различных профессиональных групп.

Е. Локальные нормы . Устанавливаются для узких категорий людей, отличающихся наличием общего признака – возраста, пола, географического района, социоэкономического статуса.

Ж. Национальные нормы. Разрабатываются для представителей данной нации или страны в целом.

СТАНАЙНЫ

Примером нелинейного преобразованной в стандартную шкалу является и шкала станайнов (англ. standart nine – стандартная девятка), где оценки принимают значения от 1 до 9, М = 5, δ = 2

Шкала станайнов получает все большее распространение, сочетая в себе достоинства стандартных шкальных показателей и простоту процентилей. Первичные показатели легко преобразуются в станайны. Для этого испытуемых ранжируют по возрастанию результатов и из них образуют группы с числом лиц, пропорциональным определенным частотам оценок в нормальном распределении тестовых результатов.

СТЭНЫ

При трансформации оценок в шкалу стэнов (от англ. standsrt ten - стандартная десятка) проводится аналогичная процедура с той лишь разницей, что в основании этой шкалы лежат десять стандартных интервалов.

Шкалирование результатов тестирования

Стивенс (1946) определил 4 уровня шкал измерения, отличающиеся по степени, в которой принадлежащие им оценки сохраняют свойства множестве вещественных чисел. Это шкалы:

Номинальная (или номинативная, шкала наименований)

Порядковая

Интервальная

Шкала отношений.

Интерпретация результатов тестирования

В тестах с нормативно-ориентированной интерпретацией главная задача – определение сравнительного места каждого из тестируемых в общей группе испытуемых. Очевидно, что место каждого испытуемого зависит от того, на фоне какой группы его оценивают. Один и тот же результат может быть отнесен к категории довольно высоких, если группа слабая, и к категории довольно низких, если группа – сильная. Именно поэтому необходимо по возможности использовать нормы, отражающие результаты выполнения теста большой репрезентативной (от фр. выборкой испытуемых.

В тестах с критериально-ориентированной интерпретацией задача - сопоставление учебных достижений каждого ученика с планируемым к усвоению объемом знаний, умений и навыков. В этом случае в качестве интерпретационной системы отсчета используется конкретная область содержания, а не та или иная выборка испытуемых. Основной проблемой является установление проходного балла, отделяющего тех, кто освоил проверяемый материал, от тех, кто не освоил.

Установление норм выполнения теста

Чтобы устранить зависимость интерпретации от результатов других участников тестирования используют специальные нормы выполнения теста, и таким образом, первичный балл отдельного испытуемого сопоставляется с нормами выполнения теста. Нормы – это множество показателей, которые устанавливаются эмпирически по результатам выполнения теста четко определенной выборкой испытуемых. Разработка и процедуры получения этих показателей составляют процесс нормирования (или стандартизации ) теста. Наиболее распространенными нормами являются среднее значение и стандартное отклонение по множеству индивидуальных баллов. Соотнесение первичного балла испытуемого с нормами выполнения позволяет установить место испытуемого в выборке, использованной для стандартизации теста.

Виды шкал, используемых для преобразования первичных баллов

Наиболее известные преобразования первичных баллов:

Процентильный ранг, отражающий процент испытуемых в нормативной группе, результата которых ниже или равен данному значению первичного балла;

Линейная Z -оценка, определяемая как отношение индивидуального отклонения тестового балла к стандартному отклонению по группе испытуемых;

Оценки, которые являются линейным преобразованием z -оценки (Т-шкала, оценки стандартного IQ и т. д.);

Шкалы станайнов и стенов, которые получаются делением шкалы первичных баллов на различные интервалы.

Шкала процентильных рангов

Процентили позволяют установить ранг первичного показателя испытуемого в нормативной группе. Процентильный ранг, соответствующий данному первичному баллу, показывает процент испытуемых в нормативной выборке, результаты которых не выше данного первичного балла.

Процентили не следует смешивать с процентными показателями, представляющими процент правильно выполненных заданий испытуемым группы. В отличие от последнего - первичного - процентиль является производным показателем, указывающим на долю от общего числа испытуемых группы.

Помимо удобств, связанных с простотой интерпретации, процентильные ранги имеют существенные недостатки. Шкала процентильных рангов нелинейна, т. е. в различных областях шкалы первичных баллов увеличение на 1 балл может соответствовать различным увеличениям на шкале процентилей. Поэтому процентили не только не отражают, а даже искажают реальные различия результата выполнения теста.

Поэтому использование процентилей довольно ограничено. В силу удобства и простоты их применяют в основном в нормативно-ориентированных тестах для самооценки знаний учащихся, сообщения результатов самим учащимся и их родителям.

Z - шкала

Осуществляет перевод индивидуальных результатов в стандартную шкалу с общим средним баллом и общей мерой дисперсией . Z - оценку i - го ученика находят по формуле:

где первичный балл i - го испытуемого; OCRUncertain203">- стандартное отклонение по множеству первичных баллов.

Z -шкала является стандартной с нулевым средним значением и единичным стандартным отклонением. С ее помощью можно привести баллы учеников, полученные по различным тестам, к одному удобному для сравнения виду.

Величина Z -оценки равна расстоянию между рассматриваемым первичным баллом и средним значением оценок по группе, выраженному в единицах стандартного отклонения: в пределах скольких стандартных отклонений первичный балл испытуемого находится ниже или выше среднего значения группы.

Z-оценки за редким исключением принимают значения из промежутка (-3,+3). Будучи удобной для научного анализа в процессе разработки новых тестов, Z-шкала является неудобной для практического использования при оценке знаний испытуемых группы. Z-оценки могут принимать дробные и отрицательные значения, с которыми сложно работать при подсчетах и трудно интерпретировать для пользователей тестов. Округление Z-оценок до целых значений не всегда допустимо, т. к. основную цель создания тестов составляет выявление различий в подготовке испытуемых. Отрицательные значения Z-показателя, указывающие на результаты ниже среднего по группе тестируемых учеников, также вызывают определенные неудобства - они вызовут явное неприятие у получивших их учеников. В целом все это делает Z-показатель неудобным для сообщения результатов испытуемым и вынуждает применять специальные методы преобразования для выставления оценок ученикам.

Преобразования Z -оценок

Преобразования Z-оценок имеют целью перевод их в значения, которые легче записывать и объяснять. При этом, используемое преобразование должно быть линейным, чтобы сохранить форму распределения Z-оценок. Общая формула такого преобразования имеет вид

Z1=M + σ·Z,

где Z1 – преобразованная оценка, М – новое среднее значение (среднее значение оценок после преобразования), - новое стандартное отклонение. Различные преобразования отличаются значениями М и . Приведем несколько наиболее известных преобразований Z-оценок.

T -шкала (McCall, 1939, для сообщения о результатах выполнения детьми теста ментальных способностей). Выбирается среднее значение М = 50 и стандартное отклонение σ = 10. Получим: Z1=50 + 10·Z

Шкала СЕЕВ (ETS, для сообщения абитуриентам о результатах приемных экзаменов в колледжи). Выбирается среднее значение М = 500 и стандартное отклонение σ = 100. Получим: Z1=500 + 100·Z

Шкала IQ (Weshler, 1939, для интерпретации оценок по шкале интеллекта для взрослых). Выбирается среднее значение М = 100 и стандартное отклонение σ = 15. Получим: Z1=100 + 15·Z

Шкалы станайнов и стенов

Иногда при сообщении результатов используют шкалы, состоящие из отдельных целых чисел, например, от 1 до 9 или от 1 до 10. Это удобно для сообщения тестовых результатов, т. к. такие шкалы обладают очевидной простотой.

Разбиение нормального распределения на 9 интервалов приводит к шкале станайнов, имеющей 9 стандартных единиц. В этой шкале среднее значение равно 5, а стандартное отклонение – примерно 2. При оценке результатов испытуемых по любому тесту с любым числом заданий 4% самых худших результатов присваивается станайн 1, а самых лучших - станайн 9. Следующим за худшими и лучшими 7% результатов присваивают станайны 2 и 8 соответственно. Следующим за ними 12% результатов - станайны 3 и 7. Следующим 17% присваивают станайны 4 и 6 и, наконец, 20% средних результатов соответствует станайн 5.

В шкале стенов, называемой часто шкалой Кэттела, весь массив результатов делится на 10 частей с интервалом 0,5 стандартного отклонения. В шкале стенов среднее арифметическое принимается равным 5,5, а расстояние между двумя соседними стандартными единицами равно 0,5Вовлечение" href="/text/category/vovlechenie/" rel="bookmark">вовлекают в процедуру определения проходного балла экспертов. Рассмотрим некоторых из известных методов.

Методы, центрированные на заданиях

Метод Nedelsky (1954) – для закрытых заданий.

Каждый эксперт должен проанализировать все задания и вычеркнуть для каждого задания номера ответов, от которых будет в состоянии отказаться минимально компетентный испытуемый. Для каждого задания эксперт указывает число, обратное числу оставшихся ответов. Например, если в задании с пятью ответами эксперт два вычеркнул, то он укажет число 1/3 для этого задания. Затем все эти обратные величины суммируются. Полученное число может рассматриваться как вероятная оценка минимально компетентного испытуемого этим экспертом. Затем оценки всех экспертов усредняются.

Метод Angoff (1971). Экспертов просят представить себе группу минимально компетентных испытуемых и для каждого задания оценить долю испытуемых этой группы, правильно ответивших на задание. (Это то же самое, как оценить вероятность того, что минимально компетентный испытуемый ответит на задание правильно.) Данные вероятности складываются по каждому эксперту и усредняются по всем экспертам.

Метод Ebel (1972). В этом методе используется двумерная сетка для категоризации каждого задания. Экспертов просят разделить все задания по трудности (предлагается три уровня трудности - задание легкое, средней трудности, трудное) и по релевантности его содержания (предлагается 4 уровня релевантности – существенное, важное, допустимое, спорное). Таким образом, все задания раскладываются по ячейкам этой сетки. Затем эксперты должны оценить, как минимально компетентный испытуемый выполнит задания в каждой ячейке, т. е. указать процент числа заданий в ячейке, на которые он должен ответить правильно.

Методы, центрированные на испытуемых (Nedelsky, 1954; Zieky, Livingston, 1977)

Метод контрастных групп

Эксперты договариваются о том, что является результатом выполнения теста на уровне минимальной компетентности. Затем эксперты делят всех испытуемых на две группы – компетентных и некомпетентных (исключая тех, кто, по их мнению, находится на границе). Далее строятся графики распределения баллов для каждой из группы на одном чертеже. Точка пересечения графиков принимается за проходной балл.

Метод граничных групп

В отличие от предыдущего метода экспертов просят определить испытуемых, кто, по их мнению, находится на границе между двумя контрастными группами, отличающимися по компетентности. Медиана распределения баллов отобранной группы принимается за проходной балл.

Критики данного подхода указывают, что установление проходного балла, основанного на выполнении теста испытуемыми, не соответствует по сути основной цели критериально-ориентированного тестирования, т. к. этот подход не связан с содержанием теста.

Оценка физического развития детей по шкале Z - score

Составной частью любой программы исследования здоровья и питания детей как на популяционном уровне, так и при оценке питания и здоровья индивидуума является отслеживание антропометрических параметров детей в сравнении со стандартными кривыми роста. Всемирная Организация Здравоохранения рекомендует метод оценки состояния питания детей на основе использования показателей тотальных размеров тела (длины и массы тела). Оценка антропометрических данных заключается в расчете числа стандартных отклонений (Со или s), на которое исследуемый показатель массы или длины тела отличается от медианы стандартной популяции (международные стандарты ВОЗ рассчитаны на данных исследования антропометрических параметров детей США и Великобритании). Рассчитанную величину стандартного отклонения называют Z - score или Z-балл.

Антропометрические данные каждого ребенка характеризуются своей величиной Z - score. Если данные антропометрии ребенка меньше медианы стандарта, то Z - score будет иметь отрицательную величину, если показатели выше медианы, то Z - score будет положительным.

Величину Z - score рассчитывают для трех показателей:

1. Масса тела для возраста - Мт/В,

2. Длина тела для возраста - Дт/В,

3. Масса тела для длины тела - Мт/Дт.

Показатель Мт/Дт применяется только в возрасте до 10 лет у девочек и до 11,5 лет у мальчиков.

Для диагностики определены пограничные значения СО, которые позволяют выделить следующие варианты оцениваемых показателей:

— низкие (н), характеризующие недостаточную ДТ и МТ - устанавливаются при значениях СО менее -2;

— высокие (в) , характеризующие избыточную ДТ и МТ - устанавливаются при значениях СО более +2;

— нормальные (нм) - устанавливается при значениях СО в диапазоне от -2 до +2;

Показатель длина тела для возраста характеризует линейный рост и оценивает долгосрочную задержку роста, т.е. Z - score менее -2 может свидетельствовать о хронической недостаточности питания, приведшей к задержке роста.

Z - score масса тела для длины тела отражает пропорции тела или гармоничность развития, и он очень чувствителен к острому недоеданию.

Z - score масса тела для возраста чувствителен к острому нарушению питания и отражает недоедание ребенка в настоящее время или в ближайшем прошлом.

Для обработки антропометрических данных и расчета индексов ВОЗ разработана и распространяется бесплатно специальная компьютерная программа ANTHRO v.1.01, 1990 г. Программа автоматически учитывает возраст ребенка в месяцах. Практически при использовании программы необходима регистрация даты рождения и даты обследования ребенка.

Для группы или популяции детей может быть рассчитана и статистически оценена величина группового Z - score. Величина Z - score в стандартной популяции равна нулю. Чем больше величина Z - score в исследуемой популяции отличается от нуля, тем больше различия исследуемой группы детей от эталонной популяции. Величина группового Z - score может использоваться для сравнительного анализа детских контингентов и в системе мониторинга состояния здоровья.

Производные показатели можно подразделить по своему назначению. Одни из них служат для определения достигнутого уровня подготовки в определенной шкале, а другие - для установления относительного положения испытуемого в некоторой нормативной группе. В частности, решению второй задачи служат процентили, позволяющие установить ранг первичного показателя испытуемого в нормативной группе . Ранг показателя в процентилях определяется процентной долей испытуемых из выборки стандартизации, результаты которых не выше данного первичного показателя. Процесс построения шкалы процентилей состоит в определении процентильных рангов первичных показателей нормативной группы.

Метод построения шкалы процентилей можно рассмотреть на небольшом примере результатов выполнения теста группой из 25 испытуемых, хотя, конечно, маловероятно встретить такую выборку в практике. Обычно построение этих шкал выполняется на больших массивах. Пусть, например, 25 тестируемых учащихся по одному из предметов получили первичные результаты, представленные в табл. 7.2:

Таблица 7.2. Результаты испытуемых

Первая строка в таблице 7.2 содержит наблюдаемые баллы испытуемых выборки, упорядоченные от меньшего значения к большему (слева направо). Обычно для больших групп простое упорядочение является малоэффективным и удобнее использовать сгруппированные данные, предполагающие введение разрядов оценок для отдельных групп (см. подробнее разд. 5.2).

Во второй строке представлены результаты подсчета числа испытуемых, имеющих один и тот же тестовый балл. Каждый элемент второй строки показывает число повторений балла и потому называется частотой наблюдаемых сырых баллов испытуемых. Если частоты просуммировать слева направо, то получатся значения накопленных (кумулированных) частот. Кумулированные частоты представляют собой суммарное количество частот, наблюдаемых на этом балле или ниже его. Например, существует 9 испытуемых, получивших балл 7 или ниже, так как Кумулированные частоты для балла 7 - число 9.



Вычисление процентильных рангов для заполнения четвертой строки таблицы осложняется необходимостью определения фактических границ доверительного интервала (см. разд. 5.5), содержащего истинный балл каждого испытуемого выборки. Фактическая длина интервала зависит от значения стандартной ошибки измерения. Однако обычно для определения границ интервала используют 0,5 единицы измерения сырых баллов. В этом случае, если испытуемый получил балл 5, истинное значение его балла лежит в интервале от 4,5 до5,5,т.е. (4,5; 5),ачисла4,5 и5,5 называются соответственно нижней и верхней границей единичного интервала оценок.

Понятия «верхняя» и «нижняя» границы используются для построения шкалы процентильных рангов в предположении равномерности распределения результатов испытуемых внутри доверительного интервала. Например, при вычислении процентного

Таблица 7.3. Построение шкалы процентильных рангов

ранга для тестового балла 5 принимают что результаты двух испытуемых располагаются на интервале (4,5; 5,5) равномерно (табл. 7.3).

Вероятнее всего, один результат будет ниже точки, соответствующей 5, а один - выше этой точки. Таким образом, к числу испытуемых, истинный балл которых меньше 5, можно отнести трех учащихся, из которых один имеет балл 3, второй - балл 4 и третий - один из двух, получивших балл 5, что в процентном отношении составит (3/25) 100% =12%. Это и есть процентильный ранг, соответствующий 5, который обеспечивает удобную интерпретацию результатов ученика: 12% учащихся из нормативной выборки сделали 5 или меньше заданий теста. В соответствии с введенным ранее определением 12-й процентиль в группе из 25 испытуемых равен 5. Обращаясь к полученным данным в третьем столбце табл. 7.2, можно определенно сказать, что первичный результат 5 баллов является плохим, так как он превосходит результаты только 12% испытуемых выборки стандартизации. Это конкретный и легко воспринимаемый результат, удобный в первую очередь для учеников при сравнении достижений по ряду тестов. Первичный результат, который ниже любого показателя выборки стандартизации, имеет нулевой процентильный ранг. Результат, превышающий любой другой в выборке, получит процентильный ранг 100. Конечно, ни нулевой ранг, ни ранг 100% не говорят о нулевом либо абсолютном знании контролируемого предмета.

Возможно решение обратной задачи, когда необходимо определить р-й процентиль, вернее, точку, ниже которой лежат р % результатов . Для определения р-го процентиля необходимо выполнить 5 шагов, которые получаются с помощью табл. 7.4 и приводятся в табл. 7.5.

Таблица 7.4. Связь между сырыми баллами и частотами

Таблица 7.5. Определение процентилей

Шаг Этап вычисления Пример вычисления
Вычисление (рл)/100%, где п - накопленная частота в группе оценок
Определение фактической нижней границы L разряда оценок, содержащего результат 1-го шага
Вычитание накопленной к L частоты (cum.f) из результата 1-го шага (определение частот, лежащих ниже (рп) /100%)
Определение доли интервала разрядов, лежащей под частотой (рп)/100%
Прибавление результатов 4-го шага к результатам 2-го шага. Итоговая формула

Процентили не следует смешивать с процентными показателями, представляющими процент правильно выполненных заданий испытуемым группы. В отличие от последнего - первичного-процентиль является производным показателем, указывающим на долю от общего числа испытуемых группы.

Помимо удобств, связанных с простотой интерпретации, процентильные ранги имеют два существенных недостатка. Первый заключается в том, что процентильные ранги являются значениями порядковой шкалы, так как показывают относительное положение каждого индивида в нормативной выборке, а не выявляют различие между результатами отдельных испытуемых группы. Второй недостаток в определенной степени усугубляет первый - процентили не только не отражают, а даже искажают реальные различия результата выполнения теста. Это связано с особенностями распределения процентилей, имеющего прямоугольный характер. Распределение первичных показателей существенно отличается от прямоугольного и для хороших нормативно-ориентированных тестов приближается к нормальной кривой. В этой связи небольшие отклонения от среднего в центре распределения наблюдаемых результатов значительно увеличиваются процентилями, в то время как относительно большие отклонения на краях кривой нормального распределения будут сжаты.

Упомянутые недостатки - главная причина того, что использование процентилей довольно ограничено. В силу удобства и простоты их применяют в основном в тестах для самооценки знаний учащихся.

Z-ШКАЛА

Наиболее простой метод выявления места результата i-го ученика (X) в сравнении с результатами других основан на подсчете отклонения балла Xi от среднего значения баллов X по группе тестируемых учащихся. Отклонение находят путем вычисления разности X- X f Если разность X- X t > О, то результат 1-го ученика выше среднего по группе. Отрицательное значение разности указывает на результат ниже среднего значения X.

Так как средние арифметические, полученные по различным тестам и в разных группах, существенно разнятся, возникает проблема сопоставимости отклонений. Один и тот же балл X t в слабой группе может оказаться выше среднего, в сильной - значительно ниже. К тому же шкала отклонений оказывается по-разному растянутой в зависимости от длины теста.

Удобным средством преодоления отмеченных трудностей является перевод индивидуальных результатов в стандартную Z-шкалу с общим средним баллом и общей мерой вариации баллов. Вообще построение стандартных шкал производится путем линейных либо нелинейных преобразований сырых баллов. При линейном преобразовании стандартные показатели выражают отклонение индивидуальных результатов от среднего значения сырых баллов в единицах, пропорциональных стандартному отклонению распределения. В последнем случае шкалированный результат i-го ученика находят по формуле

где X.- сырой балл i-го испытуемого; X- среднее значение индивидуальных баллов УУ испытуемых группы (i= 1,2,..., N); S x - стандартное отклонение по множеству сырых баллов, подсчитанное по формуле (см. разд. 5.2).

Благодаря тому, что из каждого исходного значения Х { вычитается X, этот же ^вычитается из среднего значения исходных баллов. Поэтому среднее арифметическое значений разности X- X i (/ = 1,2,..., N), полученных для группы тестируемых учеников, равно нулю. Это утверждение довольно убедительно иллюстрируется примером подсчета среднего значения разностей Х- Х i для матрицы тестовых результатов 10 испытуемых (разд. 5.2). Сумма разностей получается равной нулю:

Аналогично легко показать, что стандартное отклонение по множеству значений равно 1. Таким образом, Z-шкала является стандартной с нулевым средним значением и единичным стандартным отклонением. С ее помощью можно привести баллы учеников, полученные по различным тестам, к одному удобному для сравнения виду путем нормирования индивидуальных результатов.

Для приведенного выше примера оценки 10 испытуемых в Z-шкале получаются путем деления вычисленных разностей на стандартное отклонение 2,6:

Полученные шкалированные результаты интересно сопоставить со значениями сырых баллов 10 испытуемых (табл. 7.6).

Таблица 7.6. Сравнительные результаты

Номер испытуемого i Номер задания X i X i -X Z i
0,38
-0 -1,14
-4" -1,52
-1,52
-1 -0,38
-1 -0,38
-1 -0,38
-1,52
0,38
Х=5 S x =2,6 Сумма = 0 Z=0 S z =\

При использовании тестов, прошедших многолетний этап стандартизации и обладающих устойчивыми оценками генеральных параметров, перевод сырых баллов в Z-шкалу осуществляется по формуле

где М и а х - генеральное среднее арифметическое и генеральная дисперсия соответственно.

Очевидно, что для сырого балла, в точности равного среднему значению, Z-показатель обращается в нуль. Отрицательные значения Z указывают на результаты ниже среднего, а положительные - на хорошие результаты, выше среднего значения сырых баллов по группе.

Особенно удобны Z-показатели в случае нормального распределения первичных баллов, когда все значения Z в основном варьируют в пределах от -3 до +3. Иногда интервал вариации стараются расширить и учитывать все баллы в пределах от -5 до +5, что, без сомнения, лишено смысла, так как значения на концах интервала определены с очень большой ошибкой измерения.

Несомненным достоинством Z-шкалы является общая средняя арифметическая и общая мера вариации данных, позволяющие достичь сравнимости результатов по разным тестам. Однако, помимо явных достоинств, есть и недостатки. Будучи удобной для научного анализа в процессе разработки новых тестов, Z-шкала является неудобной для практического использования при оценке знаний испытуемых группы. Прежде всего это связано с тем, что значения Z часто приходится вычислять с несколькими десятичными знаками, так как среднее значение индивидуальных баллов редко бывает целым числом. Поскольку выявление различий в подготовке испытуемых составляет основную цель создания тестов, легко понять, что округление Z-оценок не всегда допустимо, так как оно может свести на нет первоначальные различия индивидуальных баллов и снизить тем самым дифференцирующий эффект теста.

Эффект снижения дифференцирующей способности теста в результате округления Z-оценок можно проиллюстрировать примером данных табл. 7.6. Отличающиеся до округления результаты второго и третьего испытуемых Z 2 = -1,14 и Z 3 = -1,52 превращаются после него в одинаковые баллы Z 2 = Z 3 = - 1.

Определенные неудобства вызывают отрицательные значения Z-показателя, указывающие на результаты ниже среднего по группе тестируемых учеников. Понятно, что в практике контроля отрицательные значения Z-баллов вызовут явное неприятие у получивших их учеников. В целом все это делает Z-показатель неудобным для сообщения результатов испытуемым группы и вынуждает применять специальные методы преобразования для выставления оценок ученикам.