Дифференцирующая способность теста. Мера трудности задания

Дискриминативностью (дифференцирующей способностью) называют способность тестового задания дифференцировать учеников на более или менее подготовленных. Так как основная цель нормативно-ориентированного теста – это достижение дифференцирующего эффекта, то высокий показатель дискриминативности очень важен для задания.

Для оценки дискриминативности задания будем использовать расчет по формуле:

Где - индекс дискриминативности для j-ого задания теста; (P 1) j – процент учеников, правильно выполнивших j-ое задание в подгруппе из 27% лучших учеников по результатам выполнения теста; (P 0) j – процент учеников, правильно выполнивших j-ое задание в подгруппе из 27% худших учеников по результатам выполнения теста.

Индекс дискриминативности изменяется в пределах [-1; 1]. Максимального значения он достигает в том случае, когда все ученики из подгруппы сильных верно выполняют данное задание, а из подгруппы слабых это задание не выполняет верно никто. В этом случае задание будет обладать максимальным дифференцирующим эффектом. Нулевого значения индекс дискриминативности достигает тогда, когда в обеих подгруппах доли учеников, справившихся с заданием равны. Соответственно дифференцирующего эффекта нет вообще. Значение меньше 0 будет в ситуации, когда данное задание теста слабые ученики выполняют успешнее, чем сильные. Естественно, что задания, у которых индекс дискриминативности равен или ниже нуля необходимо удалить из теста.

Используя данные из файла Приложение4.xls, посчитать индекс дискриминативности для каждого задания. Сделать выводы.

ПОКАЗАТЕЛИ КАЧЕСТВА ТЕСТА

Темы для самостоятельного изучения:

Надежность нормативно-ориентированного и критериально-ориентированного теста

Валидность теста

Задания выполняются в программе Microsoft Excel . Слушателям можно раздать распечатки хода выполнения работы (см. файл в приложениях Лабораторная работа02.doc )

Надежность нормативно-ориентированного и критериально-ориентированного теста

Нормативно-ориентированный тест – позволяет сравнивать учебные достижения отдельных испытуемых друг с другом. Баллы, набранные испытуемыми, широко разбросаны по шкале. (Тесты, по которым можно ставить оценки: ЕГЭ, зачетационные тесты).

Критериально-ориентированный тест используются, чтобы аттестовать испытуемых по какой-либо области знаний. Баллы, набранные испытуемыми, сконцентрированы вокруг одной точки – критерия (например, в тесте из 50 вопросов, критерием является 25 верных ответов, т.е. если испытуемый набрал 25 баллов, то он аттестован, если нет, то не аттестован. Здесь оценка не выставляется). (Тесты проф. пригодности, тесты, составленные для зачетов).

Корреляция – это степень соответствия между результатами двух измерений.



НАДЕЖНОСТЬ

Надежность – отражает точность педагогического измерения, насколько полученные результаты по каждому студенту соответствуют его истинному баллу. Надежностью называется характеристика теста, отражающая точность тестовых измерений и устойчивость результатов к действию случайных факторов.

Трудность заданий характеризуется индексом, который соответствует доле лиц, правильно решивших задание (Bortz & Döring, 2005). Ранее этот показатель носил название Индекса популярности. Цель индекса трудности заключается в различении заданий, обладающих высокой трудностью с более лёгкими. Непригодными признаются задания, на которые все испытуемые дают правильный ответ, либо задания ответ на которое не был найден никем. Индекс трудности обязательно должен располагаться между этими крайними случаями. В тестах, уровень трудности должен охватывать весь возможный диапазон измеряемой тестом характеристики.

Трудность заданий теста с двухступенчатым ответом (например, верно / неверно) рассчитывается следующим образом:

Nr = количество испытуемых, давших правильный ответ, N = количество испытуемых, p = Трудность задания (только для заданий с двухступенчатым ответом!) Это обеспечивает решение для простейшего случая. Если испытуемые не решили задание или есть подозрение, что некоторые задания были выполнены «наугад», то приходится полагаться на другие альтернативные решения. (vgl. Fisseni, 1997, 41-42).

Расчёт трудности заданий с многоступенчатыми (альтернативными) ответами: Случай, когда р не определено. Возможные решения этой проблемы: Произвести дихотомию значений множества (например, 0 и 1), в этом случае рассчитывается трудность задания с двухступенчатым ответом. Расчет среднего значения и дисперсии (среднее значение эквивалентна р, однако, разброс также должен учитываться).

Индекс для заданий с многоуровневыми ответами:

Упрощённая формула:

Для более точного расчета разные авторы предлагают различные способы (vgl. Fisseni, 2004, 43-45). Различие трудности двух заданий можно проверить с помощью многопрофильной таблицы. Эти формулы возможно применять только для тестового уровня, то есть тогда, когда не требуется проведение испытания и / или когда испытуемые смогли справиться со всеми задачами.

Дифференцирующая способность задания .

Показатели дифференцирующей способности заданий

Коэффициент дискриминативности,

Точечно-бисериальный коэффициент

корреляции,

Бисериальный коэффициент корреляции,

Фи-коэффициент корреляции.

Важным показателем качества тестового задания является дифференцирующая способность, который определяет насколько хорошо данное задание различает "лучших" и "слабых" испытуемых.

Понятие дифференцирующей способности строится на фундаментальном предположении, что экзаменующиеся, которые показывают высокий уровень подготовки по данному предмету, как предполагается, более вероятно правильно ответят на любое задание о том предмете, чем те, которые обладают низким уровнем подготовки.

Наоборот, задания, на которые или все экзаменующиеся ответили правильно или все ответили неверно, не обладают дифференцирующей способностью, т.е. не различают сильных и слабых испытуемых.

Задания, которые не обладают дифференцирующей способностью, не дают никакой информации о различиях между индивидуумами. Существуют несколько статистических процедур для количественной оценки дискриминативности задания. Эти показатели чрезвычайно полезны в анализе качества заданий, потому что указывают авторам на конкретные задания, нуждающиеся в усовершенствовании.

Коэффициент дискриминативности

В классической тестовой теории для оценки качества тестовых заданий широко применяется коэффициент дискриминативности - Dj. Этот коэффициент рассчитывается по результатам тестирования путем выделения двух "контрастных" групп испытуемых. В большинстве случаев это 27% "слабых" и 27% "лучших" студентов из всей выборки.

Коэффициент находится по формуле Dj = Рu - Рl , где Рu и Рl - это доли студентов в лучшей и слабой группе, ответивших на данное (j-тое) задание правильно.

Значение коэффициента Dj может изменяться от -1 до +1.

Если значение Dj близко к -+1, то данное задание обладает высокой различающей способностью, то есть "лучшая" группа студентов из выборки отвечают на него гораздо чаще, чем "слабая" группа.

Интерпретация коэффициент различающей способности Dj согласно классической тестовой теории представлена в таблице

Точечно бисериальный коэффициент корреляции .

Точечно - бисериальный коэффициент корреляции - статистический показатель, который может использоваться для анализа дифференцирующей способности заданий.

Данный показатель оценивает степень статистической связи между двумя переменными: профилем ответа на конкретное задание и результирующим тестовым баллом.



Для j-го задания точечно-бисериальный коэффициент корреляции вычисляется по формуле:

Здесь x 1 – среднее значение по Х объектов со значением «единица» по Y;

x 0 – среднее значение по Х объектов со значением «ноль» по Y;

s х – среднее квадратическое отклонение всех значений по Х;

n 1 – число объектов «единица» по Y, n 0 - число объектов «ноль» по Y;

n = n 1 + n 0 – объем выборки.

Согласно тестовой теории значение точечно-бисериального коэффи- циент корреляции rpbis равное или большее 0,3 является приемлемым пока- зателем его качества.

С помощью этого статистического показателя автор задания может оценить его дифференцирующую способность. Вообще говоря, задания с более высоким значением данного показателя лучше различают подготов- ленных и не подготовленных испытуемых. На практике, задания с отрица- тельным показателем точечно - бисериального коэффициента корреляции или удаляются из банка заданий, или полностью пересматриваются.

ТЕСТИРОВАНИЕ (от англ. test – опыт, проба) – метод психологической диагностики, использующий стандартизированные вопросы и задачи (тесты), имеющие определенную шкалу значений. Применяется для стандартизированного измерения индивидуальных различий.

Существуют три основные сферы тестирования:

а) образование – в связи с увеличением продолжительности обучения и усложнением учебных программ;

Б) профессиональная подготовка и отбор – в связи с увеличением темпа роста и усложнением производства;

в) психологическое консультирование – в связи с ускорением социодинамических процессов. Тестирование позволяет с известной вероятностью определить актуальный уровень развития у индивида необходимых навыков, знаний, личностных характеристик и т. д.

Процесс тестирования может быть разделен на три этапа:

1) выбор теста (определяется целью тестирования и степенью достоверности и надежности теста);

2) проведение теста (определяется инструкцией к тесту);

3) интерпретация результатов (определяется системой теоретических допущений относительно предмета тестирования).

На всех трех этапах необходимо участие квалифицированного психолога (педагога). Процедура обработки тестовых результатов при большом количестве испытуемых отнимает много времени и сил. Компьютерные программы тестирования позволяют за считанные секунды увидеть характеристики выборки, для большей наглядности представленные на графиках и в таблицах, создают атмосферу независимости, устраняя межличностные отношения – преподаватель-студент. Это экономит время, деньги и силы педагога-психолога. Современные компьютерные программы дают возможность быстрой и качественной обработки полученных данных.

Анализ и оценка тестовых заданий начинается после апробации теста на целевой группе. Полученные данные сводятся в таблицу с матричной структурой, в которой задания начинают сортироваться по следующим критериям:

1) мера трудности задания;

2) дифференцирующая способность задания;

3) первичный анализ результатов тестирования

Мера трудности задания

Мера трудности задания дает информацию о степени задействования того параметра изучаемого свойства, которое оно призвано измерять и определяет соответствие задания целевой группе теста.

Трудное задание или легкое, определяют путем подсчета доли неправильных ответов к каждому из них. Трудность задания можно определить и умозрительно, на основе предполагаемого числа и характера тех элементов, которые участвуют в выполнении.

Дифференцирующая способность

Дифференцирующая способность – это насколько задание может отличить сильного испытуемого от слабого по уровню знаний. Если по одному из заданий у всех испытуемых имеется одинаковое значение – это задание нецелесообразно включать в тест. Дифференцирующая способность эмпирически определяется через вариацию данных.

Вариация – это степень разнообразия данных, полученных при выполнении задания. Она отражает дифференцирующую способность. Если дифференцирующая способность высокая, мы говорим о вариативных данных, и наоборот. При невариативных данных задание удаляют из теста. Определяется вариация путем вычисления дисперсии. Дисперсия вычисляет сумму квадратных отклонений значений баллов от среднего арифметического балла, т.е. рассчитывается среднее арифметическое по выборке, и все полученные значения баллов начинают с ним сравниваться. Так можно получить информацию о вариации тестового задания. Общепринятой мерой вариации тестовых баллов задания является стандартное отклонение, которое определяется путем вычисления квадратного корня из дисперсии.

Первичный анализ результатов тестирования

После того, как тест стандартизован, апробирован, одобрен экспертной комиссией, можно получить необходимую информацию о способности человека. Для этого после проведения тестирования проводят первичный анализ результатов, лучше использовать результаты группового тестирования.

Полученные данные сначала необходимо свести к среднему значению. Оно более наглядно показывает групповой результат. Однако среднее значение мало информативно в отношении характеристики распределения значений баллов, частоты встречаемости каждого значения. Мода (Мо) – показатель наиболее часто встречающегося значения балла. Мод может быть несколько – наибольшее количество раз могли встретиться несколько значений. Далее выборку делят пополам, а значения баллов пограничного испытуемого принимаются за медиану (Ме).

График результатов теста обычно принимает форму колокола ("колокол Гаусса"), отвечая закону о нормальном распределении, где крайние значения показывают редко встречающиеся баллы, а при приближении к середине кривой частота встречаемости баллов увеличивается. Моды, медиана и среднее арифметическое значение также откладываются на графике. В некоторых случаях они могут совпадать – тогда распределение данных называют симметричным. Чем больше расстояние между модой, медианой и средним значением, тем больше результаты теста отклоняются от нормального распределения.

дипломная работа

2.4 МЕТОДЫ ОЦЕНКИ ДИФФЕРЕНЦИРУЮЩЕЙ СПОСОБНОСТИ

Дифференцирующая способность (ДС) - способность тестового задания дифференцировать (различать) сильных (способных) от слабых . Рассмотрим несколько методов вычисления дифференцирующей способности.

М етод 1 - вычисление коэффициента дискриминации.

А. В этом методе вычисляется коэффициент дискриминации по формуле :

где x - среднее арифметическое значение всех индивидуальных оценок по тесту, - среднее арифметическое значение оценок по тесту у тех испытуемых, которые правильно решили задачу, - среднеквадратическое отклонение индивидуальных оценок по тесту для выборки, n - число испытуемых, правильно решивших задачу, - общее число испытуемых.

В. Коэффициент дискриминации задачи может принимать значение от -1 до +1. Высокий и значимый положительный коэффициент является показателем того, что задача хорошо разделяет испытуемых с высокими и низкими оценками по тесту. Высокий, значимый отрицательный коэффициент свидетельствует о непригодности задачи для теста. Если значение коэффициента близко к 0, то задачи должны рассматриваться как некорректно сформулированные .

2-й метод - вычисление дискриминативности с применением метода крайних групп .

А. В этом методе вычисляется дифференцирующая способность (дискриминативности) с применением метода крайних групп, то есть при расчете учитываются результаты учащихся, наиболее и наименее успешно справившихся со всем тестом. Как правило, берут от 10 до 30% лучших и худших по результатам выполнения всего теста. Индекс дискриминации задания вычисляется как разность долей испытуемых из высокопродуктивной и низкопродуктивной групп, правильно решивших ее .

где - количество учащихся в группе лучших, верно выполнивших данное задание, - количество учащихся в группе худших, верно выполнивших данное задание, - общее количество испытуемых в группе лучших, - общее количество испытуемых в группе худших.

В. В этом методе, также как и в предыдущем, индекс дискриминации может изменяться в пределах от +1 (когда с заданием справились все учащиеся лучшей группы и ни один ученик из худшей группы) до -1 (когда складывается обратная ситуация - в лучшей группе никто не справился, а в худшей справились все). Задания с отрицательным значением индекса дискриминации или со значением, близким к нулю, не могут быть признаны удовлетворительными, и в них следует искать существенные ошибки. Показатель индекса дискриминации, больший 0,3, следует признать удовлетворительным .

3-й метод - сравнение средних достижений испытуемых, показавших наиболее высокие и наиболее низкие результаты.

А. Дифференцирующая способность вычисляется по формуле:

где и - средние достижения групп с наиболее высокими и наиболее низкими результатами соответственно (группа испытуемых делится на две равные части) .

4-й метод - проведение тестирования дважды в одной и той же группе в течение некоторого периода времени .

А. В этом методе дифференцирующая способность вычисляется по формуле:

где и - число правильных ответов по тесту, данных во время первого и второго тестирования соответственно, N - число испытуемых .

5-й метод - сравнение результатов выполнения одного и того же теста в разных группах.

А. И в последнем методе дифференцирующая способность вычисляется по формуле :

где и - число правильных ответов по тесту, данных в первой и второй группах, и - число испытуемых в каждой из групп.

В. Интерпретация результатов в последних трех методах следующая: дифференцирующая способность теста считается удовлетворительной, если показатель .

Вывод: можно заметить, что формулы нахождения дискриминативности 2-м и 3-м методами практически не отличаются. Разница заключается лишь в том, что в первом случае мы используем метод крайних групп. В 4-м и 5-м методах особенностью является ситуация тестирования (проведение тестирования дважды в одной группе и сравнение результатов в разных группах).

Государственное управление в сфере образования в Калмыкии

Проведение рыночных преобразований в России выдвигает соответствующие требования к подготовке высококвалифицированных специалистов, способных работать в новой экономической среде, а, следовательно, и к структуре системы образования...

Методика социально-педагогической деятельности по развитию творческих способностей детей младшего школьного возраста

творческий способность школьный изобразительная Под способностями понимают высокий уровень развития общих и специальных знаний, умений и навыков, обеспечивающих успешное выполнение человеком различных видов деятельности ...

Методы изучения педагогического опыта - это способы исследования реально складывающегося опыта организации образовательного процесса. Изучается как передовой опыт, т.е. опыт лучших учителей, так и опыт рядовых педагогов...

Методология научных исследований в педагогике

Третью классификацию методов мы рассмотрим более подробно. Традиционно-педагогические методы. Традиционными называются методы, доставшиеся современной педагогике по наследству от исследователей, стоявших у истоков педагогической науки...

Методы обучения и их выбор

Проверка и оценка знаний, умений и навыков учащихся является важным структурным компонентом процесса обучения и в соответствии с принципами систематичности...

Организация контроля и учета знаний, умений и навыков

Обсуждая оценку знаний по экономике, стоит хорошенько задуматься над вопросом - что именно учителя пытаются оценить? В прошлом в тестах и экзаменах делался неоправданно большой акцент на изучении и воспроизведении фактов. В последние годы...

Методы оценки основных характеристик теста состоят из двух частей: A. Вычисление некоторой величины или характеристики; B. Интерпретация полученного результата, в соответствии с нормой. Норма определяется согласно специфике теста...

Особенности статистической оценки качества теста диагностики индивидуального прогресса учащихся общеобразовательной школы

Напомним, что валидность в теории тестирования означает соответствие формы и содержания теста тому, что он должен оценивать или измерять по замыслу его создателей . Из анализа литературы мы выделили два метода оценки валидности...

Особенности статистической оценки качества теста диагностики индивидуального прогресса учащихся общеобразовательной школы

Как уже говорилось выше, надежность теста характеризует степень устойчивости результатов тестирования каждого испытуемого. Методы оценки надежности заключаются в вычислении коэффициента надежности разными способами...

Оценка эффективности деятельности государственного бюджетного образовательного учреждения среднего профессионального образования

Теоретические основы оценки качества образовательных услуг с участием потребителей» посвящена разработке и теоретическому обоснованию модели оценки качества образовательных услуг...

Пейзажная живопись как средство развития творческих способностей

Очень часто, когда мы пытаемся объяснить, почему люди, оказавшиеся в одинаковых или, почти одинаковых условиях, достигают разных успехов, мы обращаемся к понятию способности, полагая, что разницу в успехах людей можно объяснить именно этим...

Проблемы в повышении эффективности качества образования выпускников

В условиях модернизации системы профессионального образования...

Усвоение знаний в школе

В самом общем виде способности - это индивидуально-психологические особенности личности, обеспечивающие успех в деятельности, в общении и легкость овладения ими. Способности не могут быть сведены к знаниям, умениям и навыкам...

Физиолого-педагогические особенности развития учащихся в подростковом возрасте

Формирование двигательной активности детей старшего дошкольного возраста

Анализ литературы и опыт работы с детьми показывают, что для оценивания различных сторон физической подготовки дошкольников, используются контрольные испытания (тесты)...

Методы диагностики способностей

Диагностика способностей должна осуществляться высококвалифицированным специалистом. Для выявления способностей психолог проводит комплексную консультацию, которая включает в себя проведение тестирования, рассмотрение и интерпретацию полученных результатов, а также создание индивидуальной схемы развития, которая зависит от наличия тех или иных способностей.

К наиболее распространенным методам диагностики способностей можно отнести : батарея тестов дифференциальных способностей (ДАТ) и батарея тестов общих способностей (ГАТБ). ДАТ – 8 субтестов (особенности развития словесного мышления, числовых способностей, абстрактного мышления, технического мышления и др.). ГАТБ - 12 субтестов, измеряющих уровень развития 9 способностей.

Кроме того специалисты используют специальные тесты, позволяющие установить особенности, а также уровень развития интеллекта. В некоторых случаях, психологи дополняют свои консультации иными диагностическими методиками.

Целью выявления способностей является их дальнейшее развитие, которое представляет собой процесс, включающий в себя развитие операционных механизмов, функциональной системы, оперативности в системе операционных и функциональных механизмов и прочее.

Комплексные батареи способностей - измеряют ряд способностей и дают профиль, образуемый показателями каждой способности. Тесты способностей делятся на:

Общие (интеллектуальные - применяются тесты интеллекта).

Специальные (применяются специальные тесты).

Различают тесты математических, технических, музыкальны художественных и других способностей. В зарубежной тесто ЮГИИ принято классифицировать тесты этого типа по двум основаниям:

а) по видам психических функций - сенсорные, моторные тесты;

б) по видам деятельности - технические и профессионализированные тесты, т. е. соответствующие той или иной профессии (конторские, артистические и т. д.).

Моторные тесты направлены на изучение точности и скорости движений, зрительно-моторной координации, ловкости движений пальцев и рук, тремора, точности мышечного усилия и др. Наиболее известны тест скорости манипулирования с мелкими предметами Крауфорда и др. В отечественной психологии известны тесты, разработанные М. И. Гуревичем и Н. И. Озе-рецким. Для проверки психомоторики испытуемым в быстром темпе предлагалось завязывать узлы, нанизывать бусы.

Сенсорные тесты разрабатываются для изучения разных характеристик восприятия. Например, острота зрения и слуха, различительная чувствительность, цветоразличение, дифференциация высоты, тембра, громкости звуков и др. В изучении слуха, наряду с отдельными пробами, большую популярность приобрел тест музыкальной одаренности Сишора, технический – Беннета.

Однако существуют и более общие методы изучения способностей - специальные тестовые батареи .

Наиболее известными являются батарея тестов дифференциальных способностей (ДАТ) и батарея тестов общих способностей (ГАТБ).

Диагностика общих умственных способностей осуществляется с помощью трех субтестов: «запас слов», «математическое мышление» и «пространственное восприятие в трехмерном пространстве»;

вербальные способности диагностируются с помощью заданий на определение синонимов и антонимов (словарный запас); числовые способности изучаются с помощью двух субтестов на вычисления и математическое мышление; пространственное восприятие анализируется с помощью геометрических разверток; восприятие формы представлено двумя субтестами, в которых испытуемый сопоставляет различные инструменты и геометрические формы; задания на скорость восприятия, требующуюся для клерка, представлены парами слов, идентичность которых необходимо установить; моторная координация проверяется заданием - сделать пометки карандашом в серии квадратов; ловкость рук (пальцевая моторика) изучается с помощью специального приспособления (4 субтеста).

Для диагностики некоторых видов творческих способностей разрабатываются стандартизованные тесты. Так, тесты художественных способностей включают задания:

1) на понимание произведений искусства (диагностируют одно из важнейших качеств, требуемых для творчества - эстетическое отношение к жизни). Например, в тестах на понимание произведений искусства испытуемому необходимо выбрать из двух или более вариантов изображения какого-либо объекта наиболее предпочтительный;

2) на продуктивность (т. е. технику, мастерство исполнения) деятельности.

Тесты на интеллект предназначены для изучения уровня интеллектуального, умственного развития человека. Под интеллектом в данном случае подразумеваются познавательные процессы и функции (мышление, память, внимание). Тесты интеллекта являются исторически ранними методиками психодиагностики. В качестве основного и достаточно стабильного показателя умственного развития используется понятие «коэффициент интеллектуальности» (IQ). Среди наиболее известных тестов интеллекта, использующихся отечественными психологами, можно назвать тесты Д.Векслера, Р.Амтхауера, Дж.Равена, Стенфорд-Бине.