Главная База знаний "Allbest" Педагогика Оценка качества теста

Оценка качества теста

Создание теста и оценка его качества по теории IRT. Изучение понятия адаптивного тестирования и основных принципов его реализации. Построение информационной функции для однопараметрической модели. Классические шкалы оценки знаний и Item Response Theory.

Рубрика	Педагогика
Вид	курсовая работа
Язык	русский
Дата добавления	07.08.2013
Размер файла	716,0 K

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Московский государственный университет путей сообщения

Институт управления и информационных технологий

Кафедра: ”Автоматизированные системы управления”

КУРСОВОЙ ПРОЕКТ

По дисциплине: ”Методы и системы качества продукции”

ТЕМА: «Оценка качества теста».

Выполнили: студентка Бочарова И., Амелюшкин С.

Преподаватель: Дружинин Ю.Г.

Москва 2010

СОДЕРЖАНИЕ

ВВЕДЕНИЕ

1. ПОНЯТИЕ АДАПТИВНОГО ТЕСТИРОВАНИЯ И ПРИНЦИПЫ ЕГО РЕАЛИЗАЦИИ

2. КЛАССИЧЕСКИЕ ШКАЛЫ ОЦЕНКИ ЗНАНИЙ И ITEM RESPONSE THEORY

2.1 ОСНОВНЫЕ ДОПУЩЕНИЯ IRT

2.2 МАТЕМАТИЧЕСКИЕ МОДЕЛИ IRT

3. ОБРАБОТКА РЕЗУЛЬТАТОВ ТЕСТА

3.1 ПОСТРОЕНИЕ ХАРАКТЕРИСТИЧЕСКИХ КРИВЫХ ДЛЯ ЗАДАНИЙ ТЕСТА

3.2 ПОСТРОЕНИЕ ИНФОРМАЦИОННЫХ ФУНКЦИЙ

ВЫВОД

СПИСОК ИСПОЛЬЗУЕМОЙ ЛИТЕРАТУРЫ

Введение

адаптивный тестирование знание информационный

Цели работы.

Создать тест и оценить его качество по теории IRT. В конце работы выдать рекомендации по улучшению теста.

Задачи.

Изучить теорию IRT оценки качества тестов, провести необходимые расчеты используя однопараметрическую модель Раша.

Весьма важным аспектом педагогической деятельности является оценивание преподавателем знаний обучаемых. Одним из способов быстрой проверки знаний является тестирование. Однако кажущаяся простота создания тестов и возросший спрос на них породили множество некачественных материалов, называемых тестами.

При разработке тестов нужно учитывать два момента:

1. разработка тестов, способных адекватно оценить знания обучаемых - это не просто составление заданий и объединение их в тест. Тест - это система заданий, в которой каждое задание должно удовлетворять определенным критериям;

2. нельзя сводить проверку знаний к одному лишь тестированию. С помощью тестов нельзя проверить, например, доказательство теорем, и, конечно же, никакое тестирование не заменит живой беседы обучаемого с преподавателем. Поэтому достаточно часто тестирование применяется как первый этап сдачи экзамена, по результатам которого осуществляется допуск ко второму этапу - собеседованию с преподавателем.

Разработка тестовых заданий и обработка результатов тестирования очень важны, однако не менее важное значение имеет порядок предъявления заданий обучаемому и метод определения его уровня знаний по результатам тестирования, т.е. модель тестирования. При измерении уровня знаний согласно классической модели тестирования, для каждого обучаемого формируется тест определенной длины из выбранных случайным образом заданий тестового пространства. При этом тесты отличаются по сложности, и итоговая оценка формируется по числу правильных ответов с учетом весовых коэффициентов заданий. Недостатком такого тестирования может быть появление ситуаций, когда слабому студенту попадается сложный тест и как следствие этого - практическое отсутствие ответов. С другой стороны сильный студент может получить легкий тест и не реализовать свои способности. Для обеспечения максимальной информативности результатов контроля необходимо, чтобы средняя сложность предъявляемого обучаемому теста соответствовала его гипотетическому уровню обученности. Практически это можно осуществить с помощью адаптивного тестирования.

1. Понятие адаптивного тестирования и принципы его реализации

Под адаптивным тестовым контролем понимают компьютеризованную систему научно обоснованной проверки и оценки результатов обучения, обладающую высокой эффективностью за счет оптимизации процедур генерации, предъявления и оценки результатов выполнения адаптивных тестов. Эффективность контрольно-оценочных процедур повышается при использовании многошаговой стратегии отбора и предъявления заданий, основанной на алгоритмах с полной контекстной зависимостью, в которых очередной шаг совершается только после оценки результатов выполнения предыдущего шага.

После выполнения испытуемым очередного задания каждый раз возникает потребность в принятии решения о подборе трудности следующего задания в зависимости от того, верным или неверным был предыдущий ответ. Алгоритм отбора и предъявления заданий строится по принципу обратной связи, когда при правильном ответе испытуемого очередное задание выбирается более трудным, а неверный ответ влечет за собой предъявление последующего более легкого задания, чем то, на которое испытуемым был дан неверный ответ.

Также есть возможность задания дополнительных вопросов по темам, которые обучаемый знает не очень хорошо для более тонкого выяснения уровня знаний в данных областях. Таким образом, можно сказать, что адаптивная модель напоминает преподавателя на экзамене - если обучаемый отвечает на задаваемые вопросы уверенно и правильно, преподаватель достаточно быстро ставит ему положительную оценку. Если обучаемый начинает «плавать», то преподаватель задает ему дополнительные или наводящие вопросы того же уровня сложности или по той же теме. И, наконец, если обучаемый с самого начала отвечает плохо, оценку преподаватель тоже ставит достаточно быстро, но отрицательную.

Достоинства

Позволяет более гибко и точно измерять знания обучаемых;

Позволяет измерять знания меньшим количеством заданий, чем в классической модели;

Выявляет темы, которые обучаемый знает плохо и позволяет задать по ним ряд дополнительных вопросов.

Недостатки:

Заранее неизвестно, сколько вопросов необходимо задать обучаемому, чтобы определить его уровень знаний. Если вопросов, заложенных в систему тестирования, оказывается недостаточно, можно прервать тестирование и оценивать результат по тому количеству вопросов, на которое ответил обучаемый;

Возможно применение только на ЭВМ.

2. Классические шкалы оценки знаний и Item Response Theory

Классическая теория тестирования (Clasical Test Theory -- CTT) изначально создана для интерпретации диагностических процедур. Эта теория создавалась под чисто прикладные задачи, поэтому некоторые предположения, используемые в основаниях этой теории, необходимо прояснить, тем более что в литературе эти основания почти не обсуждаются.

В классической теории тестирования предполагается явно:

1. Одномерность, т.е. процедура тест измеряет только одно качество, готовность или способность.

2. Репрезентативность, в рамках CTT понимаемая как независимость вероятности той или иной оценки от того, какая подгруппа из общей популяции будет выполнять тест.

3. Независимость заданий, т.е. задания не зависят друг от друга.

4. Независимость ответов испытуемых.

Обе упомянутых независимости понимаются как минимум в статистическом смысле. Поскольку диагностические процедуры в большинстве случаев проводились в виде тестов, причём в большинстве тестов в форме закрытых или, реже, открытых вопросов, то результат каждого ответа предполагался измеримым в баллах по некоторой шкале.

Кроме явных предположений, в этой теории заложены некоторые неявные предположения. В частности, неявно предполагается:

-- измеримость всех возможных ответов, т.е. существование эффективной процедуры получения ответа на любой поставленный вопрос,

-- полнота ответов, т.е. получение ответов на все поставленные вопросы, из чего следует, что отказы от ответов во внимание не принимаются,

-- равнозначимость всех вопросов и, следовательно, равные веса всех поступивших ответов,

-- равенство дисперсий при использовании параллельных форм ответов,

-- нормальное распределение ответов .

Как и в случае технических измерений, неявно предполагается, что любой результат измерений складывается из истинного значения и ошибки измерения, и ошибки измерения предполагаются аддитивными, что нужно для корректности перехода от сумм ошибок к одной интегральной ошибке, причём интегральная ошибка тоже предполагается нормально распределённой.

Насколько корректны эти допущения, обычно не обсуждается. Во всяком случае, самые серьёзные вопросы по поводу CTT связаны с обеспечением реальной независимости заданий. Не обсуждается также и вопрос о выборе оценочных шкал, в качестве исходного допущения предполагается, что «сырые баллы» уже получены.

Более тонкий вопрос связан с метрологическим смыслом категории «ошибка». В технических измерениях неявно предполагается, что ошибка и порождённая ею погрешность -- свойство измерительной процедуры, и, следовательно, погрешность в принципе можно оценить и учесть по результатам поверки и калибровки. При измерениях эргатических элементов появляется ещё один источник ошибок -- нестабильность самого измеряемого, возникающая вследствие действия различных факторов, к самым важным из которых можно отнести обучение, забывание, утомление и динамику функционального состояния. Поправки на эти факторы в метрологии не обсуждаются.

Для получения итоговой оценки используются различные вычислительные процедуры. Чаще всего вычисляется средний балл по обычной формуле среднего арифметического

где -- итоговый балл i-го испытуемого, и квадрат отклонения от среднего или варианты этого показателя -- среднеквадратическое отклонение или дисперсия. Для сравнения результатов используется коэффициент корреляции между заданиями и между испытуемыми.

Как вариант, иногда используется взвешенный средний балл вида

где -- соответствующие весовые коэффициенты.

Из всех перечисленных выше предположений труднее всего доказывать равнозначимость ответов, поскольку это требует доказательств субъективного равенства всех трудностей соответствующих ответов и одновременно доказательств одинаковой важности всех поставленных вопросов. Предположение о вычислимости упомянутых статистических показателей требует содержательных доказательств корректности гомеоморфного вложения шкалы баллов в шкалу действительных чисел, в которой на самом деле выполняются подобные вычисления. Другими словами, вопросы как по критериальной, так и по конструктной валидности обычно остаются открытыми.

Кроме упомянутых стандартных статистических показателей (вопрос о математической корректности которых обычно не обсуждается) для испытуемых, оцениваются некоторые психометрические характеристики измерительных процедур с ясным прагматическим, но сомнительным математическим смыслом, например, коэффициент лёгкости задания

где -- средняя оценка, полученная за задание , -- максимально возможная оценка за это же задание, при том, что минимальная возможная оценка за любое задание по умолчанию предполагается нулевой, коэффициент дискриминации задания, т. е. коэффициент корреляции между результатом задания и итоговым результатом, или считающийся более информативным вариант -- коэффициент корреляции между результатом задания и итоговым результатом без учёта этого задания, и некоторые другие коэффициенты, толкование которых в этой науке отличается от общепринятого.

В частности, надёжность здесь, в отличие от стандартного понимания, считается качеством не системы или объекта, а измерения, и оценивается не через время исправной работы или какие-либо варианты этого времени, например, в терминах наработки на отказ, а как возможность получения сопоставимых показателей, оцениваемых через коэффициент корреляции. Из такого толкования получаются последовательная надёжность, т. е. коэффициент корреляции между результатами выполнения двух заданий, расстояние по времени между которыми достаточно для того, чтобы эти задания можно было бы считать субъективно независимыми, параллельная надёжность, т.е. коэффициент корреляции между результатами вариантов заданий, надёжность частей, т.е. коэффициент корреляции между результатами всей процедуры измерений и какой-либо его части, и другие показатели. Другими словами, последовательной надёжностью в этой науке называют то, что в профессиональной теории измерений считают количественной мерой test-retest-валидности, параллельной надёжностью и надёжностью форм -- мерой test-subtest-валидности, и в целом наблюдается путаница в терминологии, что приводит к смешиванию валидности и надёжности.

По другой версии, коэффициент надёжности определяется как

где -- дисперсия ошибок измерения, -- дисперсия набранных баллов, т. е. время в таком определении коэффициента надёжности вообще не упоминается.

Сомнительность подобных вычислений с математической точки зрения связана с тем, что исходные данные изначально получены по шкале баллов, на которой бывает задано отношение порядка, и даже линейного порядка, но не определены арифметические операции. Следовательно, сложение и вслед за ним вычисление средних, взвешенных средних, дисперсий и корреляций на шкале баллов не определено. Ещё одно предположение, понятное с прагматической точки зрения, но с явно неадекватным теоретическим обоснованием, сводится к утверждениям о нормальном распределении ответов и, следовательно, с распределением «сырых баллов» на шкале действительных чисел. Предположение о логнормальном распределении тех же баллов часто кажется более правдоподобным, но содержательно обычно тоже не обосновывается. Эти предположения позволяют использовать при статистической обработке результатов хорошо известные методы, но математическая корректность всех последующих вычислений после этого предположения не обсуждается.

В литературе широко обсуждаются многие проблемы традиционного подхода к построению шкал (метрик) знаний как баллов за выполнение некоторых специально подобранных наборов заданий.

Прежде всего, практически невозможно доказать test-to-test- и intertest-валидность, следовательно, вопрос о сравнении и тем более об общем учёте результатов измерений, выполненных по разным методам, остаётся открытым.

Многократно отмечены «эффекты края», т. е. относительная устойчивость результатов ближе к медиане распределения ответов и неустойчивые результаты по краям этого распределения, что обычно объясняется возрастанием роли инородных факторов как в «нижней», так и в «верхней» части распределения. В качестве борьбы с этими эффектами обычно предлагается эмпирически обоснованная рекомендация задать некоторый «доверительный квантиль» распределения , обычно предлагается принять , или , и при попадании ответа ниже или выше вносить поправки на нестабильность, главным образом, завышать полученные оценки по эмпирически подобранным поправочным формулам.

В случае закрытых вопросов возможны ситуации случайного угадывания, для коррекции данных в этом случае предлагается вносить поправки вида

где -- результат после коррекции, -- результат (в баллах или другим шкалам) ответа на -й вопрос до коррекции, -- количество возможных ответов на -й вопрос, w -- количество невыполненных заданий в серии измерений. Эта формула обосновывается эмпирически, в частности, обсуждается вопрос о целесообразности учёта в этой формуле невыполненных заданий, для которых соответствующее значение , что уменьшает значение , и идут дискуссии о содержательном смысле подобных поправок.

В целом, метрики качества знаний при классическом подходе обоснованы статистической калибровкой методов по соответствующей популяции. Со времён создания IQ метрологическое обоснование измерений знаний проводится по распределениям баллов, вычисленных по соответствующему контингенту респондентов. Например, указываются средние значения IQ по возрастным, социальным или профессиональным группам. Однако из разницы IQ непонятно, какие принципиальные отличия в структуре знаний различают эти группы.

Item Response Theory

В качестве средства обеспечения содержательной корректности метрик качества знаний в 50-е годы была предложена и с начала 80-х годов стала популярной Item Response Theory - IRT.

В IRT предполагается, что получаемые баллы оказываются внешними проявлениями результатов действия неких ненаблюдаемых переменных -- латентных параметров, и ставится задача оценить эти параметры по результатам выполненным измерениям.

Первоначальный вариант IRT связан с именем Г.Раша. В IRT результат измерения считается внешним проявлением латентной переменной, и ставится задача восстановить оценку латентной переменной по измерениям видимых переменных. Для -го испытуемого значение латентной переменной , обычно интерпретируемой как оценка готовности, и уровень трудности -го задания расположены на одной шкале, измеримы в сравнимых единицах, которые в этой теории называются логиты, и поэтому вычислима разность .

В IRT предполагается существование семейства функций вида

где -- вероятность того, что -й испытуемый выполнит -е задание. Точный вид зависимости может меняться, в модели могут также могут дополнительные параметры. Таким образом, предполагается, что вероятность успеха зависит только от разницы между уровнем готовности и сложностью задания, при этом уровень готовности отдельных испытуемых и уровень сложности задания предполагаются независимыми как минимум в статистическом смысле.

При использовании логистической функции, можно определить вероятность успеха -го испытуемого при решении-го задания как

где k -- некий масштабный множитель, который используется для согласования различных шкал и моделей, и соответствующие интегральные характеристики сложности заданий для -го испытуемого и готовности испытуемого к решению-го задания.

Часто вместо модели Раша используется модель Фергюссона, в которой вместо логистической функции используется функция нормального распределения, тогда для совместимости этих двух моделей в модели Раша используется коэффициент . Принято считать, что модель Раша позволяет отделить трудности заданий от готовности испытуемых, т. е. от субъективной сложности заданий.

В однопараметрической модели Раша заложено предположение о равнозначности всех заданий. Для коррекции этого предположения вводится дополнительный параметр , характеризующий различительную силу заданий. Отсюда получается исправленная модель вида

известная под названием двухпараметрической IRT, или модели Бирнбаума. Для учёта поправок на угадывание Бирнбаум предложил учитывать ещё один дополнительный параметр и получил трёхпараметрическую модель вида

где можно оценить, например, как вероятность случайного угадывания правильного ответа на соответствующий вопрос. Иногда также называют уровнем или коэффициентом псевдоуспеха, то есть вероятностью ответить на задание правильно для испытуемых с минимальной готовностью.

Очевидно, что при получается двухпараметрическая модель Бирнбаума, а при и -- логистическая модель Раша.

Оценки параметров и обычно выполняются по известным статистическим приёмам, например, через построение подходящей функции правдоподобия. Известны также быстрые методы приближённой оценки этих параметров. При ясности вычислительных моделей IRT, однако, отмечены вопросы о содержательной интерпретации заложенных в них параметров. В частности, отмечены «краевые эффекты» этих моделей, это означает, что испытуемые, ответившие на все вопросы и не ответившие ни на один вопрос, не должны учитываться в общей статистике.

IRT считается общепризнанной, и обычно ставится вопрос только о калибровке по отношению к соответствующим параметрам.

Таким образом, центральной проблемой в оценке качества знаний оказывается проблема оценки субъективной когнитивной сложности или, как минимум, калибровка измерительного инструментария по критерию когнитивной сложности.

2.1 ОСНОВНЫЕ ДОПУЩЕНИЯ IRT

1) существуют латентные (скрытые) параметры личности, недоступные для непосредственного наблюдения. В тестировании это уровень подготовленность испытуемого и уровень трудности задания;

2) существуют индикаторные переменные, связанные с латентными параметрами, доступные для непосредственного наблюдения. По значениям индикаторных переменных можно судить о значениях латентных параметров;

3) оцениваемый латентный параметр должен быть одномерным. Это означает должен измерять знания только в одной, четко заданной, предметной области.

2.2 МАТЕМАТИЧЕСКИЕ МОДЕЛИ IRT

В качестве математической модели, связывающей успех испытуемого с уровнем его подготовленности и трудностью задания выбирается логистическая функция. Для модели Раша она имеет вид

(1)

(2)

Масштабный множитель 1,7 используется для совместимости модели G.Rasch с моделью A.Fergusson, где вероятность правильного ответа на задание выражена интегралом нормального распределения что позволяет использовать вместо логистических кривых хорошо изученную интегральную функцию нормированного нормального распределения

(3)

Модель Раша носит название «1 Parametric Logistic Latent Trait Model» (1PL), а модель A.Fergusson - «1 Parametric Normal Ogive Model» (1PN). Поскольку модель Раша описывает вероятность успеха испытуемого как функцию одного параметра (и_i - в_j), то иногда ее называют однопараметрической моделью IRT.

Взаимодействие двух множеств и_i и в_j образует данные, обладающие свойством «совместной аддитивности» (conjoint additivity). Правильное использование модели Раша позволяет отделить оценки испытуемых от оценок трудности заданий и наоборот. Это свойство Rasch Measurement носит название separability parameter estimates⁸ - «независимость оценок заданий от испытуемых и оценок испытуемых от параметров заданий».

На рис.1. показаны три характеристические кривые согласно уравнению (1) с трудностями заданий -2, 0 и +2 логита (первое самое легкое, второе - среднее, третье самое трудное). Из приведенных зависимостей видно, что чем выше уровень подготовленности и испытуемого, тем выше вероятность успеха в том или ином задании.

Рис.1. Характеристические кривые заданий (ICC) в модели (1PL).

Например, для испытуемого с и =0 вероятность правильно ответить на первое задание близка к единице, на второе равна 1/2 и на третье почти равна нулю. Отметим, что в точках, где и = в вероятность правильного ответа равна 0,5. То есть, если трудность задания равна уровню подготовленности (ability) испытуемого, то он с равной вероятностью может справиться или не справиться с этим заданием.

Характеристические (логистические) кривые для заданий теста в англо-язычной литература называются Item Characteristic Curve (ICC).

На рис.2. показаны три характеристические кривые испытуемых согласно уравнению (2) - «Person Characteristic Curve» (PCC). Показаны графики для трех испытуемых с уровнем подготовленности -2 логита (самый слабый), 0 логитов (средний) и +2 логита (сильный испытуемый).

Из приведенных зависимостей видно, что чем выше уровень подготовленности, тем выше вероятность правильного ответа на задание. Например, задание с трудностью b = 0 первый испытуемый ( q=-2) практически не сможет выполнить, второй q = 0) имеет вероятность выполнения задания равную 0,5, третий q=+2) легко справится с заданием, так как для него вероятность успеха почти равна единице.

Рис.2. Характеристические кривые испытуемых (PCC) в модели 1PL.

3. Обработка результатов теста

Последовательность ответов означает запись из порядковых номеров выбранных ответов (было возможно 4 ответа).

Правильная последовательность - 1 4 3 3 1 2 3 1 4 1

Таблица 1. Ответы опрашиваемых.

Номер испытуемого	Последовательность его ответов	Количество ошибок
1	1 4 3 3 4 3 3 3 4 1	3
2	1 4 3 4 1 4 3 3 4 1	3
3	1 4 3 3 2 2 2 3 3 1	4
4	1 4 3 3 3 4 3 3 3 1	4
5	1 4 3 3 1 2 3 1 4 1	0
6	1 4 1 3 2 1 3 3 1 1	5
7	1 4 3 3 2 2 3 3 4 1	2
8	1 4 3 3 4 2 3 3 4 1	2
9	1 4 3 4 1 2 3 1 4 1	1
10	1 4 3 3 2 4 3 3 4 1	3
11	1 4 3 3 2 2 3 3 3 1	3
12	1 3 3 3 4 1 3 3 4 1	4
13	1 4 3 4 2 4 3 3 4 1	4
14	1 4 3 3 1 2 3 3 4 1	1
15	1 4 3 3 3 1 3 3 1 1	3
16	1 4 2 3 3 2 3 3 4 1	4
17	1 4 3 3 1 2 3 1 4 1	0
18	1 4 3 4 2 2 3 3 4 1	3
19	1 4 3 3 1 2 3 1 4 1	0
20	1 4 3 3 4 1 3 1 4 1	2

Таблица 2. Вероятность правильного ответа на вопрос

Номер вопроса.	Вероятность правильного ответа на вопрос
1	1
2	1
3	0.9
4	0.8
5	0.3
6	0.55
7	1
8	0.25
9	0.75
10	1

Рекомендуется рассматривать лишь интервалы от -6 до +6 как для b (трудности), так и для q (способность). Значит мы не будем рассматривать 5,17,19-го опрашиваемого, давшего все правильные ответы, и вопросы 1, 10 на которые все испытуемые дали верный ответ.

Процедура вычисления и_i и в_j из эмпирических данных.

Вычисление доли верных p_i и неверных q_i_=1- p_i ответов испытуемых.

где X_i - индивидуальный балл испытуемого, M - количество заданий в тесте.

Далее вычисляем начальные значения уровня подготовленности испытуемых по формуле

Далее вычисляем начальное значение трудности заданий в_j.

Таблица 3. Начальные значения уровня подготовленности испытуемых

i	X_i	p_i	q_i	q_i⁰	(q_i⁰)²
1	5	0.625	0.375	0.511	0.261
2	5	0.625	0.375	0.511	0.261
3	4	0.5	0.5	0	0
4	4	0.5	0.5	0	0
5	10	1	0
6	3	0.375	0.625	-0.511	0.261
7	6	0.75	0.25	1.099	1.208
8	6	0.75	0.25	1.099	1.208
9	7	0.875	0.125	1.946	3.786
10	5	0.625	0.375	0.511	0.261
11	5	0.625	0.375	0.511	0.261
12	4	0.5	0.5	0	0
13	4	0.5	0.5	0	0
14	7	0.875	0.125	1.946	3.786
15	5	0.625	0.375	0.511	0.261
16	5	0.625	0.375	0.511	0.261
17	10	1	0
18	5	0.625	0.375	0.511	0.261
19	10	1	0
20	6	0.75	0.25	1.099	1.208
					13.284

Таблица 4. Начальные значения трудности заданий.

j	R_j	p_i	q_i	b_j⁰	(b_j⁰)²
1	17	1	0
2	16	0.941	0.059	-2.769	7.67
3	15	0.882	0.118	-2.011	4.046
4	13	0.765	0.235	-1.18	1.393
5	3	0.176	0.824	1.54	2.383
6	8	0.47	0.43	-0.089	0.008
7	16	0.941	0.059	-2.769	7.669
8	2	0.117	0.883	2.021	4.085
9	12	0.706	0.294	-0.876	0.767
10	17	1	0
					28.021

Теперь мы можем вычислить средние значения уровня подготовленности испытуемых и трудности заданий.

(0.511*7+0+0-0.511+1.099*3+1.946*2)/17=0.569

(-2.769-2.011-1.18+1.54-0.089-2.769+2.021-0.876)/8=-0.7666

В таблицах 3 и 4 мы имеем значения параметров на разных интервальных шкалах. Нам надо свести их в единую шкалу стандартных оценок. Для этого необходимо вычислить дисперсии S_и и S_в, используя данные из таблиц 3 и 4

(13.284-18*(0.569)^2)/16=0.439

(28.021-8*(-0.7666)^2)/7=3.331

Далее вычисляем угловые коэффициенты

1.615

1.182

мы можем записать оценки параметров и и в на единой интервальной шкале

Получим

и_i = 1,615·и_i⁰ -0.7666

в_j=1.182· в_j⁰ +0.569

Таблица 5. Расчетные параметры для уровня подготовленности испытуемых

i	иi	SE(иi)
1	0.059	1.179
2	0.059	1.179
3	-0.7666	1.154
4	-0.7666	1.154
5
6	-1.592	1.179
7	1.008	1.321
8	1.008	1.321
9	2.376	1.727
10	0.059	1.179
11	0.059	1.179
12	-0.7666	1.154
13	-0.7666	1.154
14	2.376	1.727
15	0.059	1.179
16	0.059	1.179
17
18	0.059	1.179
19
20	1.008	1.321
j	в_j	S_E(в_j)
1
2	-2.704	1.183
3	-1.808	0.863
4	-0.826	0.658
5	2.389	0.731
6	0.464	0.619
7	-2.704	1.183
8	-1.819	0.866
9	-0.466	0.611

Вычисление стандартных ошибок измерения S_E(и_i) и S_E(в_j) для и_i. и в_j

Таблица 6 Расчет вероятности успеха испытуемого с заданием с определенным уровнем сложности

в_j.Трудность задания	Значение вероятности успеха испытуемого с уровнем подготовленности (-5 до 5 с шагом 0.5 логита)
-2.704	p[1][1]=0.0197782 p[1][2]=0.0450795 p[1][3]=0.0994635 p[1][4]=0.205348 p[1][5]=0.376789 p[1][6]=0.585841 p[1][7]=0.767955 p[1][8]=0.885624 p[1][9]=0.947688 p[1][10]=0.976951 p[1][11]=0.990017 p[1][12]=0.995708 p[1][13]=0.998161 p[1][14]=0.999213 p[1][15]=0.999664 p[1][16]=0.999856 p[1][17]=0.999939 p[1][18]=0.999974 p[1][19]=0.999989 p[1][20]=0.999995 p[1][21]=0.999998
-1.808	p[2][1]=0.00437964 p[2][2]=0.010187 p[2][3]=0.0235132 p[2][4]=0.0533326 p[2][5]=0.116459 p[2][6]=0.2357 p[2][7]=0.419117 p[2][8]=0.627989 p[2][9]=0.797961 p[2][10]=0.902349 p[2][11]=0.955791 p[2][12]=0.980613 p[2][13]=0.991621 p[2][14]=0.996401 p[2][15]=0.998459 p[2][16]=0.999341 p[2][17]=0.999718 p[2][18]=0.999879 p[2][19]=0.999948 p[2][20]=0.999978 p[2][21]=0.999991
-0.826	p[3][1]=0.000827892 p[3][2]=0.00193483 p[3][3]=0.00451511 p[3][4]=0.0105003 p[3][5]=0.0242261 p[3][6]=0.0548988 p[3][7]=0.119645 p[3][8]=0.241257 p[3][9]=0.426585 p[3][10]=0.635109 p[3][11]=0.80285 p[3][12]=0.905012 p[3][13]=0.957066 p[3][14]=0.981187 p[3][15]=0.991871 p[3][16]=0.996509 p[3][17]=0.998505 p[3][18]=0.999361 p[3][19]=0.999727 p[3][20]=0.999883 p[3][21]=0.99995
2.389	p[4][1]=3.50506e-06 p[4][2]=8.20056e-06 p[4][3]=1.91862e-05 p[4][4]=4.48878e-05 p[4][5]=0.000105015 p[4][6]=0.000245664 p[4][7]=0.000574578 p[4][8]=0.00134328 p[4][9]=0.00313715 p[4][10]=0.00730909 p[4][11]=0.0169349 p[4][12]=0.0387427 p[4][13]=0.0861718 p[4][14]=0.180746 p[4][15]=0.340448 p[4][16]=0.547036 p[4][17]=0.738599 p[4][18]=0.868607 p[4][19]=0.939272 p[4][20]=0.973109 p[4][21]=0.988327
0.464	p[5][1]=9.24454e-05 p[5][2]=0.000216263 p[5][3]=0.000505832 p[5][4]=0.00118267 p[5][5]=0.00276265 p[5][6]=0.00643978 p[5][7]=0.0149379 p[5][8]=0.0342638 p[5][9]=0.0766471 p[5][10]=0.162628 p[5][11]=0.312426 p[5][12]=0.515295 p[5][13]=0.713246 p[5][14]=0.85336 p[5][15]=0.931579 p[5][16]=0.969563 p[5][17]=0.98676 p[5][18]=0.994298 p[5][19]=0.997555 p[5][20]=0.998953 p[5][21]=0.999552
-2.704	p[6][1]=0.0197782 p[6][2]=0.0450795 p[6][3]=0.0994635 p[6][4]=0.205348 p[6][5]=0.376789 p[6][6]=0.585841 p[6][7]=0.767955 p[6][8]=0.885624 p[6][9]=0.947688 p[6][10]=0.976951 p[6][11]=0.990017 p[6][12]=0.995708 p[6][13]=0.998161 p[6][14]=0.999213 p[6][15]=0.999664 p[6][16]=0.999856 p[6][17]=0.999939 p[6][18]=0.999974 p[6][19]=0.999989 p[6][20]=0.999995 p[6][21]=0.999998
-1.819	p[7][1]=0.00446194 p[7][2]=0.0103773 p[7][3]=0.0239464 p[7][4]=0.0542847 p[7][5]=0.118397 p[7][6]=0.239085 p[7][7]=0.423676 p[7][8]=0.632347 p[7][9]=0.800959 p[7][10]=0.903984 p[7][11]=0.956574 p[7][12]=0.980966 p[7][13]=0.991775 p[7][14]=0.996468 p[7][15]=0.998487 p[7][16]=0.999353 p[7][17]=0.999723 p[7][18]=0.999882 p[7][19]=0.999949 p[7][20]=0.999978 p[7][21]=0.999991
-0.466	p[8][1]=0.000449107 p[8][2]=0.00105012 p[8][3]=0.00245346 p[8][4]=0.00572142 p[8][5]=0.0132843 p[8][6]=0.0305371 p[8][7]=0.0686381 p[8][8]=0.147066 p[8][9]=0.28745 p[8][10]=0.485554 p[8][11]=0.688304 p[8][12]=0.837834 p[8][13]=0.923593 p[8][14]=0.965848 p[8][15]=0.985112 p[8][16]=0.993582 p[8][17]=0.997247 p[8][18]=0.998821 p[8][19]=0.999496 p[8][20]=0.999784 p[8][21]=0.999908

3.1 ПОСТРОЕНИЕ ХАРАКТЕРИСТИЧЕСКИХ КРИВЫХ ДЛЯ ЗАДАНИЙ ТЕСТА (ICC)

На рисунке получилось 6 а не 8 кривых т.к. 2 последних графика накладываются на 2 других. Это видно из 2 рисунков ниже.

Наложение P[1] и P[6]

Наложение P[2] и P[7]

3.2 ИНФОРМАЦИОННАЯ ФУНКЦИЯ

Согласно А.Бирнбауму количество информации, обеспеченное j-м заданием теста в данной точке и_i - это величина, обратно пропорциональная стандартной ошибке измерения данного значения и_i с помощью j-го задания. Для описания информации, соответствующей заданию вводится информационная функция I(и)

Для однопараметрической модели P_j' = 1,7P_jQ_j, тогда

I_j(и) = 2,89P_j(и)Q_j(и), где Q_j(и) = 1 - P_j(и)-вероятность неверного ответа на j-е задание. Поскольку

то выражение для информационной функции

Построим информационную функцию для однопараметрической модели

Информационные функции обладают свойством аддитивности

Это означает, что можно построить информационную функцию всего теста

Информационная функция теста должна иметь один четко выраженный максимум. Если это не так, то тест нуждается в доработке, в него необходимо добавить задания с трудностями, соответствующими областями провала информационной функции теста.

Вывод

Характеристические кривые некоторых заданий, а именно 2 и 7; 3 и 8 перекрываются. В связи с этим 7 и 8 задания могут быть удалены из теста без ущерба его измерительным свойствам.

Этот тест явно нуждается еще в заданиях с трудностями в области +1.5 логит. Улучшения информационной функции теста можно добиться и не изменяя числа заданий в нем. Для этого необходимо сдвинуть задание №5 влево, то есть уменьшить его трудность.

СПИСОК ИСПОЛЬЗУЕМОЙ ЛИТЕРАТУРЫ

1). Ким В.С. «Тестирование учебных достижений. 2007»

2) Дружинин Ю.Г. «Метрики качества знаний»

3). Иформационные ресурсы Internet.

http://testolog.narod.ru/Theory60.html

http://www.wikiznanie.ru/ru- wz/index.php/Использование_Теории_тестовых_заданий_(Item_Response_Theory)_в_адаптивном_тестировании

http://www.ahmerov.com/book_757_chapter_39_6.5._Stokhasticheskaja_teorija_testov_(IRT).html

Размещено на Allbest.ru

курсовая работа "Оценка качества теста" скачать

Подобные документы

Тест итогового контроля по дисциплине "Педагогические технологии"
Качественные экспертно-ориентированные методы оценки знаний и умений учащихся. Цель и основные задачи тестирования. Основные виды тестовых заданий. Функции теста и основные этапы его разработки. Сквозное применение педагогами метода тестирования.

курсовая работа [46,2 K], добавлен 27.12.2011
Особенности статистической оценки качества теста диагностики индивидуального прогресса учащихся общеобразовательной школы
Изучение базовых понятий и методов статистики, которые применяются для статистической обработки тестов. Содержание педагогического теста. Обсуждение статистического анализа, направленного на определение качества заданий, индивидуального прогресса.

дипломная работа [195,1 K], добавлен 04.05.2011
Тестовые формы контроля в системе начального общего образования как средство мониторинга знаний обучающихся
Использование в школе контрольно-диагностических систем тестирования. Методика разработки стандартизированного теста, критерии его качества. Педагогическая диагностика знаний учащихся по русскому языку. Проверка возможностей тестового контроля на уроке.

курсовая работа [1,2 M], добавлен 13.10.2017
Организация контрольно-оценочной деятельности на уроках информатики
Формы, методы, виды и функции контроля знаний и умений учащихся. Критерии оценки знаний по информатики. Модульно-блочная система обучения как средство формирования творческого мышления детей. Создание компьютерного теста в программе MS PowerPoin.

дипломная работа [938,0 K], добавлен 07.07.2015
Основные параметры качества знаний по химии
Качество знаний, его главные параметры. Функции и виды контроля знаний в педагогическом процессе. Экспериментальная проверка знаний и умений учащихся. Контроль знаний учащихся как элемент оценки качества знаний. Уровни контроля и проверки знаний по химии.

курсовая работа [33,0 K], добавлен 04.01.2010
Педагогический контроль и оценка качества образования
Понятие качества образования. Содержание, формы, методы и виды контроля качества образования (текущего, рубежного, итогового). Различия между оценкой, отметкой и баллом. Причины необъективности педагогической оценки. Виды тестового контроля знаний.

курсовая работа [53,6 K], добавлен 13.01.2011
Рейтинговая система оценки знаний и умений школьников (на примере химии)
Контроль знаний обучающихся как основной элемент оценки качества образования. Характеристика рейтинговой системы оценки знаний учащихся. Разновидности оценочных шкал, принципы построения рейтинговой системы оценки знаний при изучении органической химии.

реферат [21,9 K], добавлен 13.11.2011
Сущность мониторинга качества образования и его влияние на результаты учебно-воспитательного процесса
Проблема мониторинга в педагогической теории и практике, его основные функции и принципы. Мониторинг качества образования и единый государственный экзамен. Содержание понятия качества образования и его мониторинга. Критерии оценки качества образования.

диссертация [178,4 K], добавлен 19.01.2012
Проблема тестирования в обучении иностранному языку
Анализ тестирования как формы контроля уровня сформированности навыков и умений учащихся. Изучение особенностей процесса разработки теста по иностранному языку в средней школе. Обзор методики проведения тестирования в седьмом классе по теме "Sport".

курсовая работа [63,4 K], добавлен 03.02.2012
Система оценки качества образования
Подходы к системе оценивания качества образования. Оценка результатов освоения основной образовательной программы начального общего образования. Рекомендации по организации внутреннего мониторинга качества образования в образовательном учреждении.

дипломная работа [395,5 K], добавлен 05.12.2014

Другие документы, подобные "Оценка качества теста"

весь список подобных работ

скачать работу можно здесь

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.