Структура контрольно-измерительных материалов экзаменов (тестов) с высокими ставками

Тестирование как способ оценки знаний обучающихся. Контрольно-измерительные инструменты для экзаменов с высокими ставками: преимущества и недостатки разных заданий. Мировая практика экзаменов с высокими ставками. Анализ исходного и симулированных тестов.

Рубрика Педагогика
Вид дипломная работа
Язык русский
Дата добавления 02.12.2017
Размер файла 440,2 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Так как из ЕГЭ постепенно выводятся задания с выбором одного правильного ответа, и в тесте по биологии в 2017 году в структуре теста их уже нет, в рамках первой симуляции мы исключили все задания части А и вместо них добавляли задания части В, так, чтобы на решение всех заданий затрачивалось то же время, что и в исходном тесте - 180 минут.

В рамках второй симуляции были, наоборот, исключены все задания части В, а вместо них добавлены задания части А, так, чтобы на решение всех заданий затрачивалось то же время, что и в исходном тесте - 180 минут.

В третьей и четвертой симуляциях структура теста была смоделирована на подобии структуры 2015-2016 годов. Для этого были удалены 10 заданий части А в обеих симуляциях, в третью часть добавлены два задания части В и в четвертую симуляцию добавлено одно задание части С.

Симуляции проводились в программе WinGen. В оригинальный тест добавлялись виртуальные задания примерно средней трудности для заданий каждого типа. Таким образом, виртуальные задания части А имеют примерно среднюю трудность заданий части А оригинального теста, задания части В - примерно среднюю трудность заданий части В оригинального теста и так далее.

Для моделирования дихотомических заданий была использована модель 1PL, а для политомических - PCM.

После проведения всех симуляций данные по ним мы проанализировали с помощью программы Winsteps и сравнили между собой.

2.2 Анализ исходного и симулированных тестов

Ниже будет приведены результаты анализа исходного теста в программе Winsteps до внесения изменений в его структуру - смоделированных заданий части А и заданий части В.

В таблицах ниже представлены статистические данные по испытуемым (Таблица 4) и по всем тестовым заданиям (Таблица 5). Значения оценок уровней подготовленности испытуемых и трудности заданий представлены на единой шкале логитов.

Статистики согласия MNSQ и их стандартизованные версии ZSTD характеризуют согласие данных тестирования с используемой моделью измерения.

Таблица 4

Статистические данные по испытуемым

Первичный балл

Уровень подготовленности

Ошибка измерения

Статистики согласия

INFIT

OUTFIT

MNSQ

ZSTD

MNSQ

ZSTD

Ср. значение

33.3

0.30

0.28

1.03

0.1

1.02

0.0

Ср. кв. отклонение

12.1

0.92

0.04

0.24

1.1

0.35

1.1

Макс. значение

64.0

3.72

0.72

2.11

4.2

7.35

6.6

Мин. значение

6.0

-2.31

0.26

0.48

-2.8

0.37

-3.0

Из таблицы выше мы видим, что нет испытуемых, которые бы получили минимальный балл 0 и максимальный балл 69. Среднее значение уровня подготовленности испытуемых равно 0.30, т.е. выборка смещена вверх относительно среднего значения трудности заданий на 0.30 логита, т.е. тест в среднем оказался не очень сложным для испытуемых.

Размах уровня подготовленности испытуемых находится в диапазоне от -2.31 до 3.72. Как видно из таблицы ниже, размах оценок среди заданий по уровню трудности находится в диапазоне от -1.59 до 1.65. Это означает, что не хватает заданий как для испытуемых с высоким уровнем подготовленности, так и для слабых испытуемых. Это может быть одной из причин того, что ошибка измерения по испытуемым равна 0,28 - это довольно высокое значение.

Средние значения статистик согласия с моделью по испытуемым находятся в границах своих доверительных интервалов: MNSQ [0,8-1,2], ZSTD [-2, 2]. Однако максимальные и минимальные значения обеих статистик согласия выходят за эти границы. Это свидетельствует о выбросах, т.е. профили ответов некоторых испытуемых значимо отличаются от ожидаемого моделью.

Таблица 5

Статистические данные по тестовым заданиям

Первичный балл

Трудность заданий

Ошибка измерения

Статистики согласия

INFIT

OUTFIT

MNSQ

ZSTD

MNSQ

ZSTD

Ср. значение

1019.2

0.00

0.05

1.00

-0.1

1.02

-0.2

Ср. кв. отклонение

335.9

0.84

0.01

0.14

4.1

0.32

4.1

Макс. значение

1981.0

1.65

0.07

1.79

9.9

2.99

9.9

Мин. значение

401.0

-1.59

0.03

0.84

-7.1

0.68

-6.5

Средняя трудность заданий центрирована в нуле, что мы и видим в таблице выше. Ошибка измерения маленькая, что объясняется достаточно большой выборкой испытуемых.

Средние значения всех статистик не выходят за пределы критических значений (MNSQ [0,8-1,2], ZSTD [-2, 2]), что говорит о том, что в среднем задания хорошо согласуются с моделью. Но максимальные и минимальные значения всех статистик согласия, кроме minMNSQ, отклоняются от критических значений. Это говорит о том, что имеются задания, которые не согласуются с моделью.

Далее на рисунке 1 представлена карта переменных, на левой стороне которой расположена шкала уровня подготовленности испытуемых в логитах от -3 до 4 и распределение испытуемых по их уровню подготовленности, а на правой - шкала уровня трудности заданий в том же диапазоне и их распределение по трудности.

Рисунок 1. Карта переменных

Одна решётка равна 18-ти испытуемым, одна точка - от 1 до 7 испытуемых.

Чем выше на шкале находится задание, тем оно сложнее. Также и с испытуемыми - чем они выше на шкале, тем выше уровень их подготовленности.

На карте переменных видно, что распределение мер испытуемых близко к нормальному и смещено немного вверх относительно заданий. Из этого следует, что тест оказался не очень сложным для данной выборки испытуемых. Очевидно не хватает заданий с высоким уровнем трудности для сильных испытуемых.

Следующим этапом анализа теста была проверка размерности теста.

В ходе исследования размерности было показано, что тест является существенно одномерным.

Статистики каждого задания по отдельности по порядку расположения в тесте, а именно трудность, ошибка измерения, дискриминативность заданий и статистики согласия заданий с моделью показаны в таблице в Приложении 1. В этой таблице жёлтым цветом в столбце «дискриминативность» отмечены значения ниже 0.2, то есть те, которые ниже минимально допустимого. В столбцах со статистиками согласия голубым цветом выделены значения, которые выше максимально допустимого значения - эти задания не согласуются с моделью, а малиновым те задания, которые ниже минимального допустимого значения - эти задания, наоборот, имеют сверхсогласие с моделью.

В первую очередь мы смотрим на те задания, у которых статистика INFITMNSQ выходит за пределы [0,8; 1,2]. Таких заданий всего два. У этих же заданий все остальные статистики выходят за пределы допустимых значений. Уровень дискриминативности у этих заданий ниже 0.2, то есть они имеют низкую корреляцию с уровнем подготовленности испытуемых - плохо различают слабых и сильных испытуемых. Эти два задания являются самыми проблемными из всех.

Исходный тест по всем показателям является достаточно качественным, большинство заданий имеет хорошие психометрические свойства. Однако тест оказался немного легче, чем требуется для данной выборки. Не хватает заданий для сильных испытуемых.

Далее рассмотрим результаты по симулированным тестам.

Первым этапом симуляции было удаление из первоначального КИМ всех заданий Части А, то есть заданий с выбором одного правильного ответа, и добавление такого количества заданий Части В, которое в среднем можно успеть сделать за отведённое время на выполнение Части А.

Так как в Части А 37 заданий, на выполнение которых отводилось примерно 48 минут (по спецификации теста), а на выполнение задания Части В отводится в среднем 5 минут, то, следовательно, за 48 минут можно успеть сделать максимум 10 заданий Части В.

Таким образом, в тест было добавлено10 заданий с кратким ответом приблизительно той же трудности, что уже были в Части В. Результаты симуляции представлены ниже в Таблицах 6 и 7.

В таблице 6 представлены статистики по испытуемым.

Таблица 6

Статистики по испытуемым

Первичный балл

Уровень подготовленности

Ошибка измерения

Статистики согласия

INFIT

OUTFIT

MNSQ

ZSTD

MNSQ

ZSTD

Ср. значение

20.4

-0.30

0.34

1.02

0.0

1.06

0.10

Ср. кв. отклонение

9.1

0.97

0.06

0.33

1.0

0.60

1.0

Макс. значение

47.0

3.40

0.76

2.79

3.7

9.05

4.8

Мин. значение

2.0

-3.55

0.29

0.28

-3.0

0.28

-2.5

Мы видим, что средний уровень подготовленности испытуемых понизился с 0.30 до -0.30, симулированный тест оказался сложнее для испытуемых, выборка смещена вниз относительно среднего значения трудности заданий (таблица 6).

Размах уровня подготовленности испытуемых находится в диапазоне от -3.55 до 3.40. Размах оценок среди заданий по уровню трудности находится в диапазоне от -1.66 до 1.42. Это означает, что всё еще не хватает заданий как для испытуемых с высоким уровнем подготовленности, так и для слабых испытуемых. Ошибка измерения по испытуемым увеличилась до значения 0,34 (ранее она составляла 0,28).

Средние значения статистик согласия с моделью по испытуемым находятся в границах своих доверительных интервалов: MNSQ [0,8 - 1,2], ZSTD [-2, 2]. Однако максимальные и минимальные значения обеих статистик согласия выходят за эти границы. Это свидетельствует о выбросах, т.е. профили ответов некоторых испытуемых значимо отличаются от ожидаемого моделью

В Таблице 7 представлены статистики по заданиям симулированного теста.

Таблица 7

Статистики по заданиям теста

Первичный балл

Трудность

Ошибка измерения

Статистики согласия

INFIT

OUTFIT

MNSQ

ZSTD

MNSQ

ZSTD

Ср. значение

1358.7

0.00

0.04

1.00

-0.3

1.06

-0.1

Ср. кв. отклонение

504.8

0.87

0.01

0.16

2.8

0.39

2.9

Макс. значение

2255.0

1.42

0.06

1.72

9.9

2.80

9.9

Мин. значение

516.0

-1.66

0.03

0.86

-4.1

0.79

-4.4

Средние значения всех статистик не выходят за пределы критических значений (MNSQ [0,8-1,2], ZSTD [-2, 2]), что говорит о том, что в среднем задания хорошо согласуются с моделью. Но максимальные и минимальные значения всех статистик согласия, кроме min MNSQ, отклоняются от критических значений. Это говорит о том, что имеются задания, которые не согласуется с моделью.

На Рисунке 2 изображена карта переменных по симулированному тесту.

Рисунок 2. Карта переменных

Исследование размерности показало, что тест одномерен, так как собственное значение первого контраста не превышает двух.

Вторым этапом симуляции было полное исключение из первоначального теста заданий Части В, и добавление вместо них заданий Части А, с выбором одного правильного ответа. Было добавлено такое количество заданий с выбором одного правильного ответа, которое можно успеть сделать за отведенное время на выполнение заданий Части В. В тест входит 7 заданий Части В. На решение одного задания выделялось около 5 минут. За 35 минут можно сделать 35 заданий с выбором одного правильного ответа. Такое количество заданий и было добавлено вместо исключённых заданий Части В. Результаты симуляции представлены ниже в Таблицах 8 и 9.

В таблице 8 представлены статистики по заданиям симулированного теста.

Таблица 8

Статистики по тестовым заданиям

Первичный балл

Трудность заданий

Ошибка измерения

Статистики согласия

INFIT

OUTFIT

MNSQ

ZSTD

MNSQ

ZSTD

Ср. значение

855.9

0.00

0.06

1.00

0.1

1.00

0.0

Ср. кв. отклонение

227.7

0.73

0.01

0.07

3.0

0.12

3.0

Макс. значение

1611.0

1.56

0.07

1.24

9.9

1.37

9.8

Мин. значение

401.0

-1.75

0.03

0.85

-6.6

0.69

-5.7

Размах оценок среди заданий по уровню трудности увеличивается и находится в диапазоне от -1.66 до 1.42. Размах уровня подготовленности испытуемых (таблица 9) находится в диапазоне от -3.17 до 4.0, увеличилось число «сильных» испытуемых и снизилось число «слабых».

Таблица 9

Статистики по испытуемым

Первичный балл

Уровень подготовленности

Ошибка измерения

Статистики согласия

INFIT

OUTFIT

MNSQ

ZSTD

MNSQ

ZSTD

Ср. значение

43.6

0.17

0.25

1.00

0.0

1.00

0.0

Ср. кв. отклонение

16.6

0.98

0.04

0.15

1.0

0.16

1.0

Макс. значение

86.0

4.68

1.01

1.84

5.2

2.94

4.1

Мин. значение

4.0

-3.17

0.22

0.64

-2.1

0.54

-2.6

Рассмотрим карту переменных по симулированному тесту на Рисунке 3.

Исследование размерности показало, что тест одномерен.

В презентации «Контрольные измерительные материалы государственной итоговой аттестации. Особенности и пути развития» Решетникова О.А. приводит данные да 2014-2015 гг. (именно в 2015 году структура теста меняется, и он начинает делиться на две части), что «исключение/сокращение числа заданий с выбором одного правильного ответа не снизило показатели надежности измерения».

Рисунок 3. Карта переменных

Мы решили проверить это для наших данных и сделали еще две симуляции: в первой мы исключили 10 заданий с выбором одного правильного ответа и вместо них добавили два задания с кратким ответом. Во второй симуляции мы также исключили 10 заданий из части А, а вместо них добавили уже одно задание части С. Результаты также приведены в Таблице 14 выше. В обоих случаях структура теста почти совпадает со структурой 2015 года. Как мы видим надежность в обоих случаях одна из самых низких. Также она немного ниже надежности оригинального теста, что не совпадает с данными из презентации.

Далее после проведения симуляций теста с моделированием разных типов заданий и структуры теста, сравним показатели всех вариантов теста (исходного и четырёх симуляций) между собой (таблица 10).

Таблица 10

Сравнение показателей оригинального теста и симулированных

Тест

Надёжность

Separation (real)

Ср. тета (+ max и min)

Ошибка измерения (+ max и min)

КТТ

IRT

Оригинальный тест (А+В+С)

0,90

0,91

2,91

0,30

0,28

3,72

-2,31

0,72

0,26

Первая симуляция В+С+В

0,87

0,88

2,45

-0,30

0,34

3,40

-3,55

0,76

0,29

Вторая симуляция A+C+A

0,93

0,93

3,65

0,17

0,25

3,98

-3,17

0,72

0,22

Третья симуляция -10А+2В

0,89

0,89

2,80

0,14

0,30

3,68

-2,67

0,73

0,27

Четвертая симуляция -10А+1С

0,89

0,89

2,77

0,16

0,30

3,65

-2,63

0,73

0,27

Самый высокий показатель надёжности наблюдается во второй симуляции, когда структура теста состоит из 70-ти заданий с выбором одного правильного ответа и 6-ти заданий с развернутым ответом, также в этом случае измерение проводится с самой маленькой ошибкой. Такие показатели связаны с длиной теста, которая в сумме составляет 76 заданий. Однако такая структура не является оптимальной ввиду уже знакомых нам ограничений заданий с выбором одного правильного ответа.

Самая низкая надежность измерения и самая большая ошибка измерения наблюдается в случае симуляции такой структуры, в которую входит 17 заданий части В и 6 заданий части С.

В таблице 11 представлены сравнения средних значений ошибок измерения методом t-test исходного теста и первой симуляции (pair 1), исходного теста и второй симуляции (pair 2), сходного теста и третьей симуляции (pair 3) и исходного теста и четвертой симуляции (pair 4). Мы видим, что во всех случаях при наличии заданий с выбором одного правильного ответа (в паре 2 при наличии увеличенного числа заданий Части А) ошибка измерения значимо меньше.

Таблица 11

Парный анализ средних значений ошибок измерения

Paired Differences

t

df

Sig. (2-tailed)

Mean

S.D.

S.E. Mean

95% Conf. Int. of the Difference

Pair 1

-0.06

0.05

0.001

-0.06

-0.06

-50.29

1530

0.000

Pair 2

0.03

0.02

0.001

0.03

0.03

63.24

1530

0.000

Pair 3

-0.02

0.02

0.000

-0.02

0.01

-41.35

1530

0.000

Pair 4

-0.02

0.02

0.000

-0.02

0.02

-45.26

1530

0.000

Для сравнения приведём количество испытуемых, несогласующихся с моделью, в трёх рассмотренных выше ситуациях: в оригинальном тесте и первых двух симуляциях. Данные приведены в таблице 12. Мы видим, что самый низкий процент несогласующихся с моделью испытуемых в случае добавления заданий с выбором одного правильного ответа взамен заданий с кратким ответом, то есть, количество испытуемых с неожиданными ответами гораздо меньше. Самый высокий процент несогласованности испытуемых с моделью наблюдается при исключении Части А и добавлении дополнительных заданий Части В.

Таблица 12

Процент испытуемых, несогласующихся с моделью

>1,2

>=1,5

MsqInfit

Msq Outfit

MsqInfit

Msq Outfit

Исходный тест

20.38%

17.11%

4.57%

5.16%

Первая симуляция (+В)

24.69%

24.82%

8.36%

10.52%

Вторая симуляция (+А)

8.82%

7.12%

1.18%

0.78%

Третья симуляция (-А+В)

23.58%

18.80%

5.55%

6.14%

Четвертая симуляция (-А+С)

21.62%

18.55%

5.55%

6.34%

Эффективность теста обратно пропорциональна ошибке измерения, и перед разработчиком теста стоит задача заложить в тест такие задания, чтобы ошибка измерения испытуемых была наименьшей. Одним из методов подбора наиболее подходящих заданий служит использование информационных функций заданий. Информационная функция задания - это обратное значение стандартной ошибки измерения испытуемых с помощью конкретного задания. Данная функция показывает количество информации, которую вносит задание в тест. Информационная функция теста представляет собой сумму информационных функций заданий всего теста.

Использование информационных функций имеет ряд преимуществ, как при составлении теста, так и для сравнения эффективности различных тестов для измерения уровней подготовленности испытуемых между собой.

Оценивать соответствие трудности теста уровню подготовленности испытуемых с помощью показателя количества информации, получаемой в результате тестирования, первым предложил A. Birnbaum в 1968 г. [9], но пока только для дихотомических заданий. В 1969 г. F. Samejima [33] расширил понятие информации на случай политомических заданий.

В структуру нашего теста входят дихотомические и политомические задания. Политомические задания представлены двух видов: двухшаговые задания с тремя ответными категориями и с максимальным баллом 2; трехшаговые задания с четырьмя ответными категориями и с максимальным баллом 3.

На рисунках 4-8 изображены информационные функции исходного теста и четырех симулированных.

Рисунок 4. Информационная функция исходного теста

На графиках мы можем найти показатель количества информации для каждой теты (уровня подготовленности) - I(и).

Показатель количества информации (I(и)) в исходном тесте равен 15.

Рисунок 5. Информационная функция первого симулированного теста (В+С+В)

Показатель количества информации (I(и)) равен 12.

Рисунок 6. Информационная функция второго симулированного теста (А+С+А)

Показатель количества информации (I(и)) равен 20.

Рисунок 7. Информационная функция третьего симулированного теста (-10А+2В)

Показатель количества информации (I(и)) равен 14.

Рисунок 8. Информационная функция четвертого симулированного теста (-10А+1С)

Показатель количества информации (I(и)) равен 14.

В таблице 13 для наглядности приведены показатели количества информации всех рассматриваемых тестов.

Таблица 13

Показатели количества информации

Тест

I(и)

Исходный

15

Первая симуляция (В+С+В)

12

Вторая симуляция (А+С+А)

20

Третья симуляция (-10А+2В)

14

Четвертая симуляция (-10В+1С)

14

Наибольший показатель количества информации наблюдается в случае добавления заданий части А с одновременным исключением заданий части В. Однако более оптимальным является соотношение различных типов заданий, как в исходном тесте, так как при довольно высоком показателе количества информации, каждый тип задания вносит свои преимущества измерения испытуемых. В случае исключения из теста десяти заданий части А и добавлении вместо них двух заданий части В или одного задания части А количество информации, полученной в результате измерения, немного меньше. Самый низкий показатель количества информации наблюдается при полном удалении заданий части А и добавлении вместо них заданий части В.

Очевидно, что тест, дающий наибольшее количество информации при измерении определенной выборки испытуемых на том или ином промежутке уровня подготовленности, более эффективен. Сравнительная эффективность двух тестов характеризуется отношением их информационных функций:

,

где RE(и) обозначает сравнительную эффективность тестов A и B, IA(и) и IВ(и) - информационные функции этих тестов.

Возьмем средний уровень подготовленности испытуемых для каждого теста и посмотрим на соответствующем графике показатель количества информации в этой точке. Соотнесем поочередно количество информации исходного теста с количеством информации в каждой симуляции.

В исходном тесте средний уровень подготовленности (тета) равен 0,3. Далее, для наглядности, в таблице 15 приведены средние теты по всем симуляциям.

Таблица 15

Средняя тета тестов и соответствующие им показатели количества информации

Тест

Средняя Тета

I(и)

Исходный

0,3

15

Первая симуляция

-0,3

10

Вторая симуляция

0,17

20

Третья симуляция

0,14

13

Четвертая симуляция

0,16

12

Для первой симуляции средняя тета равна -0.3, I(и) для этого теста в этой точке примерно равно 10. Тогда:

- сравнительная эффективность исходного теста по отношению к первой симуляции равна RE(и) = 15/10 = 1,5;

- сравнительная эффективность исходного теста по отношению ко второй симуляции равна RE(и) = 15/20 = 0,75;

- сравнительная эффективность исходного теста по отношению к третьей симуляции равна RE(и) = 15/13 = 1,15;

- сравнительная эффективность исходного теста по отношению к четвертой симуляции равна RE(и) = 15/12 = 1,25.

Таким образом, для испытуемых среднего уровня подготовки по отношению к каждому симулированному тесту, кроме второй симуляции, исходный тест гораздо эффективнее.

2.3 Обсуждение

Из представленных выше данных можно сделать вывод, что сочетание в рамках одного теста заданий различных форм и типов повышает надежность измерения и понижает ошибку измерения испытуемых - тест становится более информативным и сбалансированным с точки зрения оптимального соотношения длины теста и времени его выполнения. Каждый тип заданий вносит свой положительный вклад, сглаживая недостатки друг друга. Например, «для возможной борьбы с угадыванием возможно использование в концовке теста достаточно трудных заданий открытого типа» [5]. Это, конечно, поможет отличить слабого и сильного испытуемого, но если говорить о сравнении испытуемых с одинаковым уровнем подготовленности, случайно угаданный ответ одним из них повышает его итоговый балл и общий рейтинг, например, при отборе в вуз. С этой точки зрения возможность угадывания является большим недостатком, который можно свести к минимуму качественным составлением дистракторов и, следовательно, невозможностью выбора испытуемым стратегии угадывания верного ответа путём отбрасывания неправдоподобных дистракторов, что все равно полностью не сведет возможность угадать правильный ответ к нулю. Показатели надёжности и ошибки измерения, статистики согласия с моделью говорят нам о том, что использование заданий с выбором одного правильного ответа оправдывает себя.

Заключение

Любая оценка полученных знаний должна соответствовать некоторым параметрам качества, таким как валидность, надёжность, информативность, объективность и другим. В особой мере это относится к тестированию с высокими ставками, потому что от его результатов могут зависеть принимаемые касаемо кандидатуры испытуемого решения, которые прямым образом повлияют на его жизнь. Примером экзамена с высокими ставками можно считать ЕГЭ, на примере которого проводились исследования в рамках данной работы.

Тестирование может включать в себя задания различных типов, каждый из которых имеет свои преимущества и недостатки. Важным является правильный выбор формы и типа заданий, которые будут включены в тест. Этот выбор, зависит от области и уровня проверяемых знаний.

Необходимым является также оптимальное сочетание разных типов заданий для всесторонней и максимально надежной и информативной оценки с минимальной ошибкой измерения подготовленности испытуемых.

Так как сейчас происходит активное исключение заданий с выбором одного правильного ответа из КИМов ЕГЭ по всем предметам, без конкретных обоснований, эмпирических данных, на основе которых можно было бы сделать выводы об обоснованности этих действий, мы решили на реальных данных теста аналогичного КИМ ЕГЭ, где в структуру входят задания частей А, В и С, посмотреть, как функционирует тест, какие имеет статистики, показатели надежности и так далее. Вместе с этим мы провели симуляции на основе исходного теста, в ходе которых добавляли и исключали задания разных типов: с выбором одного правильного ответа, с кратким ответом, с развернутым ответом - то есть задания ранее входившие в части А, В и С экзамена по биологии. Далее мы провели сравнения показателей исходного теста и симуляций.

Результатом комбинирования смоделированных заданий разных типов (и форм) стало подтверждение гипотезы, что «комбинация заданий различных форм способна обеспечить оптимальную структуру экзаменов с высокими ставками», которая будет обеспечивать высокую надежность измерения, приемлемое соотношение длины теста, времени его выполнения и объема проверяемых областей знания. Сравнение показателей количества информации, которую даёт тест в результате измерений испытуемых также показало, что более эффективным является тест, в котором сочетаются различные типы заданий, как, например, в исходном тесте.

Вопрос об использовании заданий с выбором одного правильного ответа всегда будет оставаться дискуссионным. Всегда будет те, кто считает, что задания с выбором одного правильного ответа - это «вынужденное зло», также как будут и те, кто считает наоборот, что эти задания заслуживают того, чтобы быть инструментом оценки полученных знаний. Во многих странах задания с выбором одного правильного ответа активно используются в тестировании, в том числе и с высокими ставками, но есть и страны, где заданий закрытого типа в структуре, например, выпускного/вступительного экзамена в вузы вообще нет.

Однако стоит учитывать те преимущества, которые имеют задания с выбором одного правильного ответа, и не исключать возможность их использования в тестировании.

Список литературы

1. Аванесов B.C. Композиция тестовых заданий. Учебная книга. 3 изд.. доп. М.: Центр тестирования, 2002г. -240 с.

2. Болотов В.А. Типология и характеристика программ оценки учебных достижений школьников. (2013). Проблемы современного образования, 1, с. 35-53.

3. Калинова Г.С. Совершенствование экзаменационной модели ЕГЭ по биологии. (2016). Педагогические измерения. 1, с. 66-74

4. Карданова Е.Ю. Контроль и оценка результатов обучения. (2016). Управление начальной школой. 1, с. 18-26

5. Майоров А.Н. Теория и практика создания тестов для системы образования. (Как выбирать, создавать и использовать тесты для целей образования). - М., «Интеллект-центр», 2001. - 296 с.

6. Решетникова О.А. Принципы организации процедур оценки качества образования (2012). Управление образованием: теория и практика, 4 (8), с. 78-85.

7. Aiken, L.R. (1982). Writing multiple-choice items to measure higher-order educational objectives. Educational and Psychological Measurement, 42. 803-806.

8. Bennett, R.E., Rock, D.A.,&Want, M., (1991). Equivalence of free-response & multiple-choice items. Journal of Educationsl Measurement, 28, 77-92.

9. Birnbaum A. Some Latent Trait Models and Their Use in Inferring an Examinee's Ability / In: F.M. Lord and M.R. Novick. Statistical Theories of Mental Test Scores. Reading, Mass: Addison - Wesly, 1968. - 568p.

10. Brent Bridgeman and Charles Lewis. The Relationship of Essay and Multiple-Choice Scores with Grades in College Courses. (1994).

11. Bridgeman, B., & Rock, D. (1993). Relationship among multiple-choice and open-ended analytical questions. Journal of Educational Measurement, 30(4), 313-329.

12. Case & Swanson, 2001; Jacobs, Lucy C. «How to write better tests. A Handbook for Improving Test Construction Skills» 2004.

13. David Thissen, Howard Wainer and Xiang-Bo Wang. Are Tests Comprising Both Multiple-Choice and Free-Response Items Necessarily Less Unidimensional than Multiple-Choice Tests? An Analysis of Two Tests. (1994)

14. Downing, 2002 - Downing, S.M., 2002.Assessment of knowledge with written test forms. In: Norman, G.R., Van der Vleuten, C., Newble, D.I. (Eds.), International Handbook of Research in Medical Education. Kluwer Academic Publishers, Dordrecht, pp. 647-672.

15. Elizabeth Ligon Bjork, Nicholas C. Soderstrom and Jeri L. Little. Can Multiple-Choice Testing Induce Desirable Difficulties? Evidence from the Laboratory and the Classroom. - The American Journal of Psychology, Vol. 128, No. 2 (Summer 2015), pp. 229-239

16. Farley, J.K., 1989. The multiple-choice test: developing the test blueprint. NurseEducator 14 (5), 3-5.

17. Frank Pajares and M. David Miller, 1997. The Journal of Experimental Education, Vol. 65, No. 3 (Spring, 1997), pp. 213-228

18. Gilbert Sax and LeVerne S. Collet. An Empirical Comparison of the Effects of Recall and Multiple-Choice Tests on Student Achievement. (1968).

19. Gregory R. Hancock, 1994. Cognitive Complexity and the Comparability of Multiple-Choice and Constructed-ResponseTest Formats. The Journal of Experimental Education, Vol. 62, No. 2 (Winter, 1994), pp. 143-157

20. Haladyna, T.M. (1994). Developing and validating multiple-choice items. Hillsdale, NJ: Lawrence Erlbaum Associates, Inc.

21. Haladyna, T.M. (1997). Writing test item to evaluate higher order thinking. Boston: Allyn&Bacon.

22. Haladyna, T.M.,&Downing, S.M. (1989). A taxonomy of multiple-choice item writing rules. Applied Measurement in Education, 2(1), 37-50.

23. Heim, A.W.,&Watts, K.P. (1967). An experiment on multiple-choice versus open-ended answering in a vocabulary test. British Journal of Educational Psychology, 37 339-346.

24. Howard Wainer&David Thissen (1993) Combining Multiple-Choice and Constructed-Response Test Scores: Toward a Marxist Theory of Test Construction, Applied Measurement in Education, 6:2, 103-118, DOI: 10.1207/s15324818ame0602_1

25. Margit Kastnera, Barbara Stangla (2005). Multiple Choice and Constructed Response Tests: Do Test Forma and Scoring Matter? Institute for Tourism and Leisure Studies,Vienna University of Economics and Business, A-1090 Vienna, Austria.

26. McCoubrie, 2004 - McCoubrie, P., 2004. Improving the fairness of multiple-choice questions: a literature review. Medical Teacher 26 (8), 709-712.

27. Michael C. Rodriguez, 2005 - Three Options Are Optimal for Multiple-Choice Items: A Meta-Analysis of 80 Years of Research.

28. Nixon Chan and Peter E. Kennedyt, (2002). Are Multiple-Choice Exams Easier for Economics Students? A Comparison of Multiple-Choice and "Equivalent" Constructed-Response Exam Questions. Southern Economic Journal, 68(4), 957-971.

29. Pamplett and Farnhill, 1995 - Pamplett, R., Farnhill, D., 1995. Effect of anxiety on performance in multiple-choice examinations. Medical Education 29, 298-302.

30. Randy Elliot Bennett, Donald A. Rock and Minhwei Wang. Equivalence of Free-Response and Multiple-Choice Items (1991).

31. Robert B. Frary. Multiple-Choice versus Free-Response: A Simulation Study. (1985).

32. Robert W. Lissitz Xiaodong, (1999). Hou Multiple Choice Items and Constructed Response Items: Does It Matter? University of Maryland.

33. Samejima, F. (1969). Estimation of latent ability using a response pattern of graded scores. Psychometrika, Monograph Supplement, 34, 100-114. Psychometrika, Monograph Supplement, 34, 100-114.

34. Smith, J.K.&Smith, M.R. (1984, April). The influence of item format on measures of reading comprehension. Paper presented at the annual meeting of the American Educational Research Association, New Orleans, LA.

35. Schuwirth and Vander Vleuten, 2003 - Schuwirth, L.W.T., Vander Vleuten, C.P.M., 2003. ABC of learning and teaching in medicine: written assessment. BMJ 326 (7390), 643-645.

Приложение

Трудность

Ошибка измерения

Коэф. корреляции

Статистики согласия

INFIT

OUTFIT

MNSQ

ZSTD

MNSQ

ZSTD

1

-0.65

0.06

0.53

0.84

-6.6

0.76

-6.4

2

-1.59

0.07

0.45

0.87

-3.0

0.68

-4.8

3

1.51

0.06

0.36

0.99

-0.4

1.08

1.6

4

-0.74

0.06

0.40

0.97

-1.3

0.91

-2.2

5

-0.29

0.06

0.53

0.85

-7.1

0.80

-6.5

6

-0.25

0.06

0.44

0.95

-2.5

0.89

-3.5

7

-0.10

0.06

0.46

0.93

-3.5

0.90

-3.4

8

0.12

0.06

0.39

1.00

0.2

0.97

-0.9

9

-1.20

0.07

0.40

0.94

-1.8

0.83

-2.9

10

-0.74

0.06

0.41

0.95

-2.0

0.93

-1.5

11

-0.94

0.06

0.45

0.91

-3.1

0.80

-4.2

12

0.39

0.06

0.39

1.00

-0.1

1.00

0.0

13

-0.13

0.06

0.34

1.04

2.1

1.04

1.4

14

1.09

0.06

0.41

0.96

-1.4

1.01

0.3

15

-0.63

0.06

0.39

0.97

-1.0

0.93

-1.7

16

-0.69

0.06

0.43

0.93

-2.7

0.88

-3.0

17

-0.89

0.06

0.25

1.07

2.4

1.19

3.7

18

0.24

0.06

0.41

0.99

-0.6

0.97

-1.3

19

-0.81

0.06

0.40

0.96

-1.6

0.91

-2.1

20

-0.19

0.06

0.16

1.21

9.5

1.30

8.8

21

-0.62

0.06

0.43

0.94

-2.4

0.86

-3.5

22

0.58

0.06

0.26

1.13

6.2

1.16

5.7

23

-1.08

0.06

0.40

0.93

-2.3

0.98

-0.4

24

0.90

0.06

0.26

1.12

5.2

1.17

5.0

25

0.15

0.06

0.17

1.20

9.9

1.28

9.5

26

0.18

0.06

0.28

1.10

5.3

1.14

5.1

27

-0.04

0.06

0.50

0.88

-6.0

0.86

-5.3

28

-1.31

0.07

0.43

0.90

-2.8

0.76

-4.0

29

-0.31

0.06

0.24

1.11

5.1

1.21

6.0

30

0.13

0.06

0.49

0.90

-5.2

0.88

-4.7

31

-0.30

0.06

0.29

1.08

3.5

1.12

3.4

32

-1.54

0.07

0.38

0.94

-1.5

0.80

-3.0

33

0.71

0.06

0.43

0.95

-2.3

0.97

-1.0

34

-1.13

0.06

0.48

0.87

-4.1

0.73

-5.4

35

-0.27

0.06

0.23

1.14

6.5

1.15

4.5

36

0.64

0.06

0.30

1.08

4.0

1.12

4.1

37

0.07

0.06

0.44

0.95

-2.8

0.92

-3.1

38

0.41

0.04

0.50

0.98

-0.7

0.97

-0.9

39

1.30

0.04

0.56

0.89

-3.7

0.90

-3.2

40

-0.47

0.04

0.57

0.88

-4.0

0.86

-4.5

41

-0.24

0.04

0.46

1.12

3.8

1.43

6.6

42

1.03

0.04

0.17

1.79

9.9

2.99

9.9

43

-0.14

0.03

0.50

1.09

3.0

1.08

1.4

44

1.53

0.04

0.53

0.93

-1.4

1.05

0.3

45

0.24

0.06

0.41

0.98

-1.3

0.98

-0.9

46

1.13

0.05

0.43

1.05

1.5

1.05

1.7

47

1.65

0.04

0.58

0.95

-1.3

0.95

-0.9

48

1.48

0.03

0.60

0.94

-1.4

0.97

-0.5

49

0.77

0.03

0.65

1.02

0.5

0.99

-0.2

50

1.05

0.03

0.66

0.90

-2.8

0.84

-3.4

Mean

0.00

0.05

0.41

1.00

-0.1

1.02

-0.2

S.D.

0.84

0.01

0.12

0.14

4.1

0.32

4.1

Размещено на Allbest.ru


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.