Quality evaluation of learning math tests

Irina G. Ustinova; Устинова Ирина Георгиевна; Elena G. Lazareva; Лазарева Елена Геннадьевна

Качественная оценка обучающих математических тестов

Авторы: Устинова И.Г.¹, Лазарева Е.Г.¹
Учреждения:
1. Национальный исследовательский Томский политехнический университет
Выпуск: Том 13, № 1 (2016)
Страницы: 65-75
Раздел: Статьи
URL: https://vestnik-pp.samgtu.ru/1991-8569/article/view/52165
ID: 52165

Цитировать

Полный текст

Аннотация
Полный текст
Об авторах
Список литературы
Дополнительные файлы
Статистика

Аннотация

В настоящее время в учебном процессе широкое распространение получило применение современных компьютерных средств и информационных технологий. Основная цель компьютерного тестирования смещается от оценивания результатов обучения непосредственно к самому процессу обучения. Критерии эффективности обучающих математических тестов еще не изучены должным образом. Целью нашей работы является нахождение и изучение таких критериев. Мы создали 21 обучающий тест по курсу математического анализа и определили следующие критерии эффективности: информативность, валидность, надежность, дискриминативность. Основываясь на статистических данных, полученных в результате тестирований, мы выяснили, что наши тесты информативны, дискриминативны, не всегда имеют высокую надежность, а их валидность требует внешней экспертной оценки.

Ключевые слова

критерии эффективности, обучающие математические тесты

Полный текст

Развитие современных педагогических технологий привело к повсемест- ному внедрению в процесс обучения заданий в тестовой форме. Как правило, они рассматриваются как инструмент контроля результатов обучения. Мы в своей работе используем тесты с целью обучения студентов, а не с целью контроля процесса обучения. С помощью заданий в тестовой форме мы зна- комим обучающихся с новыми методами, знаниями, идеями и стараемся сти- мулировать и интенсифицировать процесс познания. В наших тестах присутствуют задания всех типов: выбор одного ответа или нескольких, задания на соответствие, на классификацию, на упорядочивание, задания с открытым ответом. Основными критериями для включения задания в обучающий тест являются его новизна, нестандартность, но при этом доступность решения в рамках изучаемого курса и темы. Поэтому тесты получаются не вполне однородными, не охватывают весь изучаемый материал и не могут использо- ваться с целью контроля знаний. Цель представленной работы - оценить возможности использования типич- ных критериев эффективности теста достижений для оценки результатов обуча- ющего тестирования. Объекты исследования: итоги тестирований по курсу ма- тематического анализа (21 тест, созданный на платформе «Айрен» [1]). В.С. Аванесов в [2] установил близость понятий «эффективность» и «опти- мальность», причем «последнее трактуется как наилучшее из возможных вари- антов с точки зрения удовлетворения нескольким критериям, взятым поочеред- но или вместе». Введем в рассмотрение критерии эффективности тестов: информативность; надежность; валидность; дискриминативность. Исследование истоков проблемы. В течение многих лет тесты широко ис- пользуются в педагогической практике ([2 - 6] и др.) во всем мире. В настоя- щее время кроме функции контроля обучения тесты все чаще используются с целью обучения [6-8, 10]. Обучающий тест в математике, согласно [6], есть инструмент, позволяющий диагностировать правильность хода решения за- дачи, вплоть до получения окончательного ответа. Мы расширили понятие обучающего теста, добавив в цели тестирования стимулирование познава- тельной деятельности обучающихся. Использование обучающих тестов в пе- дагогической практике затруднено из-за отсутствия ряда методических реко- мендаций, к которым относится оценка качества обучающих тестов, исполь- зуемых в учебном процессе. Недостаточное развитие научных и методологи- ческих подходов к вопросу выбора параметров качества обучающих тестов появилось из-за различных толкований «качества обучающего теста». Одним из аспектов качества теста является его эффективность. Перед тем как сделать отбор критериев эффективности обучающих математических те- стов, мы провели анализ процесса отбора соответствующих критериев эф- фективности психологических тестов, так как эта область знания хорошо раз- вита. Например, в [5] в качестве критериев эффективности психологических тестов выбраны: использование шкалы интервалов, надежность, достовер- ность, дискриминативность, наличие нормативных данных и критериев, уста- новленных экспертами. В педагогической диагностике [11] имеет большое значение качество измерений. Здесь сделать оценку эффективности теста позволяют объективность, надежность, валидность. Вопросы оценки качества в области контролирующего тестирования рассмотрены в работах [12, 13]. Мы предлагаем в качестве критериев эффективности обучающего математического теста выбрать информативность, валидность, надежность и дискри- минативность. Обучающие математические тесты должны быть информатив- ными, то есть результаты тестирования должны быть связаны со шкалой из- мерения и, следовательно, легко может быть осуществлен статистический анализ. Обучающие тесты должны быть валидными, так как должны изме- рять именно то, для чего они созданы. Обучающие тесты должны быть надежными, то есть должна быть возможность получения одинаковых ре- зультатов у испытуемых в различных случаях. Обучающие тесты должны быть дискриминативными, то есть обладать способностью разделять испыту- емых на отдельные группы в зависимости от уровня выполнения заданий. Мы не рассматриваем объективность, ибо наши тесты не зависят ни от настрое- ния педагога, ни от методов и средств контроля. В дальнейшим мы рассмот- рим наличие нормативных данных и критериев, установленных экспертами. Хорошо известно значительное число критериев надежности теста [5, 14]. Например, в качестве такого критерия можно использовать коэффициент корреляции Пирсона между двумя параллельными тестами на одной и той же выборке студентов. Также в качестве критерия надежности можно использо- вать коэффициент корреляции результатов экспертных оценок и результатов тестирования. Как правило, в качестве критерия надежности тестового зада- ния используют коэффициент корреляции Спирмена - Брауна [5, 14] и коэф- фициент надежности Гутмана [15], а также некоторые их модификации. Име- ет широкое применение для расчета надежности так называемая формула KR- 20 [14], названная так по именам ее основателей Ф. Кудера и М. Ричардсона (формула номер 20 в публикации). Цели исследования. Целями настоящей работы являются: формулирова- ние критериев эффективности обучающих математических тестов; оценка ак- туальности критериев для оценки результатов тестирования. Объектом ис- следования являются результаты тестирований по курсу математического анализа (21 тест, разработанный на платформе «Айрен»). Далее рассмотрим отдельно каждый из выбранных критериев: информативность; надежность; валидность; дискриминативность. Исследование критериев эффективности Информативность. Обучающие тесты должны быть информативными, то есть такими, которые обеспечивают возможность соотнесения количественной оценки за выполнение теста со шкалой измерений, и, соответственно, быть при- годными для быстрой статистической обработки результатов обследования. Любое научное исследование начинается с того, что исследователь фик- сирует, насколько ярко выражено интересующее его свойство (или свойства) у объекта или объектов исследования, как правило, при помощи чисел (коли- чественная характеристика). Таким образом, следует различать объекты ис- следования (в нашем случае это тесты, состоящие из тестовых заданий, и ре- зультаты тестирований), их свойства (то, что интересует нас как исследовате- лей, составляет предмет изучения - эффективность тестов) и признаки, отра- жающие в числовой шкале проявление свойств. Поэтому оценку эффективно- сти тестов следует начать с определения шкалы измерений как инструмента статистической обработки результатов тестирования. Пусть A - некоторое множество объектов, а {P }m - набор отношений на этом множестве. Множеi i=1 ство A вместе с заданной на нем системой отношений {P }m называется системой с отношениями и обозначается U =< A,{P }m > . i i=1 i i=1 Под k-мерной шкалой будем понимать гомоморфизм f эмпирической системы с отношением U =< A,{Pi }> в k-мерную числовую систему с отношениями V =< R k ,{Si }> [16]. Таким образом, шкала - это тройка (U , V , f ) , где f - гомоморфизм из U в V. Существует множество шкал наименований, когда например, числа исполь- зуются как имена объектов исследования. Шкала наименований дает информа- цию о том, эквивалентны два объекта или нет. Например, результаты тестирова- ния студентов, набравших одинаковое количество баллов, эквивалентны, тогда как сами испытуемые - разные. Шкала наименований используется только для того, чтобы отнести испытуемых к какому-либо классу, например к классу про- шедших тестирование. Порядковые шкалы - это шкалы, в которых эмпириче- ская система есть система с заданным отношением порядка (объекты упорядо- чены). Например, классификация испытуемых производится по среднему баллу. Недостатком такой шкалы является то, что не учитываются значения разностей между градациями. Можно выделить шкалу интервалов, в которой значения разностей во всех точках данной шкалы равны, начало отсчета произвольно, а единица измерения задана. Значения, полученные по интервальной шкале, инва- риантны относительно группы аффинных преобразований. Шкала отношений - это шкала, в которой начало отсчета известно, а единица измерений выбирается по усмотрению исследователя. Мы используем в своей работе шкалу интервалов (k = 1), так как мы пола- гаем принципиально важным то, что к экспериментальным данным, обрабо- танным по шкале интервалов, применимо достаточно большое число стати- стических методов исследований. Испытуемые получают оценку за каждый тест в процентах от полностью правильного ответа на все представленные вопросы. При этом некоторые тестовые задания предполагают «мягкое оце- нивание». Например, если дан вопрос с выбором нескольких (k) правильных вариантов из данных ответов, а испытуемый выбрал не все необходимые ва- рианты (k1 < k), то он получит в свою оценку соответствующую часть (k1/k) от того процента, который мог бы получить (1/n, где n - число заданий в тесте), если бы ответил на этот вопрос полностью правильно. Таким образом, в ре- зультате тестирования мы имеем данные в процентах, которые необходимо разделять с помощью интервалов. Надежность. Под надежным тестом будем понимать тест, который дает одинаковые показатели для одного и того же испытуемого при гипотетиче- ском повторном тестировании, то есть тест, в котором результаты тестирова- ния не зависят от всевозможных случайных факторов. Такая надежность называется ретестовой (test-retest reliability) [5, 14]. Для нахождения значения этого показателя вычисляется коэффициент корреляции результатов тестиро- вания одного и того же студента. Для нахождения надежности мы использо- ¢ 2r вали формулу Спирмена - Брауна rt = t 1 + rt при расщеплении теста на две части. Здесь rt - исправленный коэффициент надежности, а rt - коэффициент надежности (коэффициент корреляции Пирсона), найденный по половин- кам расщепленного теста. Считается, что наименьшим удовлетворительным значением для ретестовой надежности является значение 0,7 [17]. Исследовав 21 тест по курсу математического анализа, мы выяснили, что большинство из них - тесты с достаточной надежностью (см. таблицу). Низкие показатели надежности объясняются, по нашему мнению, двумя основными причинами: небольшое количество заданий в тесте (7-8) и недостаточная ясность форму- лировок для испытуемых (новизна заданий). Количество заданий в тесте не подлежит изменению, так как с увеличением количества заданий увеличива- ется продолжительность тестирования, что неудобно по техническим причи- нам, а также приводит к ослаблению когнитивных функций, которые необхо- димы для решения обучающих заданий. Неясность формулировок, на кото- рую иногда жаловались наши студенты, являются неотъемлемой частью обу- чающих тестов в нашем понимании: понять задание, содержащее новую ма- тематическую терминологию, - значит уже чему-то научиться. Поэтому зна- чительное увеличение показателя надежности для обучающих тестов вряд ли возможно. Валидность. Тест называется валидным, если он измеряет то, для чего предназначен [17]. Существует несколько видов валидности: при очевидной (внешней) валидности у испытуемых складывается впечатление, что тест из- меряет именно то, для чего он создан; конкурентная валидность оценивается по корреляции результатов тестирования с результатами других тестов, пред- назначенных для решения аналогичных задач; прогностическая валидность определяется при помощи корреляции между показателями теста и некото- рым критерием, характеризующим то же самое свойство у испытуемых, но в более позднее время: например, корреляция между показателями тестиро- вания в первом семестре и успеваемостью данного студента во втором се- местре. К тестам достижений в основном применяется содержательная ва- лидность. Однако валидность наших обучающих тестов не очевидна, так как они не охватывают весь изучаемый материал и часто фокусируются на дета- лях. Мы старались подготовить тесты так, чтобы основные понятия и факты теории, методы практических занятий использовались при решении тестовых заданий, но полностью охватить весь материал невозможно. Кроме того, мно- гие задания по математике предполагают выполнение большой последова- тельности действий и поэтому не подходят для обучающего теста. Поэтому валидность наших тестов может быть оценена только с качественной точки зрения, путем независимой профессиональной экспертизы (см. [12]). Дискриминативность. Дискриминативность означает различительную способность теста (способность отделять испытуемых с высоким баллом по тесту от тех, которые набрали низкий балл) [18]. Одной из целей разработ- чика тестов является достижение хорошего распределения показателей. Про- извести оценку дискриминативности теста можно при помощи коэффициента дискриминации, коэффициента корреляции Гилфорда, коэффициента дельта d Фергюсона [14]. Именно последний из перечисленных коэффициентов мы использовали при исследовании наших тестов. Дискриминативность, измеря- емая показателем дельта Фергюсона, принимает максимальное значение d = 1 при равномерном распределении [6]. Дельта Фергюсона находится по форму- æ k ö (n + 1)ç N 2 - åw2 ÷ ç i ÷ ле d = è i=1 ø nN 2 , где N - количество испытуемых, n - количество вопросов теста, wi , i = 1, k - количество итоговых баллов, попавших в каждый из k интервалов шкалы. Если d = 0 , то все испытуемые получили одинаковое количество баллов, то есть тест не является дискриминативным. При создании обучающих тестов равенство d = 0 означает, что по сути тест не является обучающим, ибо все испытуемые одинаково правильно ответили на задания теста, то есть материал, представленный в тесте, уже усвоен. В таблице приведены статистические характеристики результатов тестирова- ний по разработанным нами тестам. При исследовании типа распределения обу- чающих тестов использовался статистический критерий Пирсона [19]. В частно- сти, из этой таблицы следует, что наши тесты являются дискриминативными. 71 71 Статистические характеристики обучающих тестирований Тест Числотестовых заданий Количествотестируемых Выборочноесреднее Выборочноесреднее квадратическое отклонение Типраспределения итоговых баллов Надежностьr ’t ДельтаФергюсонаδ 1. «Множества» 7 67 46,19 22,71 Нормальное 0,690 0,987 2. «Вещественные числа» 7 56 46,25 26,8 Равномерное 0,717 1 3. «Числовые функции 7 51 52,94 28,63 Равномерное 0,578 1 4. «Предел последовательности - 1» 7 52 41,92 29,06 Равномерное 0,752 1 5. «Предел последовательности - 2» 8 43 58,37 24,72 Нормальное 0,747 0,926 6. «Предел последовательности - 3» 7 48 45 25,2 Нормальное 0,676 0,909 7. «Предел функции - 1» 7 49 51,84 29,45 Равномерное 0,734 1 8. «Предел функции - 2» 8 39 48,59 24,18 Нормальное 0,837 0,926 9. «Непрерывность функции» 8 39 54,19 27,62 Равномерное 0,714 1 10. «Производная - 1» 8 31 72,22 23 Не определяется 0,833 0,812 11. «Производная - 2» 8 31 56,76 25,86 Равномерное 0,587 1 12. «Производная -3» 7 36 61,53 22,11 Нормальное 0,884 13. «Комплексные числа» 8 45 62,11 25,92 Равномерное 0,827 1 14. «Неопределенный интеграл - 1» 8 52 54,81 26,46 Равномерное 0,720 1 15. «Неопределенный интеграл - 2» 7 43 52,09 27,83 Равномерное 0,747 1 16. «Неопределенный интеграл - 3» 8 41 63,17 26,93 Равномерное 0,690 1 17. «Неопределенный интеграл - 4» 7 44 53,75 27,24 Равномерное 0,751 1 18. «Определенный интеграл - 1» 7 38 54,08 25,41 Нормальное 0,392 0,844 19. «Определенный интеграл - 2» 7 33 49,09 27,95 Равномерное 0,647 1 20. «Определенный интеграл - 3» 7 29 59,83 26,57 Равномерное 0,720 1 21. «Определенный интеграл - 4» 7 30 50,33 26,17 Нормальное 0,761 0,907 Обсуждение результатов. В таблице приведены статистические харак- теристики результатов обучающих тестирований. Статистическая обработка данных возможна вследствие использования шкалы интервалов. В первом столбце таблицы содержится название (тема) теста, во втором - количество тестовых заданий. Следует отметить, что число испытуемых (третий столбец) меняется от теста к тесту. Сначала это значение уменьшается из-за снижения интереса студентов к тестовой форме обучения, а затем в силу усиления мо- тивации со стороны преподавателя (уменьшение количества заданий на кон- трольной работе, освобождение от контрольной работы, уменьшение количе- ства вопросов на экзамене и т. д.) увеличивается. Выборочное среднее (сумма баллов, полученная студентами за тест, разделенная на количество обследо- ванных) - довольно простая характеристика теста. Так, если средний балл близок к 100, то тест ничего не стоит, ничему не учит. А если средний балл значительно меньше 50, то тест труден для этой группы студентов. В этой си- туации возможны следующие шаги: либо адаптировать тест для данных сту- дентов, либо обсудить все неясные вопросы и провести повторное тестирова- ние. Пятый столбец («Выборочное среднее квадратическое отклонение») со- держит отклонение балла от выборочного среднего. Шестой столбец содер- жит тип распределения тестовых баллов. В 62 % случаев это равномерное распределение и в 38 % - нормальное. То, что в большинстве случаев распре- деление тестовых баллов получилось равномерным, говорит о том, что наши тесты являются дискриминативными. Действительно, как можно заметить из таблицы, соответствующее равномерному закону распределения значение дельта Фергюсона (последний столбец) равно единице. Это является еще од- ним доказательством дискриминативности тестов. Надежность тестов (седьмой столбец таблицы) рассчитывается по фор- муле Спирмена - Брауна. Для этого мы нашли коэффициент корреляции между двумя частями теста (средний балл по четным и средний балл по не- четным вопросам для каждого испытуемого), а затем рассчитали исправлен- ный коэффициент надежности. Заключение. В результате проведенного исследования итогов тестиро- ваний мы установили, что рассматриваемые нами тесты являются информа- тивными, их валидность следует оценивать качественно, а дискриминатив- ность не вызывает сомнений. Надежность тестов не всегда достаточно высо- ка. Обучение с помощью решения заданий теста, согласно [8], - это процесс, в начале которого студент знает и умеет меньше, чем в конце. Поэтому мы считаем, что стремиться к повышению повторяемости результата (надежно- сти теста) и придавать этому фактору большое значение при оценке эффек- тивности обучающих тестов не стоит. Таким образом, мы установили применимость таких критериев эффек- тивности, как информативность, надежность, дискриминативность и валид- ность, к изучению эффективности обучающих математических тестов. Мы выяснили причины невысокой надежности обучающих тестов - неясность формулировок, небольшое число заданий. Также мы объяснили, почему ис- следование содержательной валидности тестов невозможно без внешней экс- пертной оценки.

Об авторах

Ирина Георгиевна Устинова

Национальный исследовательский Томский политехнический университет

Email: igu@tpu.ru
кандидат технических наук, доцент кафедры «Высшая математика» 634050, г. Томск, пр. Ленина, 30

Елена Геннадьевна Лазарева

Национальный исследовательский Томский политехнический университет

Email: lazareva@math.tsu.ru
кандидат физико-математических наук, доцент кафедры «Общая математика» 634050, г. Томск, пр. Ленина, 30

Список литературы

Программа тестирования знаний «Айрен». URL: http://irenproject.ru/
Аванесов В.С. Композиция тестовых заданий. - М.: Центр тестирования, 2002. - 240 с.
Ким В.С. Тестирование учебных достижений. - Уссурийск: Изд-во УГПИ, 2007. - 214 с.
James E. Carlson, Matthias von Davier. Item Response Theory. ETS Research Report Series. Volume 2013, Issue 2, pages i-69, December 2013.
Клайн П. Справочное руководство по конструированию тестов. - Киев: ПАН Лтд., 1994. - 288 c.
Майоров А.Н. Теория и практика создания тестов для системы образования. - М.: Интеллект-Центр, 2001. - 296 c.
Углев В.А. Обучающее компьютерное тестирование // Теоретические и прикладные вопросы современных информационных технологий: Мат-лы VIII Всероссийск. науч.-техн. конф. - Улан-Удэ: ВСГТУ, 2007. - С. 312-316.
Лазарева Е.Г., Устинова И.Г., Подстригич А.Г. Использование тестирующих программ в процессе обучения высшей математике // Вестник Томского государственного педагогического университета (Tomsk State Pedagogical University Bulletin). - 2012. - Вып. 7 (122). - С. 217-222.
Сеногноева Н.А. Обучающие тесты: Инновационная педагогическая технология. - Нижний Тагил: Нижнетагильская государственная социально-педагогическая академия, 2005. - 155 c.
Кадневский В.М. Из истории создания и применения тестов для системы образования // Педагогическая диагностика. - 2003. - № 3. - С. 39-50.
Ингекамп К. Педагогическая диагностика. - М.: Педагогика, 1991. - 240 c.
Челышкова М.Б. Теория и практика конструирования педагогических тестов. - М.: Логос, 2002. - 432 c.
Черепанов B.C. Экспертные оценки в педагогических исследованиях. - М.: Педагогика, 1989. - 152 с.
Kuder G.F., Richardson M.W. The theory of the estimation of test reliability // Psychometrika. - 1937. - V. 2. - № 3. - P. 151-160.
Guttman L. A basis for analyzing test-retest reliability // Psychometrika. - 1945. - V.10. - P. 255-282.
Пфанцагль И. Теория измерений. - М.: Мир, 1976. - 165 с.
William M.K. Trochim. Measurement Validity Types. Cornell University. The Research Methods Knowledge Base. URL: www.socialresearchmethods.net/kb/measval.php
Белоус В.В., Домников А.С., Карпенко А.П. Тестовый метод контроля качества обучения и критерии качества образовательных тестов. Обзор // Наука и образование. - 2011. - № 4. - С. 1-28.
Уилкс С. Математическая статистика. - М.: Наука, 1967. - 632 с.

Дополнительные файлы

Доп. файлы

Действие

1. JATS XML

Скачать

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация