Quality evaluation of learning math tests


Cite item

Abstract

In present days modern computer tools and information technologies implementation in educational process are widespread. The main purpose of computer-based testing shifted from the assessment instrument of learning outcomes to the purpose of teaching. Performance criteria of learning mathematical tests are not yet studied properly. The objectives of the present work are: to formulate the performance criteria of learning math tests; to evaluate the relevance of achievement test performance criteria for the evaluation of learning test results. Learning math tests should be informative, valid, reliable, discriminative. The research subjects are test results in mathematical analysis 21 tests. Several methods of statistics are used (sample mean, sample standard deviation, Pearson’s correlation coefficient, etc.) to study these criteria. We found out our tests informative, discriminative criterion, valid, nevertheless, we describe the tests at hand are not always have a high reliability.

Full Text

Развитие современных педагогических технологий привело к повсемест- ному внедрению в процесс обучения заданий в тестовой форме. Как правило, они рассматриваются как инструмент контроля результатов обучения. Мы в своей работе используем тесты с целью обучения студентов, а не с целью контроля процесса обучения. С помощью заданий в тестовой форме мы зна- комим обучающихся с новыми методами, знаниями, идеями и стараемся сти- мулировать и интенсифицировать процесс познания. В наших тестах присутствуют задания всех типов: выбор одного ответа или нескольких, задания на соответствие, на классификацию, на упорядочивание, задания с открытым ответом. Основными критериями для включения задания в обучающий тест являются его новизна, нестандартность, но при этом доступность решения в рамках изучаемого курса и темы. Поэтому тесты получаются не вполне однородными, не охватывают весь изучаемый материал и не могут использо- ваться с целью контроля знаний. Цель представленной работы - оценить возможности использования типич- ных критериев эффективности теста достижений для оценки результатов обуча- ющего тестирования. Объекты исследования: итоги тестирований по курсу ма- тематического анализа (21 тест, созданный на платформе «Айрен» [1]). В.С. Аванесов в [2] установил близость понятий «эффективность» и «опти- мальность», причем «последнее трактуется как наилучшее из возможных вари- антов с точки зрения удовлетворения нескольким критериям, взятым поочеред- но или вместе». Введем в рассмотрение критерии эффективности тестов: информативность; надежность; валидность; дискриминативность. Исследование истоков проблемы. В течение многих лет тесты широко ис- пользуются в педагогической практике ([2 - 6] и др.) во всем мире. В настоя- щее время кроме функции контроля обучения тесты все чаще используются с целью обучения [6-8, 10]. Обучающий тест в математике, согласно [6], есть инструмент, позволяющий диагностировать правильность хода решения за- дачи, вплоть до получения окончательного ответа. Мы расширили понятие обучающего теста, добавив в цели тестирования стимулирование познава- тельной деятельности обучающихся. Использование обучающих тестов в пе- дагогической практике затруднено из-за отсутствия ряда методических реко- мендаций, к которым относится оценка качества обучающих тестов, исполь- зуемых в учебном процессе. Недостаточное развитие научных и методологи- ческих подходов к вопросу выбора параметров качества обучающих тестов появилось из-за различных толкований «качества обучающего теста». Одним из аспектов качества теста является его эффективность. Перед тем как сделать отбор критериев эффективности обучающих математических те- стов, мы провели анализ процесса отбора соответствующих критериев эф- фективности психологических тестов, так как эта область знания хорошо раз- вита. Например, в [5] в качестве критериев эффективности психологических тестов выбраны: использование шкалы интервалов, надежность, достовер- ность, дискриминативность, наличие нормативных данных и критериев, уста- новленных экспертами. В педагогической диагностике [11] имеет большое значение качество измерений. Здесь сделать оценку эффективности теста позволяют объективность, надежность, валидность. Вопросы оценки качества в области контролирующего тестирования рассмотрены в работах [12, 13]. Мы предлагаем в качестве критериев эффективности обучающего математического теста выбрать информативность, валидность, надежность и дискри- минативность. Обучающие математические тесты должны быть информатив- ными, то есть результаты тестирования должны быть связаны со шкалой из- мерения и, следовательно, легко может быть осуществлен статистический анализ. Обучающие тесты должны быть валидными, так как должны изме- рять именно то, для чего они созданы. Обучающие тесты должны быть надежными, то есть должна быть возможность получения одинаковых ре- зультатов у испытуемых в различных случаях. Обучающие тесты должны быть дискриминативными, то есть обладать способностью разделять испыту- емых на отдельные группы в зависимости от уровня выполнения заданий. Мы не рассматриваем объективность, ибо наши тесты не зависят ни от настрое- ния педагога, ни от методов и средств контроля. В дальнейшим мы рассмот- рим наличие нормативных данных и критериев, установленных экспертами. Хорошо известно значительное число критериев надежности теста [5, 14]. Например, в качестве такого критерия можно использовать коэффициент корреляции Пирсона между двумя параллельными тестами на одной и той же выборке студентов. Также в качестве критерия надежности можно использо- вать коэффициент корреляции результатов экспертных оценок и результатов тестирования. Как правило, в качестве критерия надежности тестового зада- ния используют коэффициент корреляции Спирмена - Брауна [5, 14] и коэф- фициент надежности Гутмана [15], а также некоторые их модификации. Име- ет широкое применение для расчета надежности так называемая формула KR- 20 [14], названная так по именам ее основателей Ф. Кудера и М. Ричардсона (формула номер 20 в публикации). Цели исследования. Целями настоящей работы являются: формулирова- ние критериев эффективности обучающих математических тестов; оценка ак- туальности критериев для оценки результатов тестирования. Объектом ис- следования являются результаты тестирований по курсу математического анализа (21 тест, разработанный на платформе «Айрен»). Далее рассмотрим отдельно каждый из выбранных критериев: информативность; надежность; валидность; дискриминативность. Исследование критериев эффективности Информативность. Обучающие тесты должны быть информативными, то есть такими, которые обеспечивают возможность соотнесения количественной оценки за выполнение теста со шкалой измерений, и, соответственно, быть при- годными для быстрой статистической обработки результатов обследования. Любое научное исследование начинается с того, что исследователь фик- сирует, насколько ярко выражено интересующее его свойство (или свойства) у объекта или объектов исследования, как правило, при помощи чисел (коли- чественная характеристика). Таким образом, следует различать объекты ис- следования (в нашем случае это тесты, состоящие из тестовых заданий, и ре- зультаты тестирований), их свойства (то, что интересует нас как исследовате- лей, составляет предмет изучения - эффективность тестов) и признаки, отра- жающие в числовой шкале проявление свойств. Поэтому оценку эффективно- сти тестов следует начать с определения шкалы измерений как инструмента статистической обработки результатов тестирования. Пусть A - некоторое множество объектов, а {P }m - набор отношений на этом множестве. Множеi i=1 ство A вместе с заданной на нем системой отношений {P }m называется системой с отношениями и обозначается U =< A,{P }m > . i i=1 i i=1 Под k-мерной шкалой будем понимать гомоморфизм f эмпирической системы с отношением U =< A,{Pi }> в k-мерную числовую систему с отношениями V =< R k ,{Si }> [16]. Таким образом, шкала - это тройка (U , V , f ) , где f - гомоморфизм из U в V. Существует множество шкал наименований, когда например, числа исполь- зуются как имена объектов исследования. Шкала наименований дает информа- цию о том, эквивалентны два объекта или нет. Например, результаты тестирова- ния студентов, набравших одинаковое количество баллов, эквивалентны, тогда как сами испытуемые - разные. Шкала наименований используется только для того, чтобы отнести испытуемых к какому-либо классу, например к классу про- шедших тестирование. Порядковые шкалы - это шкалы, в которых эмпириче- ская система есть система с заданным отношением порядка (объекты упорядо- чены). Например, классификация испытуемых производится по среднему баллу. Недостатком такой шкалы является то, что не учитываются значения разностей между градациями. Можно выделить шкалу интервалов, в которой значения разностей во всех точках данной шкалы равны, начало отсчета произвольно, а единица измерения задана. Значения, полученные по интервальной шкале, инва- риантны относительно группы аффинных преобразований. Шкала отношений - это шкала, в которой начало отсчета известно, а единица измерений выбирается по усмотрению исследователя. Мы используем в своей работе шкалу интервалов (k = 1), так как мы пола- гаем принципиально важным то, что к экспериментальным данным, обрабо- танным по шкале интервалов, применимо достаточно большое число стати- стических методов исследований. Испытуемые получают оценку за каждый тест в процентах от полностью правильного ответа на все представленные вопросы. При этом некоторые тестовые задания предполагают «мягкое оце- нивание». Например, если дан вопрос с выбором нескольких (k) правильных вариантов из данных ответов, а испытуемый выбрал не все необходимые ва- рианты (k1 < k), то он получит в свою оценку соответствующую часть (k1/k) от того процента, который мог бы получить (1/n, где n - число заданий в тесте), если бы ответил на этот вопрос полностью правильно. Таким образом, в ре- зультате тестирования мы имеем данные в процентах, которые необходимо разделять с помощью интервалов. Надежность. Под надежным тестом будем понимать тест, который дает одинаковые показатели для одного и того же испытуемого при гипотетиче- ском повторном тестировании, то есть тест, в котором результаты тестирова- ния не зависят от всевозможных случайных факторов. Такая надежность называется ретестовой (test-retest reliability) [5, 14]. Для нахождения значения этого показателя вычисляется коэффициент корреляции результатов тестиро- вания одного и того же студента. Для нахождения надежности мы использо- ¢ 2r вали формулу Спирмена - Брауна rt = t 1 + rt при расщеплении теста на две части. Здесь rt - исправленный коэффициент надежности, а rt - коэффициент надежности (коэффициент корреляции Пирсона), найденный по половин- кам расщепленного теста. Считается, что наименьшим удовлетворительным значением для ретестовой надежности является значение 0,7 [17]. Исследовав 21 тест по курсу математического анализа, мы выяснили, что большинство из них - тесты с достаточной надежностью (см. таблицу). Низкие показатели надежности объясняются, по нашему мнению, двумя основными причинами: небольшое количество заданий в тесте (7-8) и недостаточная ясность форму- лировок для испытуемых (новизна заданий). Количество заданий в тесте не подлежит изменению, так как с увеличением количества заданий увеличива- ется продолжительность тестирования, что неудобно по техническим причи- нам, а также приводит к ослаблению когнитивных функций, которые необхо- димы для решения обучающих заданий. Неясность формулировок, на кото- рую иногда жаловались наши студенты, являются неотъемлемой частью обу- чающих тестов в нашем понимании: понять задание, содержащее новую ма- тематическую терминологию, - значит уже чему-то научиться. Поэтому зна- чительное увеличение показателя надежности для обучающих тестов вряд ли возможно. Валидность. Тест называется валидным, если он измеряет то, для чего предназначен [17]. Существует несколько видов валидности: при очевидной (внешней) валидности у испытуемых складывается впечатление, что тест из- меряет именно то, для чего он создан; конкурентная валидность оценивается по корреляции результатов тестирования с результатами других тестов, пред- назначенных для решения аналогичных задач; прогностическая валидность определяется при помощи корреляции между показателями теста и некото- рым критерием, характеризующим то же самое свойство у испытуемых, но в более позднее время: например, корреляция между показателями тестиро- вания в первом семестре и успеваемостью данного студента во втором се- местре. К тестам достижений в основном применяется содержательная ва- лидность. Однако валидность наших обучающих тестов не очевидна, так как они не охватывают весь изучаемый материал и часто фокусируются на дета- лях. Мы старались подготовить тесты так, чтобы основные понятия и факты теории, методы практических занятий использовались при решении тестовых заданий, но полностью охватить весь материал невозможно. Кроме того, мно- гие задания по математике предполагают выполнение большой последова- тельности действий и поэтому не подходят для обучающего теста. Поэтому валидность наших тестов может быть оценена только с качественной точки зрения, путем независимой профессиональной экспертизы (см. [12]). Дискриминативность. Дискриминативность означает различительную способность теста (способность отделять испытуемых с высоким баллом по тесту от тех, которые набрали низкий балл) [18]. Одной из целей разработ- чика тестов является достижение хорошего распределения показателей. Про- извести оценку дискриминативности теста можно при помощи коэффициента дискриминации, коэффициента корреляции Гилфорда, коэффициента дельта d Фергюсона [14]. Именно последний из перечисленных коэффициентов мы использовали при исследовании наших тестов. Дискриминативность, измеря- емая показателем дельта Фергюсона, принимает максимальное значение d = 1 при равномерном распределении [6]. Дельта Фергюсона находится по форму- æ k ö (n + 1)ç N 2 - åw2 ÷ ç i ÷ ле d = è i=1 ø nN 2 , где N - количество испытуемых, n - количество вопросов теста, wi , i = 1, k - количество итоговых баллов, попавших в каждый из k интервалов шкалы. Если d = 0 , то все испытуемые получили одинаковое количество баллов, то есть тест не является дискриминативным. При создании обучающих тестов равенство d = 0 означает, что по сути тест не является обучающим, ибо все испытуемые одинаково правильно ответили на задания теста, то есть материал, представленный в тесте, уже усвоен. В таблице приведены статистические характеристики результатов тестирова- ний по разработанным нами тестам. При исследовании типа распределения обу- чающих тестов использовался статистический критерий Пирсона [19]. В частно- сти, из этой таблицы следует, что наши тесты являются дискриминативными. 71 71 Статистические характеристики обучающих тестирований Тест Числотестовых заданий Количествотестируемых Выборочноесреднее Выборочноесреднее квадратическое отклонение Типраспределения итоговых баллов Надежностьr ’t ДельтаФергюсонаδ 1. «Множества» 7 67 46,19 22,71 Нормальное 0,690 0,987 2. «Вещественные числа» 7 56 46,25 26,8 Равномерное 0,717 1 3. «Числовые функции 7 51 52,94 28,63 Равномерное 0,578 1 4. «Предел последовательности - 1» 7 52 41,92 29,06 Равномерное 0,752 1 5. «Предел последовательности - 2» 8 43 58,37 24,72 Нормальное 0,747 0,926 6. «Предел последовательности - 3» 7 48 45 25,2 Нормальное 0,676 0,909 7. «Предел функции - 1» 7 49 51,84 29,45 Равномерное 0,734 1 8. «Предел функции - 2» 8 39 48,59 24,18 Нормальное 0,837 0,926 9. «Непрерывность функции» 8 39 54,19 27,62 Равномерное 0,714 1 10. «Производная - 1» 8 31 72,22 23 Не определяется 0,833 0,812 11. «Производная - 2» 8 31 56,76 25,86 Равномерное 0,587 1 12. «Производная -3» 7 36 61,53 22,11 Нормальное 0,884 13. «Комплексные числа» 8 45 62,11 25,92 Равномерное 0,827 1 14. «Неопределенный интеграл - 1» 8 52 54,81 26,46 Равномерное 0,720 1 15. «Неопределенный интеграл - 2» 7 43 52,09 27,83 Равномерное 0,747 1 16. «Неопределенный интеграл - 3» 8 41 63,17 26,93 Равномерное 0,690 1 17. «Неопределенный интеграл - 4» 7 44 53,75 27,24 Равномерное 0,751 1 18. «Определенный интеграл - 1» 7 38 54,08 25,41 Нормальное 0,392 0,844 19. «Определенный интеграл - 2» 7 33 49,09 27,95 Равномерное 0,647 1 20. «Определенный интеграл - 3» 7 29 59,83 26,57 Равномерное 0,720 1 21. «Определенный интеграл - 4» 7 30 50,33 26,17 Нормальное 0,761 0,907 Обсуждение результатов. В таблице приведены статистические харак- теристики результатов обучающих тестирований. Статистическая обработка данных возможна вследствие использования шкалы интервалов. В первом столбце таблицы содержится название (тема) теста, во втором - количество тестовых заданий. Следует отметить, что число испытуемых (третий столбец) меняется от теста к тесту. Сначала это значение уменьшается из-за снижения интереса студентов к тестовой форме обучения, а затем в силу усиления мо- тивации со стороны преподавателя (уменьшение количества заданий на кон- трольной работе, освобождение от контрольной работы, уменьшение количе- ства вопросов на экзамене и т. д.) увеличивается. Выборочное среднее (сумма баллов, полученная студентами за тест, разделенная на количество обследо- ванных) - довольно простая характеристика теста. Так, если средний балл близок к 100, то тест ничего не стоит, ничему не учит. А если средний балл значительно меньше 50, то тест труден для этой группы студентов. В этой си- туации возможны следующие шаги: либо адаптировать тест для данных сту- дентов, либо обсудить все неясные вопросы и провести повторное тестирова- ние. Пятый столбец («Выборочное среднее квадратическое отклонение») со- держит отклонение балла от выборочного среднего. Шестой столбец содер- жит тип распределения тестовых баллов. В 62 % случаев это равномерное распределение и в 38 % - нормальное. То, что в большинстве случаев распре- деление тестовых баллов получилось равномерным, говорит о том, что наши тесты являются дискриминативными. Действительно, как можно заметить из таблицы, соответствующее равномерному закону распределения значение дельта Фергюсона (последний столбец) равно единице. Это является еще од- ним доказательством дискриминативности тестов. Надежность тестов (седьмой столбец таблицы) рассчитывается по фор- муле Спирмена - Брауна. Для этого мы нашли коэффициент корреляции между двумя частями теста (средний балл по четным и средний балл по не- четным вопросам для каждого испытуемого), а затем рассчитали исправлен- ный коэффициент надежности. Заключение. В результате проведенного исследования итогов тестиро- ваний мы установили, что рассматриваемые нами тесты являются информа- тивными, их валидность следует оценивать качественно, а дискриминатив- ность не вызывает сомнений. Надежность тестов не всегда достаточно высо- ка. Обучение с помощью решения заданий теста, согласно [8], - это процесс, в начале которого студент знает и умеет меньше, чем в конце. Поэтому мы считаем, что стремиться к повышению повторяемости результата (надежно- сти теста) и придавать этому фактору большое значение при оценке эффек- тивности обучающих тестов не стоит. Таким образом, мы установили применимость таких критериев эффек- тивности, как информативность, надежность, дискриминативность и валид- ность, к изучению эффективности обучающих математических тестов. Мы выяснили причины невысокой надежности обучающих тестов - неясность формулировок, небольшое число заданий. Также мы объяснили, почему ис- следование содержательной валидности тестов невозможно без внешней экс- пертной оценки.
×

About the authors

Irina G. Ustinova

National Research Tomsk Polytechnic University

Email: igu@tpu.ru
Cand. of Tech. Sci., Associate Professor of “Higher Mathematics” 30, Lenin avenue, Tomsk, 634050

Elena G. Lazareva

National Research Tomsk Polytechnic University

Email: lazareva@math.tsu.ru
Cand. of Phys. and Math. Sci., Associate Professor of “General Mathematics” 30, Lenin avenue, Tomsk, 634050

References

  1. Программа тестирования знаний «Айрен». URL: http://irenproject.ru/
  2. Аванесов В.С. Композиция тестовых заданий. - М.: Центр тестирования, 2002. - 240 с.
  3. Ким В.С. Тестирование учебных достижений. - Уссурийск: Изд-во УГПИ, 2007. - 214 с.
  4. James E. Carlson, Matthias von Davier. Item Response Theory. ETS Research Report Series. Volume 2013, Issue 2, pages i-69, December 2013.
  5. Клайн П. Справочное руководство по конструированию тестов. - Киев: ПАН Лтд., 1994. - 288 c.
  6. Майоров А.Н. Теория и практика создания тестов для системы образования. - М.: Интеллект-Центр, 2001. - 296 c.
  7. Углев В.А. Обучающее компьютерное тестирование // Теоретические и прикладные вопросы современных информационных технологий: Мат-лы VIII Всероссийск. науч.-техн. конф. - Улан-Удэ: ВСГТУ, 2007. - С. 312-316.
  8. Лазарева Е.Г., Устинова И.Г., Подстригич А.Г. Использование тестирующих программ в процессе обучения высшей математике // Вестник Томского государственного педагогического университета (Tomsk State Pedagogical University Bulletin). - 2012. - Вып. 7 (122). - С. 217-222.
  9. Сеногноева Н.А. Обучающие тесты: Инновационная педагогическая технология. - Нижний Тагил: Нижнетагильская государственная социально-педагогическая академия, 2005. - 155 c.
  10. Кадневский В.М. Из истории создания и применения тестов для системы образования // Педагогическая диагностика. - 2003. - № 3. - С. 39-50.
  11. Ингекамп К. Педагогическая диагностика. - М.: Педагогика, 1991. - 240 c.
  12. Челышкова М.Б. Теория и практика конструирования педагогических тестов. - М.: Логос, 2002. - 432 c.
  13. Черепанов B.C. Экспертные оценки в педагогических исследованиях. - М.: Педагогика, 1989. - 152 с.
  14. Kuder G.F., Richardson M.W. The theory of the estimation of test reliability // Psychometrika. - 1937. - V. 2. - № 3. - P. 151-160.
  15. Guttman L. A basis for analyzing test-retest reliability // Psychometrika. - 1945. - V.10. - P. 255-282.
  16. Пфанцагль И. Теория измерений. - М.: Мир, 1976. - 165 с.
  17. William M.K. Trochim. Measurement Validity Types. Cornell University. The Research Methods Knowledge Base. URL: www.socialresearchmethods.net/kb/measval.php
  18. Белоус В.В., Домников А.С., Карпенко А.П. Тестовый метод контроля качества обучения и критерии качества образовательных тестов. Обзор // Наука и образование. - 2011. - № 4. - С. 1-28.
  19. Уилкс С. Математическая статистика. - М.: Наука, 1967. - 632 с.

Copyright (c) 2016 Ustinova I.G., Lazareva E.G.

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies