Automated text processing: topic segmentation of educational texts

Marina I. Solnyshkina; Солнышкина Марина Ивановна; Iskander E. Yarmakeev; Ярмакеев Искандер Энгелевич; Elzara V. Gafiyatova; Гафиятова Эльзара Василовна; Farida Kh. Ismaeva; Исмаева Фарида Хамисовна

doi:10.17673/vsgtu-pps.2019.3.13

Автоматическая обработка текстов; тематическая сегментация учебных текстов

Авторы: Солнышкина М.И.¹, Ярмакеев И.Э.¹, Гафиятова Э.В.¹, Исмаева Ф.Х.¹
Учреждения:
1. Казанский (Приволжский) федеральный университет
Выпуск: Том 16, № 3 (2019)
Страницы: 158-173
Раздел: Статьи
URL: https://vestnik-pp.samgtu.ru/1991-8569/article/view/52421
DOI: https://doi.org/10.17673/vsgtu-pps.2019.3.13
ID: 52421

Цитировать

Полный текст

Аннотация
Полный текст
Об авторах
Список литературы
Дополнительные файлы
Статистика

Аннотация

Статья посвящена проблеме автоматического количественного определения сложности и тематической сегментации текстов. Дана краткая характеристика положения дел в данной области, показано, что существующие формулы расчета индекса читабельности являются жанрозависимыми и утрачивают достоверность при их использовании для текстов другого жанра. На основе корпуса учебных текстов и анализа количественных параметров авторы предлагают новый способ анализа соответствия текста лингвистическим способностям школьников. Исследование осуществлено на материале УМК Spotlight 11, общий объем корпуса составил 38 текстов с суммарным объемом 12891 словоупотреблений. В качестве методов использованы тематическая сегментация, компонент-анализ, метод статистического анализа, в работе применялись формулы читабельности Флеш - Кинкейда для англоязычных текстов, программы автоматизированной обработки текстов Coh-Metrix, WebFX, MonkeyLearn. Оценка сложности текстов показала, что динамика текстов с заданиями такова: на ознакомительное чтение - от более сложных к менее сложным (-0.2); на просмотровое чтение - от менее сложных к более сложным (+0.4); в текстах на полное понимание прочитанного индекс сложности поднялся на 5.2. Тематическая сегментация, осуществленная при помощи программы Monkey Learn, выявила лексику 15 тем, которые в течение учебного года предлагаются учащимся для изучения в среднем 3-5 раз. Наиболее частотной является тема Humanities (гуманитарные науки), обращение к которой выявлено в 9 модулях. Показательно, что к темам Gardening (садоводство), Computers & Internet (компьютер и интернет), Science & Mathematics (наука и математика), Entertainment & Recreation (развлечения) авторы учебника обращаются только в одном модуле.

Ключевые слова

сложность текстов, читабельность, математические модели, английский язык, тематическая сегментация

Полный текст

Введение Современные наукометрические исследования показывают, что объем генерируемой информации в настоящее время настолько велик, что она почти не достигает адресата [1]. В качестве одной из причин ученые указывают на несоответствие сложности текста сообщения когнитивным и лингвистическим способностям целе- вой аудитории [2]. Именно поэтому весьма актуальной в современном мире является проблема оценки сложности текста, определение его «трудности» или «понятности» для конкретной аудитории, его читабельности. Особую значимость данная проблема обретает в системе образования: завышение уровня читабельности текста ведет к снижению объема воспринимаемого текста, занижение - замедляет развитие школьников [3, 4, 5]. До недавнего времени в качестве основного инструмента при оценке соответствия текста читателю использовалась экспертная оценка квалифици- рованных специалистов, учителей, авторов учебников [6]. В современной системе образования актуальной является задача осуществления автоматической экспертизы учебных текстов [7, 8], а проблемы автоматической оценки сложности и тематической сегментации текстов в последние годы привлекают внимание широкого круга ученых [9, 10]. Сфера образования рассматривается наиболее важной областью применения данных технологий, поскольку именно в образовании особо зна- чимо соответствие учебных текстов когнитивным и лингвистическим способностям школьников. Возможность автоматически определять сложность текстов позволит авто- рам учебников точнее ориентироваться на целевую аудиторию [11]. В нашей стране автоматическая оценка сложности текстов постепенно стано- вится важным инструментом не только индивидуализации и персонификации обра- зовательного процесса [12], но и оценивания работ школьников и студентов [13]. Сложно переоценить роль автоматизированных инструментов анализа сложности текста для экспертизы учебников [14]. Особую значимость проблема создания инст- рументов автоматической оценки сложности учебников обрела в настоящее время: проводимые международной организацией PISA исследования способности старше- классников к усвоению прочитанного материала выявили неудовлетворительную подготовку российских школьников. В 2015 г. в числе 72 обследованных стран по оценке читательской грамотности Россия заняла 26-е место [15]. Правительством России поставлена задача в течение 5 лет войти в десятку лучших стран по этому показателю [16]. 1. Обзор литературы Для английского языка проблема сложности текстов имеет более длительную историю и обсуждалась в ряде работ [17, 18, 19]. К настоящему времени предложено более 200 формул читабельности, при помощи которых рассчитываются «индексы читабельности» англоязычного текста [9]. Наибольшую известность приобрела фор- мула Флеша - Кинкейда: FKG = 0.39 ASL + 11.8 ASW - 15.59, где FKG (Flesch- KincaidGradeLevel) - сложность текста, ASL - средняя длина предложения (в словах), ASW - средняя длина слов (в слогах) [17]. Считается, что индекс Флеша (FKG/FKGL) академического текста должен соответствовать году обучения в школе или университете США. Инструменты автоматической оценки сложности текстов традиционно используются для создания корпусов текстов для чтения лиц с опреде- ленным уровнем владения языком [9, 21]. Проблема оценки сложности текста изучалась и для ряда европейских языков. В последнее десятилетие инструменты автоматической оценки сложности текста созданы и для восточных языков: корейского, китайского, японского [20]. Однако при всей своей значимости, общедоступности и экономичности [22] формулы читабельности опираются только на ограниченное число количественных параметров (количество знаков тексте; число слов, предложений; количество слов с более чем 4 слогами; среднее число слов в предложении; среднее число слогов в предложении; процент сложных слов) и не могут представить весь спектр пара- метров сложности [23]. Общество нуждается в инструментах, которые осуществляют более глубокий лингвостатистический анализ текста, а также его ранжирование с возрастом или ко- личеством лет формального образования. Для английского языка в настоящее время созданы и успешно используются программные комплексы с возможностями анали- за широкого спектра параметров текстов: Coh-Metrix, TAACO, WebFX, MonkeyLearn, iSTART и др. В англоязычном обществе эти программные средства нашли применение не только в сфере образования [24]; при их помощи, например, оценивается уровень сложности речей президентов США [25], произведений худо- жественной литературы [26] и даже различия в уровне сложности британских и аме- риканских юридических документов [27]. Современные автоматизированные сред- ства оценки качественных и количественных параметров текстов хорошо описаны в современной литературе [17, 18, 28]. Сoh-Metrix, разработанная коллективом американских ученых под руководством профессора А. Греиссера, ориентирована на прогнозирование удобочитаемости текста и анализ объема информации в тексте и опирается на комплекс математических формул [28]. Основу программы Coh-Metrix составили результаты исследовании Ассоциации по критериям в прикладных науках (Touchstone Applied Science Associates Inc., TASA), за- нимающейся анализом академических текстов и создавшей корпус, включающий 11 миллионов слов, 119 627 фрагментов 37 651 текст. В корпусе представлены тексты из различных сфер: филологии (language arts), общественных (social studies) и естественных (science) наук, истории (history), здравоохранения (health), бизнеса (business), домоводст- ва (home economics), прикладного искусства (industrial arts) [29]. Тексты в корпусе TASA распределены по 13 уровням, каждыи из которых соответствует этапу академическои подготовленности читателя - от детского сада до высшего учебного заведения. Опреде- ление этапа академической подготовленности читателя (Degrees of Reading Power [30]) производится с учетом количественных параметров, а результат выводитcя на основе индекса читабельности по однои из двух формул: удобочитаемость по Флешу или уро- вень Флеша - Кинкеида [20]. Наиболее значимыми в ракурсе представленного исследования являются два типа инструментов: программы оценки сложности или читабельности текста [9] и программы тематического анализа или сегментации текста. Именно тематическая сегментация тек- ста в настоящее время рассматривается как одна из ведущих технологий обработки ес- тественного языка (Natural Language Processing, NLP), позволяющая автоматически из- влекать смысл из текстов и выявлять темы и подтемы внутри текста [9]. Тематическое моделирование как одна из форм статистического анализа текстов разрабатывается с конца 90-х гг. прошлого века и представляет собой «группирование документов» на основе общих тем. При этом одно и то же слово в зависимости от его контекста(ов) может быть определено как принадлежащее к одной или нескольким те- мам, образуя таким образом «мягкую кластеризацию» (soft clustering). Именно поэтому тематические модели также именуются моделями би- или поликластеризации. Напри- мер, значение слова nucleus (ядро) может быть определено только на основе домини- рующей темы: математика, физика, биология, военная история и проч. [9]. 2. Материалы и методы Представленное исследование осуществлено на материале одного из первых рос- сийских УМК, созданных издательством «Просвещение» (Россия) совместно с издательством Express Publishing (Великобритания) [31, 32], - УМК Spotlight 11. Отли- чительной особенностью учебника является наличие аутентичного материала о России. Учебник получил положительные заключения Российской академии наук и Российской академии образования на соответствие федеральному компоненту Государственного образовательного стандарта среднего (полного) общего образования [32]. Общий объем рассматриваемого корпуса составил 38 текстов суммарным объемом 12891 словоупот- ребление. Исследование осуществлено с использованием методики тематической сег- ментации, метода статистического анализа, в работе применялись формулы читабельно- сти Флеш - Кинкейда для англоязычных текстов, программы автоматизированной обра- ботки текстов Coh-Metrix, WebFX, MonkeyLearn. 3. Результаты исследования На первом этапе исследования было осуществлено распознавание всех текстов УМК Spotlight (11-й класс) в формате txt и последующее определение их уровней слож- ности с помощью программы Coh-Metrix (рис. 1). <.. image removed ..> Рис. 1. Сложность текстов УМК Spotlight 11 Как показало исследование, индекс сложности изученных текстов изменяется в пределах между сложностью 2-го уровня (минимальный уровень, текст 10) и 28-го уровня (максимальный уровень, текст 16). Средний уровень сложности изученных текстов составил около 7,5, что соответствует 7-8-му классу американской школы. На втором этапе исследования все тексты УМК Spotlight 11 были классифици- рованы в три группы в зависимости от типа заданий, выполняемых учащимися при чтении конкретного текста: 1) ознакомительные тексты (skimming), для которых достаточно понимания 70 % текста; 2) тексты для просмотрового чтения (scanning), нацеленные на извлечение определенной информации (дата, время, главные герои и др.); 3) тексты, нацеленные на полное понимание прочитанного (reading for detailed comprehension). В УМК Spotlight 11 для первого типа заданий (ознакомительное чте- ние) используются 13 текстов (3, 6, 8, 10, 14, 18, 21, 24, 25, 28, 32, 34, 35). Для второ- го типа (просмотровое чтение) - 12 текстов (1, 4, 13, 15, 16, 20, 23, 27, 29, 33, 37, 38). Для третьего типа (полное понимание прочитанного) - 13 текстов (2, 5, 7, 9, 11, 12, 17, 19, 22, 26, 30, 31, 36). На третьем этапе исследования уровень сложности определялся для текстов ка- ждой группы. Данные для каждой группы представлены на рис. 2, 3, 4. <.. image removed ..> Рис. 2. Уровень сложности текстов для заданий на ознакомительное чтение Как видим, в целом уровень сложности текстов в заданиях на ознакомительное чтение (см. рис. 2) не поднялся, а наоборот снизился на три десятых: от 7,9 в тексте 3 до 7,6 в 35 тексте. <.. image removed ..> Рис. 3. Уровень сложности текстов для заданий на просмотровое чтение В заданиях на просмотровое чтение (см. рис. 3) уровень сложности поднялся на четыре десятых (от 7,9 в тексте 1 до 8,3 в тексте 8.3). При этом весьма сложным является текст 15 (FKGL 27.7), соответствующий уровню студентов - носителей языка 23-24 лет [33, 34]. <.. image removed ..> Рис. 4. Уровень сложности текста для заданий на полное понимание прочитанного В заданиях на полное понимание прочитанного (см. рис. 4) уровень сложности поднялся с 5,6 в тексте 5 до 10,8 в тексте 36. Показательно, что в течение года на- блюдается значительное повышение уровня сложности учебных текстов. На четвертом этапе исследования при помощи программы Coh-Metrix был осу- ществлен анализ качественных параметров текстов: нарративно- сти/повествовательности (Narrativity), синтаксической простоты (Syntactic Simplicty), конкретности слова (Word Concreteness), референциальной связности слов (Referential Cohesion) и глубинной связности слов (Deep Cohesion) (табл. 1). Качественные параметры сложности текста УМК Spotlight 11, % Таблица 1 Текст Повествовательность (Narrativity) Синтаксическая простота (Syntactic simplicity) Конкретность (Concreteness) Референциальная связность (Referential Cohesion) Глубинная связность (Deep Cohesion) 1 80 40 33 27 79 2 73 2 99 96 35 3 90 37 80 26 29 4 67 17 29 16 79 5 94 53 78 21 86 6 17 38 77 53 75 7 52 91 59 2 98 8 64 54 18 30 62 9 81 69 99 16 79 10 61 58 59 22 91 11 26 50 95 7 37 12 33 58 63 11 85 13 50 32 25 9 24 14 70 62 72 27 94 15 96 2 98 81 87 16 26 39 94 16 4 17 57 71 87 5 79 18 26 39 94 16 4 Окончание табл. 1 Текст Повествовательность (Narrativity) Синтаксическая простота (Syntactic simplicity) Конкретность (Concreteness) Референциальная связность (Referential Cohesion) Глубинная связность (Deep Cohesion) 19 59 66 90 12 99 20 85 61 73 20 92 21 71 38 75 20 70 22 40 53 79 2 70 23 5 45 85 7 81 24 35 31 82 11 85 25 64 21 51 17 93 26 89 77 96 23 70 27 53 58 35 44 86 28 45 79 71 10 95 29 15 70 10 8 81 30 85 67 31 9 95 31 65 33 77 14 59 32 32 35 64 2 91 33 39 52 80 23 40 34 26 63 74 2 22 35 9 46 79 28 21 36 15 40 75 59 85 37 21 41 76 4 35 38 9 74 57 9 85 Как видим, тексты 35 и 38 отличаются особо низким уровнем повествователь- ности, что говорит о том, что данные тексты содержат крайне низкий уровень сюже- тообразующих элементов, таких как имена героев, названия действий, мест и об- стоятельств действий. Несмотря на низкий уровень повествовательности, индекс сложности (FKGL) в текстах равен 7,6 и 8,3 соответственно. Определив сложность, количественные и качественные параметры каждого тек- ста в отдельности и объединив их в группы, выделяем ряд данных. 4 текста (6, 23, 35 и 38) имеют низкий уровень повествовательности (Narrativity) - менее 20 %, что свидетельствует о потенциальных трудностях пони- мания их учениками. Повествовательность текста обуславливается количеством присутствующих в нем сюжетообразующих элементов - персонажей и событий, а также его лексическим составом [35]. 4 текста (2, 4, 15, 25) имеют низкий уровень синтаксической простоты. Синтак- сическая простота выявляется с помощью трех переменных: 1) число грамматиче- ских основ в предложении: чем больше предложений с несколькими грамматиче- скими основами, тем сложнее текст; 2) количество слов в предложении: чем длиннее предложение, тем выше его сложность; 3) количество слов в предложении перед главным сказуемым: чем дальше такое сказуемое удалено от начала предложения, тем текст сложнее [36]. 2 текста (8, 29) имеют низкий уровень конкретности слов. Для определения конкретности слов использована база данных MRC Psycholinguistic Database [37]. 36 текстов из 38 (94,7 %) имеют низкий уровень референциальной связности слов. В текстах 4, 7, 9, 11, 12, 13, 16, 17, 18, 19, 22, 23, 24, 25, 28, 29, 30, 31, 32, 34, 37, 38 процент референциальной связности менее 20 %. Референциальная связность тек- ста в программе Coh-Metrix определяется с помощью повторов слов и синонимиче- ских замен знаков, относящихся к одному и тому же референту. 11 текстов имеют низкий уровень глубинной связности слов. В текстах 16, 18 процент связности слов менее 20 %. Как видим, динамика увеличения параметров сложности текстов в УМК Spot- light 11 - небольшая, не превышает единицы. На пятом этапе при помощи программы MonkeyLearn [38] была осуществлена тематическая сегментация текстов. MonkeyLearn - платформа искусственного ин- теллекта, которая позволяет анализировать текст с помощью машинного обучения, чтобы автоматизировать рабочий процесс. Программа позволяет классифицировать и извлекать данные из необработанных текстов. В данной программе возможно оп- ределение тональности текста, тематической сегментации, извлечения ключевых слов и фраз. Как видно из табл. 2, программа MonkeyLearn выделила 16 тем: животные (An- imals), красота и стиль (Beauty & Style), бизнес и финансы (Business & Finance), ком- пьютер и Интернет (Computers & Internet Consumer), электроника (Electronics), обра- зование (Education), развлечения (Entertainment & Recreation), окружающая среда (Environment), еда и напитки (Food & Drink), садоводство (Gardening), здоровье и медицина (Health & Medicine), дом (Home), гуманитарные науки (Humanities), нау- ка и математика (Science & Mathematics), общество (Society), путешествия (Travel). При автоматической обработке текстов из УМК Spotlight были выявлены 4 основные тематические группы, в которых темы повторялись три и более раз (включительно): 1) общество (Society) - 6 текстов (тексты 1, 2, 4, 11, 12; 36) 2) дом (Home) - 7 тек- стов; 3) гуманитарные науки (Humanities) - 9 текстов; 4) развлечения (Entertainment & Recreation) - 3 текста (см. табл. 2). Тематическая сегментация текстов из УМК Spotlight Таблица 2 Текст Тема % 1 Society (общество) 99,3 2 Society (общество) 18,8 3 Beauty & Style (красота и стиль) 68,2 4 Society (общество) 52,1 5 Home (дом) 39,1 6 Health & Medicine (здоровье и медицина) 64,8 7 Environment (окружающая среда) 31,9 8 Education (образование) 66,4 9 Humanities (гуманитарные науки) 49,1 10 Education (образование) 37,7 11 Society (общество) 29 12 Society (общество) 84,5 13 Entertainment & Recreation (развлечения) 35 14 Entertainment & Recreation (развлечения) 41,8 Окончание табл .2 Текст Тема % 15 Home (дом) 27,2 16 Travel (путешествия) 72,8 17 Health & Medicine (здоровье и медицина) 89,5 18 Home (дом) 70,2 19 Home (дом) 73,2 20 Home (дом) 57 21 Humanities (гуманитарные науки) 79,4 22 Gardening (садоводство) 30,6 23 Home (дом) 37,2 24 Home (дом) 98,4 25 Science & Mathematics (наука и математика) 27,8 26 Animals (животные) 83,9 27 Humanities (гуманитарные науки) 86,3 28 Animals (животные) 100 29 Computers & Internet (компьютер и Интернет) 69,9 30 Humanities (гуманитарные науки) 72,7 31 Humanities (гуманитарные науки) 70,5 32 Entertainment & Recreation (развлечения) 31,4 33 Humanities (гуманитарные науки) 64,8 34 Humanities (гуманитарные науки) 37,2 35 Humanities (гуманитарные науки) 31,9 36 Society (общество) 96,85 37 Science & Mathematics (наука и математика) 45,4 38 Humanities (гуманитарные науки) 66,6 На шестом этапе исследования был осуществлен анализ сложности текстов од- ной тематики. В качестве иллюстрации приведем пример анализа темы «Общество» (рис. 5). <.. image removed ..> Рис 5. Уровень сложности текстов на тему «Общество» График на рис. 5 свидетельствует о том, что к теме «Общество» учащиеся об- ращаются в течение учебного года шесть раз. Немаловажным фактором является то, что индекс сложности текстов в большинстве своем увеличивается, наиболее резкий подъем уровня сложности наблюдается в тексте 2. 4.Обсуждение и заключение Таким образом, проблемы сложности текста и тематического моделирования широко изучаются в последние несколько десятилетий. Исследования в данной об- ласти базируются преимущественно на данных, собранных на основе текстов он- лайн-сообщений, микроблогов, новостных обзоров и т. д. Значительно меньше ис- следований проведено на материале текстов академического дискурса. При этом очевидно, что именно тематическое моделирование и определение сложности ака- демических текстов имеют широкие возможности применения в сфере образования при определении соответствия учебных материалов лингвистическим и когнитив- ным способностям целевой аудитории. Тематическое сегментирование и оценка сложности текста суть технологии, применение которых в образовании имеет потен- циал способствовать улучшению качества преподавания, упростить подбор учебных материалов, осуществлять индивидуализацию обучения. Лингвостатистическая ин- формация, полученная при помощи программ Coh-Metrix и MonkeyLearn, весьма по- лезна при изучении учебного материала, тематическом планировании, а также при подготовке учащихся к тестированию.

Список литературы

1. Русский язык как иностранный и методика его преподавания: сб. научн. тр. Вып. 28 / Редкол.: Е.И. Зиновьева, Н.А. Любимова (отв. ред.), Л.В. Московкин и др. - СПб.: РОПРЯЛ, 2017. - 160 с. [Электронный ресурс]. - Режим доступа: http://rki.spbu.ru/documents/sbornik2017.pdf (дата обращения 11.04.2017).
2. Милованов К. Методы интердискурсивной адаптации текста в СМИ с использованием его формальных характеристик // Культурологический журнал. - 2015. - № 2(20) [Электронный ресурс]. - Режим доступа: https://goo.gl/CBofsL (дата обращения 11.04.2017).
3. Микк Я.А. Методика измерения трудности текста // Вопросы психологии. - 1975. - № 3.- С. 147-155.
4. Микк Я.А. Факторы, определяющие время прочтения слова в связанном тексте // Вопросы психологии. - 1979. - № 3. - С. 125-128.
5. Микк Я.А. Оптимизация сложности учебного текста. - М.: Просвещение, 1981. - 119 с.
6. Сидорова М.Ю. Лингвистическая экспертиза школьных учебников // Метапредметный подход в образовании: русский язык в школьном и вузовском обучении разным предметам: сб. статей Межрегион. науч-практ. конф. (М., 19 апреля 2018). - М.: Российский учебник, 2018. - С. 49-64 [Электронный ресурс]. - Режим доступа: https://elibrary.ru/item.asp?id=36672498 (дата обращения 11.06.2018).
7. Оборнева И.В. Автоматизированная оценка сложности учебных текстов на основе статистических параметров: автореф. дис. … канд. пед. наук. - М., 2006. - 19 с. [Электронный ресурс]. - Режим доступа:https://www.dissercat.com/content/avtomatizirovannaya- otsenka-slozhnosti-uchebnykh-tekstov-na-osnove-statisticheskikh-parametr (дата обращения 11.04.2017).
8. Глушань В.М. Компьютерный анализ сложности текстов учебно-методических разработок как средство повышения качества обучения [Электронный ресурс]. - Режим доступа: https://elibrary.ru/item.asp?id=26028726 (дата обращения 25.04.2017).
9. Солнышкина С.И., Кисельников А.С. Сложность текста: этапы изучения в отечественном прикладном языкознании // Вестник ТГУ. Филология. - № 6(38). - 2015. - С. 86-100.
10. Solov’ev V., Ivanov V., Solnyshkina M. Assessment of reading difficulty levels in Russian academic texts: Approaches and metrics // Journal of Intelligent & Fuzzy Systems. 2018. Vol. 34. Is. 5. Pp. 3049-3058.
11. Майер Р.В. Определение уровня абстрактности, сложности и информативности различных тем школьного учебника физики // Психология, социология и педагогика. - 2013. - № 2 [Электронный ресурс]. - Режим доступа: http://psychology.snauka.ru/2013/02/1813 (дата обращения: 08.02.2018).
12. Уша Т.Ю. Язык школьного учебника: проблема понимания учащимся-инофоном учебного текста, терминологической лексики, формулировок заданий // Теория и практика общественного развития. - 2015. - № 15 [Электронный ресурс]. - Режим доступа: http://teoria-practica.ru/rus/files/arhiv_zhurnala/2015/15/pedagogics/usha.pdf (дата обращения: 08.02.2019).
13. Устинова Л.В., Адекенова А.Н., Литвинова О.В. Проверка сложности выпускных работ учащихся и студентов на основе статистических параметров // Молодой ученый. - 2015.- № 8. - С. 148-152 [Электронный ресурс]. - Режим доступа:https://moluch.ru/archive/88/16986/ (дата обращения: 28.02.2018).
14. Webcache [Электронный ресурс]. - Режим доступа:http://webcache.googleusercontent.com/search?q=cache:46AZDFGrSJoJ:www.ras.ru/FStorage /Download.aspx%3Fid%3D17d4378e-749c-45f1-84c8-812282c9b24d+&cd=15&hl=ru&ct=clnk&gl=ru
15. ФИОКО [Электронный ресурс]. - Режим доступа: https://fioco.ru/results_PISA_2015 (дата обращения: 20.02.2018).
16. ТАСС [Электронный ресурс]. - Режим доступа: https://tass.ru/obschestvo/5301919 (дата обращения: 20.02.2018).
17. Автоматическая обработка текстов на естественном языке и анализ данных: Учеб. пособие / Е.И. Большакова, К.В. Воронцов, Н.Э. Ефремова, Э.С. Клышинский, Н.В. Лукашевич, А.С. Сапин. - М.: Изд-во НИУ ВШЭ, 2017. - 269 с.
18. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: Учеб. пособие / Е.И. Большакова, Э.С. Клышинский, Д.В. Ландэ, А.А. Носков, О.В. Пескова, Е.В. Ягунова. - М.: МИЭМ, 2011. - 272 с.
19. Аношин П.И. Автоматический анализ текстов. Синтаксический и семантический анализ // Евразийский научный журнал. - 2017. - № 6. - С. 15.
20. Comparative Analysis about the Degree of text Complexity of Korean and Chinese Intermediate Korean textbooks - based on Internal Factors of texts [Электронный ресурс]. - Режим доступа: https://www.researchgate.net/publication/322205569_Comparative_Analysis _about_the_Degree_of_Text_Complexity_of_Korean_and_Chinese_Intermediate_Korean_Textbooks_-_based_on_Internal_Factors_of_Texts-, https://www.researchgate.net/publication/220746039_Automatic_Assessment_of_Japanese_Te xt_Readability_Based_on_a_Textbook_Corpus, http://wordsandmonsters.com/research/pdf/Japanese_high_school_textbook.pdf (дата обращения: 20.02.2018)
21. Al-Khalil M., Saddiki H., Habash N., Alfalasi L. A Leveled Reading Corpus of Modern Standard Arabic Muhamed [Электронный ресурс]. - Режим доступа:https://www.aclweb.org/anthology/L18-1366 (дата обращения: 20.06.2018).
22. Solnyshkina M.I., Zamaletdinov R.R., Gorodetskaya L.A. Evaluating text complexity and Flesch-Kincaid grade level // Journal of Social Studies Education Research. 2017. Vol. 8. Is. 3. Pp. 238-248.
23. Fisher D., Lapp D., Frey N. Homework in Secondary Classrooms: Making It Relevant and Respectful [Электронный ресурс]. - Режим доступа: https://s3-us-west-1.amazonaws.com/fisher-and-frey/documents/homework_jaal.pdf (дата обращения:15.05.2018).
24. Using Coh-Metrix to Assess Cohesion and Difficulty in High School Textbooks [Электронный ресурс]. - Режим доступа: https://www.researchgate.net/publication/248260617_Using_Coh-Metrix_to_Assess_Cohesion_and_Difficulty_in_High- School_Textbooks (дата обращения: 20.02.2018).
25. “STABLE GENIUS” - Let’s Go to the Data [Электронный ресурс]. - Режим доступа:https://factba.se/blog/2018/01/08/stable-genius-lets-go-to-the-data (дата обращения:20.02.2018).
26. Philip M. McCarthy, Gwyneth A. Lewis, David F. Dufty, Danielle S. McNamara. Analyzing Writing Styles with Coh-Metrix [Электронный ресурс]. - Режим доступа: https://aaai.org/Papers/FLAIRS/2006/Flairs06-151.pdf (дата обращения: 20.02.2018).
27. Language in Law: Using Coh-Metrix to assess differences between American and English/Welsh language varieties [Электронный ресурс]. - Режим доступа: https://www.researchgate.net/publication/303288858_Language_in_law_Using_Coh- Metrix_to_assess_differences_between_American_and_EnglishWelsh_language_varieties (дата обращения: 17.04.2017).
28. Gabitov A.I., Solnyshkina M.I., Shayakhmetova L.Kh., Ilyasova L.G. Text Complexity In Russian Textbooks On Social Studies // Revista Publicando. 2017. Vol. 4. Is. 13. Pp. 597-606.
29. CohMetrix [Электронный ресурс]. - Режим доступа: http://cohmetrix.com (дата обращения: 20.04.2017).
30. Вычегжанин С.В. Анализ тональности текстов на основе ДСМ-метода. - Киров, 2013. - С. 16.
31. Солнышкина М.И., Кисельников А.С. Параметры сложности экзаменационных текстов // Вестник Волгоградского государственного университета. Сер. 2: Языкознание. - 2015. - № 1(25). - С. 99-107.
32. Интегративный подход в обучении младших школьников [Электронный ресурс]. - Режим доступа: integrativnyy-podhod-v-obuchenii-mladshih-shkolnikov (дата обращения:20.02.2018).
33. Английский язык, 11 класс: Учебник для общеобраз. учреждений / О.В. Афанасьева, Дж. Дули, И.В. Михеева и др. - М.: Просвещение, 2009. - 244 с.
34. Бахтин М.М. Литературно-критические статьи. - М.: Художественная литература, 1986.- 428 с.
35. Леонтьева Н.Н. Автоматическое понимание текстов: системы, модели, ресурсы: Учеб. пособие. - М.: Академия, 2006. - 304 с.
36. Dowell N. Analyzing Language and Discourse With Coh-Metrix. Workshop Presented at 2 nd Learning Analytics Summer Institutes (LASI 2014) / N. Dowell, Z. Cai & A.C. Graesser. Cambridge (MA), 2014. 84 p. Electronic text data. Mode of access: https://drive.google.com/file/d/0B-xloTsxGxlGcEw1RmNGTUtnSnc/edit (дата обращения:25.04.2017).
37. Graesser A.C., McNamara D.S., Louwerse M.M. What do readers need to learn in order to process coherence relations in narrative and expository text. In A.P. Sweet and C.E. Snow (Eds.), Rethinking reading comprehension: New York: Guilford Publications, 2003. Pp. 82-98.
38. Coltheart. The MRC Psycholinguistic Database. Quarterly Journal of Experimental Psychology. 1981. 33A. Pp. 497-505.
39. MonkeyLearn [Электронный ресурс]. - Режим доступа: https://monkeylearn.com/topic-analysis (дата обращения: 25.04.2017).

Дополнительные файлы

Доп. файлы

Действие

1. JATS XML

Скачать

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация

Автоматическая обработка текстов; тематическая сегментация учебных текстов

Полный текст

Аннотация

Ключевые слова

Полный текст

Об авторах

Марина Ивановна Солнышкина

Искандер Энгелевич Ярмакеев

Эльзара Василовна Гафиятова

Фарида Хамисовна Исмаева

Список литературы

Дополнительные файлы