<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE root>
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:ali="http://www.niso.org/schemas/ali/1.0/" article-type="research-article" dtd-version="1.2" xml:lang="en"><front><journal-meta><journal-id journal-id-type="publisher-id">Vestnik of Samara State Technical University Psychological and Pedagogical Sciences</journal-id><journal-title-group><journal-title xml:lang="en">Vestnik of Samara State Technical University Psychological and Pedagogical Sciences</journal-title><trans-title-group xml:lang="ru"><trans-title>Вестник Самарского государственного технического университета. Серия: Психолого-педагогические науки</trans-title></trans-title-group></journal-title-group><issn publication-format="print">1991-8569</issn><issn publication-format="electronic">2712-892X</issn><publisher><publisher-name xml:lang="en">Samara State Technical University</publisher-name></publisher></journal-meta><article-meta><article-id pub-id-type="publisher-id">52421</article-id><article-id pub-id-type="doi">10.17673/vsgtu-pps.2019.3.13</article-id><article-categories><subj-group subj-group-type="toc-heading" xml:lang="en"><subject>Articles</subject></subj-group><subj-group subj-group-type="toc-heading" xml:lang="ru"><subject>Статьи</subject></subj-group><subj-group subj-group-type="article-type"><subject>Research Article</subject></subj-group></article-categories><title-group><article-title xml:lang="en">Automated text processing: topic segmentation of educational texts</article-title><trans-title-group xml:lang="ru"><trans-title>Автоматическая обработка текстов; тематическая сегментация учебных текстов</trans-title></trans-title-group></title-group><contrib-group><contrib contrib-type="author"><name-alternatives><name xml:lang="en"><surname>Solnyshkina</surname><given-names>Marina I.</given-names></name><name xml:lang="ru"><surname>Солнышкина</surname><given-names>Марина Ивановна</given-names></name></name-alternatives><bio xml:lang="en"><p>Dr. Phil. Sci., Professor of Theory and Practice of Teaching Foreign Languages Department.</p></bio><bio xml:lang="ru"><p>доктор филологических наук, профессор кафедры «Теория и практика преподавания иностранных языков».</p></bio><email>mesoln@yandex.ru</email><xref ref-type="aff" rid="aff1"/></contrib><contrib contrib-type="author"><name-alternatives><name xml:lang="en"><surname>Yarmakeev</surname><given-names>Iskander E.</given-names></name><name xml:lang="ru"><surname>Ярмакеев</surname><given-names>Искандер Энгелевич</given-names></name></name-alternatives><bio xml:lang="en"><p>Dr. Ped. Sci., Professor of Bilingual and Digital Education Department.</p></bio><bio xml:lang="ru"><p>доктор педагогических наук, профессор кафедры «Билингвальное и цифровое образование»</p></bio><email>ermakeev@mail.ru</email><xref ref-type="aff" rid="aff1"/></contrib><contrib contrib-type="author"><name-alternatives><name xml:lang="en"><surname>Gafiyatova</surname><given-names>Elzara V.</given-names></name><name xml:lang="ru"><surname>Гафиятова</surname><given-names>Эльзара Василовна</given-names></name></name-alternatives><bio xml:lang="en"><p>Cand. Phil. Sci., Associate Professor of Theory and Practice of Teaching Foreign Languages Department.</p></bio><bio xml:lang="ru"><p>кандидат филологических наук, доцент кафедры «Теория и практика преподавания иностранных языков».</p></bio><email>rg-777@yandex.ru</email><xref ref-type="aff" rid="aff1"/></contrib><contrib contrib-type="author"><name-alternatives><name xml:lang="en"><surname>Ismaeva</surname><given-names>Farida Kh.</given-names></name><name xml:lang="ru"><surname>Исмаева</surname><given-names>Фарида Хамисовна</given-names></name></name-alternatives><bio xml:lang="en"><p>Cand. Phil. Sci., Associate Professor of Foreign Languages Department.</p></bio><bio xml:lang="ru"><p>кандидат филологических наук, доцент кафедры «Иностранные языки».</p></bio><email>fismaeva@yandex.ru</email><xref ref-type="aff" rid="aff1"/></contrib></contrib-group><aff-alternatives id="aff1"><aff><institution xml:lang="en">Kazan (Volga) Federal University</institution></aff><aff><institution xml:lang="ru">Казанский (Приволжский) федеральный университет</institution></aff></aff-alternatives><pub-date date-type="pub" iso-8601-date="2019-09-15" publication-format="electronic"><day>15</day><month>09</month><year>2019</year></pub-date><volume>16</volume><issue>3</issue><issue-title xml:lang="en">NO3 (2019)</issue-title><issue-title xml:lang="ru">№3 (2019)</issue-title><fpage>158</fpage><lpage>173</lpage><history><date date-type="received" iso-8601-date="2020-11-25"><day>25</day><month>11</month><year>2020</year></date></history><permissions><copyright-statement xml:lang="en">Copyright ©; 2019, Solnyshkina M.I., Yarmakeev I.E., Gafiyatova E.V., Ismaeva F.K.</copyright-statement><copyright-statement xml:lang="ru">Copyright ©; 2019, Солнышкина М.И., Ярмакеев И.Э., Гафиятова Э.В., Исмаева Ф.Х.</copyright-statement><copyright-year>2019</copyright-year><copyright-holder xml:lang="en">Solnyshkina M.I., Yarmakeev I.E., Gafiyatova E.V., Ismaeva F.K.</copyright-holder><copyright-holder xml:lang="ru">Солнышкина М.И., Ярмакеев И.Э., Гафиятова Э.В., Исмаева Ф.Х.</copyright-holder><ali:free_to_read xmlns:ali="http://www.niso.org/schemas/ali/1.0/"/><license><ali:license_ref xmlns:ali="http://www.niso.org/schemas/ali/1.0/">https://creativecommons.org/licenses/by/4.0</ali:license_ref></license></permissions><self-uri xlink:href="https://vestnik-pp.samgtu.ru/1991-8569/article/view/52421">https://vestnik-pp.samgtu.ru/1991-8569/article/view/52421</self-uri><abstract xml:lang="en"><p>The article explores the problem of automatic quantitative assessment of text complexity and thematic segmentation of texts. The authors offer a brief description of the state of affairs in this area including the fact that the existing formulas for text readability index are genredependent and lose their reliability when used for texts of other genres. Based on the corpus of educational texts and analysis of quantitative text parameters, we suggest a new way of text ranking so that they correspond linguistic abilities of pupils. The study was carried out on the material of UMK Spotlight 11, the corpus used in the study comprises 38 texts of 12891 tokens in total. The methods used were topic segmentation, component analysis, statistical analysis, Flash-Kincaid readability Texts complexity assessment showed that the dynamics of texts with tasks (1) testing skimming abilities is from more complex to less complex (-0.2); (2) testing scanning abilities is from less complex to more (+0.4); (3) in the texts for intensive reading, text readability rose by 5.2. The thematic segmentation performed based on Monkey Learn revealed the vocabulary of 15 topics that, during the school year, are offered to students on average 3-5 times. The most frequent theme is "Humanities", the reference to which is revealed in 9 modules. It is significant that textbook authors offer the following topics Gardening, Computers &amp; Internet, Science &amp; Mathematics, Entertainment&amp; Recreation only once during the school year.</p></abstract><trans-abstract xml:lang="ru"><p>Статья посвящена проблеме автоматического количественного определения сложности и тематической сегментации текстов. Дана краткая характеристика положения дел в данной области, показано, что существующие формулы расчета индекса читабельности являются жанрозависимыми и утрачивают достоверность при их использовании для текстов другого жанра. На основе корпуса учебных текстов и анализа количественных параметров авторы предлагают новый способ анализа соответствия текста лингвистическим способностям школьников. Исследование осуществлено на материале УМК Spotlight 11, общий объем корпуса составил 38 текстов с суммарным объемом 12891 словоупотреблений. В качестве методов использованы тематическая сегментация, компонент-анализ, метод статистического анализа, в работе применялись формулы читабельности Флеш - Кинкейда для англоязычных текстов, программы автоматизированной обработки текстов Coh-Metrix, WebFX, MonkeyLearn. Оценка сложности текстов показала, что динамика текстов с заданиями такова: на ознакомительное чтение - от более сложных к менее сложным (-0.2); на просмотровое чтение - от менее сложных к более сложным (+0.4); в текстах на полное понимание прочитанного индекс сложности поднялся на 5.2. Тематическая сегментация, осуществленная при помощи программы Monkey Learn, выявила лексику 15 тем, которые в течение учебного года предлагаются учащимся для изучения в среднем 3-5 раз. Наиболее частотной является тема Humanities (гуманитарные науки), обращение к которой выявлено в 9 модулях. Показательно, что к темам Gardening (садоводство), Computers &amp; Internet (компьютер и интернет), Science &amp; Mathematics (наука и математика), Entertainment &amp; Recreation (развлечения) авторы учебника обращаются только в одном модуле.</p></trans-abstract><kwd-group xml:lang="en"><kwd>text complexity</kwd><kwd>readability</kwd><kwd>mathematical models</kwd><kwd>English Language</kwd><kwd>thematic division</kwd></kwd-group><kwd-group xml:lang="ru"><kwd>сложность текстов</kwd><kwd>читабельность</kwd><kwd>математические модели</kwd><kwd>английский язык</kwd><kwd>тематическая сегментация</kwd></kwd-group></article-meta></front><body></body><back><ref-list><ref id="B1"><label>1.</label><mixed-citation>1. Русский язык как иностранный и методика его преподавания: сб. научн. тр. Вып. 28 / Редкол.: Е.И. Зиновьева, Н.А. Любимова (отв. ред.), Л.В. Московкин и др. - СПб.: РОПРЯЛ, 2017. - 160 с. [Электронный ресурс]. - Режим доступа: http://rki.spbu.ru/documents/sbornik2017.pdf (дата обращения 11.04.2017).</mixed-citation></ref><ref id="B2"><label>2.</label><mixed-citation>2. Милованов К. Методы интердискурсивной адаптации текста в СМИ с использованием его формальных характеристик // Культурологический журнал. - 2015. - № 2(20) [Электронный ресурс]. - Режим доступа: https://goo.gl/CBofsL (дата обращения 11.04.2017).</mixed-citation></ref><ref id="B3"><label>3.</label><mixed-citation>3. Микк Я.А. Методика измерения трудности текста // Вопросы психологии. - 1975. - № 3.- С. 147-155.</mixed-citation></ref><ref id="B4"><label>4.</label><mixed-citation>4. Микк Я.А. Факторы, определяющие время прочтения слова в связанном тексте // Вопросы психологии. - 1979. - № 3. - С. 125-128.</mixed-citation></ref><ref id="B5"><label>5.</label><mixed-citation>5. Микк Я.А. Оптимизация сложности учебного текста. - М.: Просвещение, 1981. - 119 с.</mixed-citation></ref><ref id="B6"><label>6.</label><mixed-citation>6. Сидорова М.Ю. Лингвистическая экспертиза школьных учебников // Метапредметный подход в образовании: русский язык в школьном и вузовском обучении разным предметам: сб. статей Межрегион. науч-практ. конф. (М., 19 апреля 2018). - М.: Российский учебник, 2018. - С. 49-64 [Электронный ресурс]. - Режим доступа: https://elibrary.ru/item.asp?id=36672498 (дата обращения 11.06.2018).</mixed-citation></ref><ref id="B7"><label>7.</label><mixed-citation>7. Оборнева И.В. Автоматизированная оценка сложности учебных текстов на основе статистических параметров: автореф. дис. … канд. пед. наук. - М., 2006. - 19 с. [Электронный ресурс]. - Режим доступа:https://www.dissercat.com/content/avtomatizirovannaya- otsenka-slozhnosti-uchebnykh-tekstov-na-osnove-statisticheskikh-parametr (дата обращения 11.04.2017).</mixed-citation></ref><ref id="B8"><label>8.</label><mixed-citation>8. Глушань В.М. Компьютерный анализ сложности текстов учебно-методических разработок как средство повышения качества обучения [Электронный ресурс]. - Режим доступа: https://elibrary.ru/item.asp?id=26028726 (дата обращения 25.04.2017).</mixed-citation></ref><ref id="B9"><label>9.</label><mixed-citation>9. Солнышкина С.И., Кисельников А.С. Сложность текста: этапы изучения в отечественном прикладном языкознании // Вестник ТГУ. Филология. - № 6(38). - 2015. - С. 86-100.</mixed-citation></ref><ref id="B10"><label>10.</label><mixed-citation>10. Solov’ev V., Ivanov V., Solnyshkina M. Assessment of reading difficulty levels in Russian academic texts: Approaches and metrics // Journal of Intelligent &amp; Fuzzy Systems. 2018. Vol. 34. Is. 5. Pp. 3049-3058.</mixed-citation></ref><ref id="B11"><label>11.</label><mixed-citation>11. Майер Р.В. Определение уровня абстрактности, сложности и информативности различных тем школьного учебника физики // Психология, социология и педагогика. - 2013. - № 2 [Электронный ресурс]. - Режим доступа: http://psychology.snauka.ru/2013/02/1813 (дата обращения: 08.02.2018).</mixed-citation></ref><ref id="B12"><label>12.</label><mixed-citation>12. Уша Т.Ю. Язык школьного учебника: проблема понимания учащимся-инофоном учебного текста, терминологической лексики, формулировок заданий // Теория и практика общественного развития. - 2015. - № 15 [Электронный ресурс]. - Режим доступа: http://teoria-practica.ru/rus/files/arhiv_zhurnala/2015/15/pedagogics/usha.pdf (дата обращения: 08.02.2019).</mixed-citation></ref><ref id="B13"><label>13.</label><mixed-citation>13. Устинова Л.В., Адекенова А.Н., Литвинова О.В. Проверка сложности выпускных работ учащихся и студентов на основе статистических параметров // Молодой ученый. - 2015.- № 8. - С. 148-152 [Электронный ресурс]. - Режим доступа:https://moluch.ru/archive/88/16986/ (дата обращения: 28.02.2018).</mixed-citation></ref><ref id="B14"><label>14.</label><mixed-citation>14. Webcache [Электронный ресурс]. - Режим доступа:http://webcache.googleusercontent.com/search?q=cache:46AZDFGrSJoJ:www.ras.ru/FStorage /Download.aspx%3Fid%3D17d4378e-749c-45f1-84c8-812282c9b24d+&amp;cd=15&amp;hl=ru&amp;ct=clnk&amp;gl=ru</mixed-citation></ref><ref id="B15"><label>15.</label><mixed-citation>15. ФИОКО [Электронный ресурс]. - Режим доступа: https://fioco.ru/results_PISA_2015 (дата обращения: 20.02.2018).</mixed-citation></ref><ref id="B16"><label>16.</label><mixed-citation>16. ТАСС [Электронный ресурс]. - Режим доступа: https://tass.ru/obschestvo/5301919 (дата обращения: 20.02.2018).</mixed-citation></ref><ref id="B17"><label>17.</label><mixed-citation>17. Автоматическая обработка текстов на естественном языке и анализ данных: Учеб. пособие / Е.И. Большакова, К.В. Воронцов, Н.Э. Ефремова, Э.С. Клышинский, Н.В. Лукашевич, А.С. Сапин. - М.: Изд-во НИУ ВШЭ, 2017. - 269 с.</mixed-citation></ref><ref id="B18"><label>18.</label><mixed-citation>18. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: Учеб. пособие / Е.И. Большакова, Э.С. Клышинский, Д.В. Ландэ, А.А. Носков, О.В. Пескова, Е.В. Ягунова. - М.: МИЭМ, 2011. - 272 с.</mixed-citation></ref><ref id="B19"><label>19.</label><mixed-citation>19. Аношин П.И. Автоматический анализ текстов. Синтаксический и семантический анализ // Евразийский научный журнал. - 2017. - № 6. - С. 15.</mixed-citation></ref><ref id="B20"><label>20.</label><mixed-citation>20. Comparative Analysis about the Degree of text Complexity of Korean and Chinese Intermediate Korean textbooks - based on Internal Factors of texts [Электронный ресурс]. - Режим доступа: https://www.researchgate.net/publication/322205569_Comparative_Analysis _about_the_Degree_of_Text_Complexity_of_Korean_and_Chinese_Intermediate_Korean_Textbooks_-_based_on_Internal_Factors_of_Texts-, https://www.researchgate.net/publication/220746039_Automatic_Assessment_of_Japanese_Te xt_Readability_Based_on_a_Textbook_Corpus, http://wordsandmonsters.com/research/pdf/Japanese_high_school_textbook.pdf (дата обращения: 20.02.2018)</mixed-citation></ref><ref id="B21"><label>21.</label><mixed-citation>21. Al-Khalil M., Saddiki H., Habash N., Alfalasi L. A Leveled Reading Corpus of Modern Standard Arabic Muhamed [Электронный ресурс]. - Режим доступа:https://www.aclweb.org/anthology/L18-1366 (дата обращения: 20.06.2018).</mixed-citation></ref><ref id="B22"><label>22.</label><mixed-citation>22. Solnyshkina M.I., Zamaletdinov R.R., Gorodetskaya L.A. Evaluating text complexity and Flesch-Kincaid grade level // Journal of Social Studies Education Research. 2017. Vol. 8. Is. 3. Pp. 238-248.</mixed-citation></ref><ref id="B23"><label>23.</label><mixed-citation>23. Fisher D., Lapp D., Frey N. Homework in Secondary Classrooms: Making It Relevant and Respectful [Электронный ресурс]. - Режим доступа: https://s3-us-west-1.amazonaws.com/fisher-and-frey/documents/homework_jaal.pdf (дата обращения:15.05.2018).</mixed-citation></ref><ref id="B24"><label>24.</label><mixed-citation>24. Using Coh-Metrix to Assess Cohesion and Difficulty in High School Textbooks [Электронный ресурс]. - Режим доступа: https://www.researchgate.net/publication/248260617_Using_Coh-Metrix_to_Assess_Cohesion_and_Difficulty_in_High- School_Textbooks (дата обращения: 20.02.2018).</mixed-citation></ref><ref id="B25"><label>25.</label><mixed-citation>25. “STABLE GENIUS” - Let’s Go to the Data [Электронный ресурс]. - Режим доступа:https://factba.se/blog/2018/01/08/stable-genius-lets-go-to-the-data (дата обращения:20.02.2018).</mixed-citation></ref><ref id="B26"><label>26.</label><mixed-citation>26. Philip M. McCarthy, Gwyneth A. Lewis, David F. Dufty, Danielle S. McNamara. Analyzing Writing Styles with Coh-Metrix [Электронный ресурс]. - Режим доступа: https://aaai.org/Papers/FLAIRS/2006/Flairs06-151.pdf (дата обращения: 20.02.2018).</mixed-citation></ref><ref id="B27"><label>27.</label><mixed-citation>27. Language in Law: Using Coh-Metrix to assess differences between American and English/Welsh language varieties [Электронный ресурс]. - Режим доступа: https://www.researchgate.net/publication/303288858_Language_in_law_Using_Coh- Metrix_to_assess_differences_between_American_and_EnglishWelsh_language_varieties (дата обращения: 17.04.2017).</mixed-citation></ref><ref id="B28"><label>28.</label><mixed-citation>28. Gabitov A.I., Solnyshkina M.I., Shayakhmetova L.Kh., Ilyasova L.G. Text Complexity In Russian Textbooks On Social Studies // Revista Publicando. 2017. Vol. 4. Is. 13. Pp. 597-606.</mixed-citation></ref><ref id="B29"><label>29.</label><mixed-citation>29. CohMetrix [Электронный ресурс]. - Режим доступа: http://cohmetrix.com (дата обращения: 20.04.2017).</mixed-citation></ref><ref id="B30"><label>30.</label><mixed-citation>30. Вычегжанин С.В. Анализ тональности текстов на основе ДСМ-метода. - Киров, 2013. - С. 16.</mixed-citation></ref><ref id="B31"><label>31.</label><mixed-citation>31. Солнышкина М.И., Кисельников А.С. Параметры сложности экзаменационных текстов // Вестник Волгоградского государственного университета. Сер. 2: Языкознание. - 2015. - № 1(25). - С. 99-107.</mixed-citation></ref><ref id="B32"><label>32.</label><mixed-citation>32. Интегративный подход в обучении младших школьников [Электронный ресурс]. - Режим доступа: integrativnyy-podhod-v-obuchenii-mladshih-shkolnikov (дата обращения:20.02.2018).</mixed-citation></ref><ref id="B33"><label>33.</label><mixed-citation>33. Английский язык, 11 класс: Учебник для общеобраз. учреждений / О.В. Афанасьева, Дж. Дули, И.В. Михеева и др. - М.: Просвещение, 2009. - 244 с.</mixed-citation></ref><ref id="B34"><label>34.</label><mixed-citation>34. Бахтин М.М. Литературно-критические статьи. - М.: Художественная литература, 1986.- 428 с.</mixed-citation></ref><ref id="B35"><label>35.</label><mixed-citation>35. Леонтьева Н.Н. Автоматическое понимание текстов: системы, модели, ресурсы: Учеб. пособие. - М.: Академия, 2006. - 304 с.</mixed-citation></ref><ref id="B36"><label>36.</label><mixed-citation>36. Dowell N. Analyzing Language and Discourse With Coh-Metrix. Workshop Presented at 2 nd Learning Analytics Summer Institutes (LASI 2014) / N. Dowell, Z. Cai &amp; A.C. Graesser. Cambridge (MA), 2014. 84 p. Electronic text data. Mode of access: https://drive.google.com/file/d/0B-xloTsxGxlGcEw1RmNGTUtnSnc/edit (дата обращения:25.04.2017).</mixed-citation></ref><ref id="B37"><label>37.</label><mixed-citation>37. Graesser A.C., McNamara D.S., Louwerse M.M. What do readers need to learn in order to process coherence relations in narrative and expository text. In A.P. Sweet and C.E. Snow (Eds.), Rethinking reading comprehension: New York: Guilford Publications, 2003. Pp. 82-98.</mixed-citation></ref><ref id="B38"><label>38.</label><mixed-citation>38. Coltheart. The MRC Psycholinguistic Database. Quarterly Journal of Experimental Psychology. 1981. 33A. Pp. 497-505.</mixed-citation></ref><ref id="B39"><label>39.</label><mixed-citation>39. MonkeyLearn [Электронный ресурс]. - Режим доступа: https://monkeylearn.com/topic-analysis (дата обращения: 25.04.2017).</mixed-citation></ref></ref-list></back></article>
