Программирование и лингвистические данные (syllabus): различия между версиями

Материал из Поле цифровой дидактики
Нет описания правки
Нет описания правки
Строка 44: Строка 44:
; Статистический анализ и визуализация текстовых данных
; Статистический анализ и визуализация текстовых данных
Частотный анализ слов и n-грамм. Статистические метрики в анализе текста: TF-IDF, взаимная информация, коэффициенты ассоциации. Анализ коллокаций и совместной встречаемости слов. Методы визуализации текстовых данных: облака слов, графики частотности, тепловые карты. Сетевой анализ текстов и построение графов слов. Сравнительный анализ текстовых корпусов. Статистические тесты для текстовых данных
Частотный анализ слов и n-грамм. Статистические метрики в анализе текста: TF-IDF, взаимная информация, коэффициенты ассоциации. Анализ коллокаций и совместной встречаемости слов. Методы визуализации текстовых данных: облака слов, графики частотности, тепловые карты. Сетевой анализ текстов и построение графов слов. Сравнительный анализ текстовых корпусов. Статистические тесты для текстовых данных
|Environment=R, OpenRefine, VOYANT Tools, Vosview
|Environment=R, OpenRefine, VOYANT Tools, VOSviewer
|Book=APIs for social scientists: A collaborative review, Text Mining with R: A Tidy Approach
|Book=APIs for social scientists: A collaborative review, Text Mining with R: A Tidy Approach
}}
}}

Версия от 18:52, 9 февраля 2026



Планируемые результаты обучения (Знать, Уметь, Владеть) Цель курса – формирование у студентов магистерской программы "Информатика и английский язык" системных знаний и практических навыков в области современных методов информационного анализа текстовых данных с использованием открытых программных решений.
Задачи курса
  • Освоение теоретических основ и методологии информационного анализа текста в, включая понимание принципов обработки естественного языка, статистического анализа текстовых корпусов.
  • Развитие практических навыков работы с открытыми программными инструментами, особенно средой R и специализированными пакетами для текстовой аналитики (tidytext, quanteda, tm), а также освоение техник получения текстовых данных через MediaWiki API и другие открытые источники.
  • Формирование компетенций интеграции количественных и качественных методов анализа для решения исследовательских.

В результате изучения дисциплины студент должен:

знать
  1. Теоретические основы информационного анализа текста
  2. Современные методы обработки естественного языка и компьютерной лингвистики
  3. Принципы работы с MediaWiki API и другими источниками текстовых данных
  4. Основы статистической обработки текстовых корпусов в среде R
уметь
  1. Проводить предобработку и нормализацию текстовых данных (токенизация, стемминг, лемматизация)
  2. Использовать пакеты R для текстовой аналитики (tidytext, quanteda, tm, stringr)
  3. Получать и обрабатывать текстовые данные через MediaWiki API
  4. Применять методы анализа тональности и настроений в текстах
  5. Проводить психолингвистический анализ текстовых данных
  6. Визуализировать результаты анализа текста (облака слов, графики частотности, сети).
владеть
  1. Навыками программирования в среде R для решения задач текстовой аналитики
  2. Методиками интегрированного анализа больших текстовых корпусов
  3. Инструментами веб-аналитики текста и онлайн-сервисами
Содержание разделов курса -
Теоретические основы информационного анализа текста
Введение в психолингвистические основы анализа текста.
Современные подходы к компьютерной обработке естественного языка.
Связь между лингвистикой и информационным анализом текста.
Основные направления текстовой аналитики: анализ тональности, тематическое моделирование, анализ стиля. : :Этические аспекты анализа текстовых данных.
Сравнительный анализ различных подходов к обработке текста
Работа с примерами психолингвистического анализа
Обзор современных исследований в области текстовой аналитики
Основы работы в среде R для анализа текста
Установка и настройка среды R и RStudio. Основы синтаксиса R и принципы tidy data.
Введение в экосистему tidyverse для анализа данных.
Специализированные пакеты для работы с текстом: установка и первое знакомство с tidytext, quanteda, tm.
Основные структуры данных для хранения текста в R.
Импорт и экспорт текстовых данных различных форматов.
Предобработка и подготовка текстовых данных
Этапы предобработки текстовых данных. Токенизация: разбиение текста на слова, предложения, n-граммы. : Нормализация текста: приведение к нижнему регистру, удаление пунктуации и специальных символов.
Работа со стоп-словами для русского и английского языков. Стемминг и лемматизация: принципы и инструменты. Создание корпусов и документно-терминных матриц. Обработка больших текстовых массивов.
Получение текстовых данных через MediaWiki API
Введение в MediaWiki API: структура, возможности, ограничения. Основные методы получения содержимого страниц. Работа с различными форматами данных: wikitext, HTML, plain text. Использование пакетов httr и jsonlite для HTTP-запросов в R. Создание функций для автоматического извлечения текстов из Wikipedia. Обработка метаданных и структурированной информации.
Статистический анализ и визуализация текстовых данных

Частотный анализ слов и n-грамм. Статистические метрики в анализе текста: TF-IDF, взаимная информация, коэффициенты ассоциации. Анализ коллокаций и совместной встречаемости слов. Методы визуализации текстовых данных: облака слов, графики частотности, тепловые карты. Сетевой анализ текстов и построение графов слов. Сравнительный анализ текстовых корпусов. Статистические тесты для текстовых данных

Видео запись
Среды и средства, которые поддерживают учебный курс R, OpenRefine, VOYANT Tools, VOSviewer
Книги, на которых основывается учебный курс APIs for social scientists: A collaborative review, Text Mining with R: A Tidy Approach

Лингвистические данные и информатика

Современные подходы к компьютерной обработке естественного языка. Основные направления текстовой аналитики: анализ тональности, тематическое моделирование, анализ стиля.

Программирование на R для анализа лингвистических данных

Основы работы в среде R для анализа текста

  1. Установка и настройка среды R и RStudio.
  2. Основы синтаксиса R и принципы tidy data.
  3. Введение в экосистему tidyverse для анализа данных.
  4. Специализированные пакеты для работы с текстом: установка и первое знакомство с tidytext, quanteda, tm.
  5. Основные структуры данных для хранения текста в R.
  6. Импорт и экспорт текстовых данных различных форматов.


 Description
RR — язык программирования для статистической обработки данных и работы с графикой, а также свободная программная среда вычислений с открытым исходным кодом в рамках проекта GNU. Используется для обработки, анализа и визуализации данных
RStudioсвободная среда разработки программного обеспечения с открытым исходным кодом для языка программирования R, который предназначен для статистической обработки данных и работы с графикой.

Справочные материалы по R

 Description
APIs for social scientists: A collaborative reviewВ книге представлено множество API социальных сетей и основы их использования. В статье по этой книге собраны примеры API и особенности работы с ними. Код в книге - R
Big Data with RExploring, Visualizing, and Modeling Big Data with R
  • В образовании имеется огромное количество данных — от записей о студентах и наблюдений преподавателей до результатов тестов. Современные технологии, такие как распознавание лиц и биометрические сигналы, расширяют доступ к визуальной и аудиоинформации о студентах. Мультимодальная аналитика в образовательном тестировании и психометрике позволяет точнее оценивать знания учащихся, одновременно отслеживая их прогресс с помощью аналитики обучения. Анализ логов и времени реакции помогает понять уровень вовлеченности студентов, выявить списывание и наличие предварительных знаний по тестовым заданиям.
Learning analytics methods and tutorials: A practical guide using RМетоды учебной аналитики с использованием языка R - открытое руководство с многочисленными примерами и ссылками на образовательные датасеты
R for Data Science
Text Mining with RКнига даёт завершённую картину современных аналитических подходов к тексту, систематизируя инструменты R и методику работы с данными на всех этапах анализа.

Лингвистические корпуса и методы их разметки

Предобработка и подготовка текстовых данных

  1. Этапы предобработки текстовых данных.
  2. Токенизация: разбиение текста на слова, предложения, n-граммы.
  3. Нормализация текста: приведение к нижнему регистру, удаление пунктуации и специальных символов.
  4. Работа со стоп-словами для русского и английского языков.
  5. Стемминг и лемматизация: принципы и инструменты.
  6. Создание корпусов и терм-документые матрицы.
  7. Обработка больших текстовых массивов.

Работа с API

Получение текстовых данных через MediaWiki API

  1. Введение в MediaWiki API: структура, возможности, ограничения.
  2. Основные методы получения содержимого страниц.
  3. Работа с различными форматами данных: wikitext, HTML, plain text.
  4. Использование пакетов httr и jsonlite для HTTP-запросов в R.
  5. Создание функций для автоматического извлечения текстов из Wikipedia.
  6. Обработка метаданных и структурированной информации.


Примеры уроков с использованием MediaWiki API

Данные из Википедии

Урок по анализу данных с использованием методов машинного обучения

Данные из Digida

Статистический анализ и визуализация лингвистических данных

  1. Частотный анализ слов и n-грамм.
  2. Статистические метрики в анализе текста: TF-IDF, взаимная информация, коэффициенты ассоциации.
  3. Анализ коллокаций и совместной встречаемости слов.
  4. Методы визуализации текстовых данных: облака слов, графики частотности, тепловые карты.
  5. Сетевой анализ текстов и построение графов слов.
  6. Сравнительный анализ текстовых корпусов.
  7. Статистические тесты для текстовых данных

Психолингвистические методы анализа и анализ тональности

  1. Психолингвистические подходы к анализу текста: выявление личностных характеристик, эмоциональных состояний, психического напряжения.
  2. Анализ тональности текста и настроений: теоретические основы и практические методы.
  3. Словарные методы и машинное обучение в анализе тональности.
  4. Выявление неискренности и психоэмоционального напряжения в тексте.
  5. Анализ стилистических и грамматических особенностей как индикаторов психологических характеристик.
  6. Интеграция количественных и качественных методов анализа.

Автоматизация анализа

Интеграция R, Lua, MediaWiki API

Самостоятельные индивидуальные или парные работы студентов

В категории - Категория:CompLing Works

  1. API Sandbox Климова
  2. LuaLearning модули Михайлова Софья
  3. R-script Егоров
  4. R-script Карпов
  5. R-script Климова
  6. R-script Стулин
  7. R-script Хадижа
  8. R-script анализ датасета Жильцов Даниил
  9. R-script анализ датасета Хадижа
  10. R-скрипт Петрова Ульяна Павловна
  11. R-скрипт анализ Шишкова Дарья
  12. R-скрипт анализ датасета Ключникова Дарья
  13. R-скрипт анализа Конухова Анастасия
  14. Voyant Tools Егоров Виталий
  15. Voyant Tools Жильцов Даниил
  16. Voyant Tools Карпов Семён
  17. Voyant Tools Климова
  18. Voyant Tools Ключникова Дарья
  19. Voyant Tools Конухова Анастасия
  20. Voyant Tools Михайлова София
  21. Voyant Tools Петрова Ульяна Павловна
  22. Voyant Tools Стулин
  23. Voyant Tools Хадижа
  24. Voyant Tools Шишкова Дарья
  25. Анализ датасета с помощью R-скрипта Михайлова Софья
  26. Запрос в Песочницу API Егоров Виталий
  27. Запрос в Песочницу API Жильцов Даниил
  28. Запрос в Песочницу API Ключникова Дарья
  29. Запрос в Песочницу API Михайлова Софья
  30. Запрос в Песочницу API Стулин
  31. Запрос в Песочницу API Хадижа
  32. Запрос в песочницу API Шишкова Дарья
  33. Запрос в песочницу Карпов
  34. Описательная статистика R Карпов
  35. Описательная статистика R Климова
  36. Описательная статистика R Петрова Ульяна Павловна
  37. Описательная статистика R Стулин
  38. Очистка и разметка OpenRefine Хадижа
  39. Очистка и разметка в OpenRefine Ключникова Дарья
  40. Песочница API Конухова Анастасия
  41. Статистическое сравнение Жильцов Даниил
  42. Статистическое сравнение Стулин
  43. Статистическое сравнение Хадижа
  44. Статистическое сравнение страниц
  45. Статистическое сравнение страниц Егоров Виталий
  46. Статистическое сравнение страниц Петрова Ульяна Павловна
  47. Статистическое сравнение страниц про роботов
  48. Статистическое сравнение текстов Шишкова Дарья