.Инструментарий для текстового анализа: различия между версиями

Материал из Поле цифровой дидактики
Новая страница: «{{Понятие |Description=Источник: база Digida 1) Общая логика (единый аналитический цикл) Во всех трёх направлениях инструменты выстраиваются в цепочку: получение данных → предобработка → расчёты/модели → визуализация → интерпретация (разведочный/исследовате...»
 
Нет описания правки
 
Строка 1: Строка 1:
{{Понятие
{{Понятие
|Description=Источник: база Digida
|Description='''Источник: база Digida'''
1) Общая логика (единый аналитический цикл)
1) '''Общая логика''' (единый аналитический цикл)
Во всех трёх направлениях инструменты выстраиваются в цепочку: получение данных → предобработка → расчёты/модели → визуализация → интерпретация (разведочный/исследовательский анализ данных).  
Во всех трёх направлениях инструменты выстраиваются в цепочку: получение данных → предобработка → расчёты/модели → визуализация → интерпретация (разведочный/исследовательский анализ данных).  
Практически это означает: сначала выбирают формат данных (CSV/JSON, тексты корпусов), затем приводят данные к “чистому” виду, после чего применяют методы (частоты, метрики, модели) и подбирают визуальные формы для объяснения результата аудитории.  
Практически это означает: сначала выбирают формат данных (CSV/JSON, тексты корпусов), затем приводят данные к “чистому” виду, после чего применяют методы (частоты, метрики, модели) и подбирают визуальные формы для объяснения результата аудитории.  
2) Инструментарий текстового анализа (Text Mining)
2) '''Инструментарий текстового анализа''' (Text Mining)
Типовые задачи: частотный анализ, выделение ключевых слов, анализ тональности, тематическое моделирование, анализ стиля/психолингвистических маркеров.  
Типовые задачи: частотный анализ, выделение ключевых слов, анализ тональности, тематическое моделирование, анализ стиля/психолингвистических маркеров.  
Этапы и методы (что поддерживают инструменты):
Этапы и методы (что поддерживают инструменты):
Строка 13: Строка 13:
VOYANT Tools (браузерный сервис) — быстрый визуальный анализ корпусов: облака слов, частотные графики, коллокации, KWIC (контексты употребления).  
VOYANT Tools (браузерный сервис) — быстрый визуальный анализ корпусов: облака слов, частотные графики, коллокации, KWIC (контексты употребления).  
Для представления результатов часто подключают инструменты визуализации (например, RAWGraphs) и строят графики/сети слов и тд, как мы делали на занятиях
Для представления результатов часто подключают инструменты визуализации (например, RAWGraphs) и строят графики/сети слов и тд, как мы делали на занятиях
3) Инструментарий сетевого анализа
3) '''Инструментарий сетевого анализа'''
Сетевой анализ — методология исследования связей между акторами (узлами): людьми, документами, понятиями, событиями и т.д.  
Сетевой анализ — методология исследования связей между акторами (узлами): людьми, документами, понятиями, событиями и т.д.  
Базовые представления данных:
Базовые представления данных:

Текущая версия от 21:01, 22 января 2026


Описание Источник: база Digida

1) Общая логика (единый аналитический цикл) Во всех трёх направлениях инструменты выстраиваются в цепочку: получение данных → предобработка → расчёты/модели → визуализация → интерпретация (разведочный/исследовательский анализ данных). Практически это означает: сначала выбирают формат данных (CSV/JSON, тексты корпусов), затем приводят данные к “чистому” виду, после чего применяют методы (частоты, метрики, модели) и подбирают визуальные формы для объяснения результата аудитории. 2) Инструментарий текстового анализа (Text Mining) Типовые задачи: частотный анализ, выделение ключевых слов, анализ тональности, тематическое моделирование, анализ стиля/психолингвистических маркеров. Этапы и методы (что поддерживают инструменты): Предобработка текста: токенизация, стемминг, лемматизация, удаление стоп-слов, нормализация. Статистические представления: документно-терминная матрица, n-граммы; метрики значимости терминов (например, TF‑IDF). Анализ тональности: выявление эмоционально окрашенной лексики и оценок автора/мнений по отношению к объектам. Ключевые средства (по Digida): VOYANT Tools (браузерный сервис) — быстрый визуальный анализ корпусов: облака слов, частотные графики, коллокации, KWIC (контексты употребления). Для представления результатов часто подключают инструменты визуализации (например, RAWGraphs) и строят графики/сети слов и тд, как мы делали на занятиях 3) Инструментарий сетевого анализа Сетевой анализ — методология исследования связей между акторами (узлами): людьми, документами, понятиями, событиями и т.д. Базовые представления данных: Граф (узлы + рёбра) Матрица смежности как формальная запись структуры взаимодействий и основа для вычисления метрик. Основные метрики (что обычно считают): число узлов/связей, плотность, центральности и др. — как показатели структуры и интенсивности взаимодействий. Ключевые средства (по Digida): NetLogo как среды расчёта сетевых показателей и моделирования. VOSviewer — построение и визуализация библиометрических сетей (соавторство, совместная встречаемость терминов, цитирования и т.п.). Graphviz — автоматическая визуализация графов по текстовому описанию (язык DOT; утилита dot и др.), удобна для воспроизводимых схем и сетей. VUE — среда “визуального понимания”, поддерживает импорт CSV и создание карт/схем, применяется как один из «макроскопов» для работы со сложностью. 4) Инструментарий визуальной аналитики Назначение: выявлять закономерности, аномалии и структуры данных в режиме EDA и представлять выводы в понятной форме (графики, диаграммы, интерактивные панели). Ключевые средства (по Digida): DataLens — инструмент визуализации (в Digida указан как близкий к Power BI / Tableau по назначению).

Область знаний
Авторы
Поясняющее видео
Близкие понятия
Среды и средства для освоения понятия