.Инструментарий для текстового анализа: различия между версиями
Новая страница: «{{Понятие |Description=Источник: база Digida 1) Общая логика (единый аналитический цикл) Во всех трёх направлениях инструменты выстраиваются в цепочку: получение данных → предобработка → расчёты/модели → визуализация → интерпретация (разведочный/исследовате...» |
Нет описания правки |
||
| Строка 1: | Строка 1: | ||
{{Понятие | {{Понятие | ||
|Description=Источник: база Digida | |Description='''Источник: база Digida''' | ||
1) Общая логика (единый аналитический цикл) | 1) '''Общая логика''' (единый аналитический цикл) | ||
Во всех трёх направлениях инструменты выстраиваются в цепочку: получение данных → предобработка → расчёты/модели → визуализация → интерпретация (разведочный/исследовательский анализ данных). | Во всех трёх направлениях инструменты выстраиваются в цепочку: получение данных → предобработка → расчёты/модели → визуализация → интерпретация (разведочный/исследовательский анализ данных). | ||
Практически это означает: сначала выбирают формат данных (CSV/JSON, тексты корпусов), затем приводят данные к “чистому” виду, после чего применяют методы (частоты, метрики, модели) и подбирают визуальные формы для объяснения результата аудитории. | Практически это означает: сначала выбирают формат данных (CSV/JSON, тексты корпусов), затем приводят данные к “чистому” виду, после чего применяют методы (частоты, метрики, модели) и подбирают визуальные формы для объяснения результата аудитории. | ||
2) Инструментарий текстового анализа (Text Mining) | 2) '''Инструментарий текстового анализа''' (Text Mining) | ||
Типовые задачи: частотный анализ, выделение ключевых слов, анализ тональности, тематическое моделирование, анализ стиля/психолингвистических маркеров. | Типовые задачи: частотный анализ, выделение ключевых слов, анализ тональности, тематическое моделирование, анализ стиля/психолингвистических маркеров. | ||
Этапы и методы (что поддерживают инструменты): | Этапы и методы (что поддерживают инструменты): | ||
| Строка 13: | Строка 13: | ||
VOYANT Tools (браузерный сервис) — быстрый визуальный анализ корпусов: облака слов, частотные графики, коллокации, KWIC (контексты употребления). | VOYANT Tools (браузерный сервис) — быстрый визуальный анализ корпусов: облака слов, частотные графики, коллокации, KWIC (контексты употребления). | ||
Для представления результатов часто подключают инструменты визуализации (например, RAWGraphs) и строят графики/сети слов и тд, как мы делали на занятиях | Для представления результатов часто подключают инструменты визуализации (например, RAWGraphs) и строят графики/сети слов и тд, как мы делали на занятиях | ||
3) Инструментарий сетевого анализа | 3) '''Инструментарий сетевого анализа''' | ||
Сетевой анализ — методология исследования связей между акторами (узлами): людьми, документами, понятиями, событиями и т.д. | Сетевой анализ — методология исследования связей между акторами (узлами): людьми, документами, понятиями, событиями и т.д. | ||
Базовые представления данных: | Базовые представления данных: | ||
Текущая версия от 21:01, 22 января 2026
| Описание | Источник: база Digida
1) Общая логика (единый аналитический цикл) Во всех трёх направлениях инструменты выстраиваются в цепочку: получение данных → предобработка → расчёты/модели → визуализация → интерпретация (разведочный/исследовательский анализ данных). Практически это означает: сначала выбирают формат данных (CSV/JSON, тексты корпусов), затем приводят данные к “чистому” виду, после чего применяют методы (частоты, метрики, модели) и подбирают визуальные формы для объяснения результата аудитории. 2) Инструментарий текстового анализа (Text Mining) Типовые задачи: частотный анализ, выделение ключевых слов, анализ тональности, тематическое моделирование, анализ стиля/психолингвистических маркеров. Этапы и методы (что поддерживают инструменты): Предобработка текста: токенизация, стемминг, лемматизация, удаление стоп-слов, нормализация. Статистические представления: документно-терминная матрица, n-граммы; метрики значимости терминов (например, TF‑IDF). Анализ тональности: выявление эмоционально окрашенной лексики и оценок автора/мнений по отношению к объектам. Ключевые средства (по Digida): VOYANT Tools (браузерный сервис) — быстрый визуальный анализ корпусов: облака слов, частотные графики, коллокации, KWIC (контексты употребления). Для представления результатов часто подключают инструменты визуализации (например, RAWGraphs) и строят графики/сети слов и тд, как мы делали на занятиях 3) Инструментарий сетевого анализа Сетевой анализ — методология исследования связей между акторами (узлами): людьми, документами, понятиями, событиями и т.д. Базовые представления данных: Граф (узлы + рёбра) Матрица смежности как формальная запись структуры взаимодействий и основа для вычисления метрик. Основные метрики (что обычно считают): число узлов/связей, плотность, центральности и др. — как показатели структуры и интенсивности взаимодействий. Ключевые средства (по Digida): NetLogo как среды расчёта сетевых показателей и моделирования. VOSviewer — построение и визуализация библиометрических сетей (соавторство, совместная встречаемость терминов, цитирования и т.п.). Graphviz — автоматическая визуализация графов по текстовому описанию (язык DOT; утилита dot и др.), удобна для воспроизводимых схем и сетей. VUE — среда “визуального понимания”, поддерживает импорт CSV и создание карт/схем, применяется как один из «макроскопов» для работы со сложностью. 4) Инструментарий визуальной аналитики Назначение: выявлять закономерности, аномалии и структуры данных в режиме EDA и представлять выводы в понятной форме (графики, диаграммы, интерактивные панели). Ключевые средства (по Digida): DataLens — инструмент визуализации (в Digida указан как близкий к Power BI / Tableau по назначению). |
|---|---|
| Область знаний | |
| Авторы | |
| Поясняющее видео | |
| Близкие понятия | |
| Среды и средства для освоения понятия |
