.Инструментарий для текстового анализа
| Описание | Источник: база Digida
1) Общая логика (единый аналитический цикл) Во всех трёх направлениях инструменты выстраиваются в цепочку: получение данных → предобработка → расчёты/модели → визуализация → интерпретация (разведочный/исследовательский анализ данных). Практически это означает: сначала выбирают формат данных (CSV/JSON, тексты корпусов), затем приводят данные к “чистому” виду, после чего применяют методы (частоты, метрики, модели) и подбирают визуальные формы для объяснения результата аудитории. 2) Инструментарий текстового анализа (Text Mining) Типовые задачи: частотный анализ, выделение ключевых слов, анализ тональности, тематическое моделирование, анализ стиля/психолингвистических маркеров. Этапы и методы (что поддерживают инструменты): Предобработка текста: токенизация, стемминг, лемматизация, удаление стоп-слов, нормализация. Статистические представления: документно-терминная матрица, n-граммы; метрики значимости терминов (например, TF‑IDF). Анализ тональности: выявление эмоционально окрашенной лексики и оценок автора/мнений по отношению к объектам. Ключевые средства (по Digida): VOYANT Tools (браузерный сервис) — быстрый визуальный анализ корпусов: облака слов, частотные графики, коллокации, KWIC (контексты употребления). Для представления результатов часто подключают инструменты визуализации (например, RAWGraphs) и строят графики/сети слов и тд, как мы делали на занятиях 3) Инструментарий сетевого анализа Сетевой анализ — методология исследования связей между акторами (узлами): людьми, документами, понятиями, событиями и т.д. Базовые представления данных: Граф (узлы + рёбра) Матрица смежности как формальная запись структуры взаимодействий и основа для вычисления метрик. Основные метрики (что обычно считают): число узлов/связей, плотность, центральности и др. — как показатели структуры и интенсивности взаимодействий. Ключевые средства (по Digida): NetLogo как среды расчёта сетевых показателей и моделирования. VOSviewer — построение и визуализация библиометрических сетей (соавторство, совместная встречаемость терминов, цитирования и т.п.). Graphviz — автоматическая визуализация графов по текстовому описанию (язык DOT; утилита dot и др.), удобна для воспроизводимых схем и сетей. VUE — среда “визуального понимания”, поддерживает импорт CSV и создание карт/схем, применяется как один из «макроскопов» для работы со сложностью. 4) Инструментарий визуальной аналитики Назначение: выявлять закономерности, аномалии и структуры данных в режиме EDA и представлять выводы в понятной форме (графики, диаграммы, интерактивные панели). Ключевые средства (по Digida): DataLens — инструмент визуализации (в Digida указан как близкий к Power BI / Tableau по назначению). |
|---|---|
| Область знаний | |
| Авторы | |
| Поясняющее видео | |
| Близкие понятия | |
| Среды и средства для освоения понятия |
