Машинное обучение/Глоссарий
Материал из Поле цифровой дидактики
Машинное обучение
Основные понятия
- Машинное обучение (Machine Learning)
- Раздел искусственного интеллекта, в котором компьютер обучается находить закономерности в данных без явного программирования правил. Модель учится на примерах и может делать предсказания на новых данных.
- Обучающая выборка (Training Set)
- Набор примеров с известными ответами, на котором модель обучается. Например, 500 текстов с заранее определённой тематикой.
- Тестовая выборка (Test Set)
- Набор примеров, который используется для проверки качества обученной модели. Модель не видела эти примеры во время обучения.
- Признак (Feature)
- Отдельная характеристика объекта, которую использует модель. В анализе текстов признаки — это слова или их комбинации.
- Пример: для статей Wikipedia признаками могут быть [math]\displaystyle{ f_1 = }[/math] "количество упоминаний 'алгоритм'", [math]\displaystyle{ f_2 = }[/math] "количество упоминаний 'нейронная сеть'".
- Матрица "документ-термин" (Document-Term Matrix, DTM)
- Таблица, где строки — документы (тексты, статьи), столбцы — слова (термины), значения — сколько раз каждое слово встречается в каждом документе.
- Пример:
Документ/Слово "алгоритм" "граф" "сеть" "язык" Статья 1 5 2 0 3 Статья 2 1 8 4 2 Статья 3 0 0 7 1
- Тема (Topic)
- Скрытая категория в наборе текстов, которая объединяет связанные слова. Например, в статьях по информатике тема "машинное обучение" объединяет слова: "нейронная сеть", "алгоритм", "данные", "модель".
- Вероятностное распределение тем (Topic Distribution)
- Для каждого документа вероятность его принадлежности к каждой теме. Сумма вероятностей равна 1.
- Формула: [math]\displaystyle{ P(\text{тема}_i | \text{документ}) = \frac{\text{количество слов темы}_i}{\text{общее количество слов в документе}} }[/math]
- Latent Dirichlet Allocation (LDA)
- Статистический алгоритм, который автоматически находит скрытые темы в наборе документов. Предполагает, что каждый документ — это смесь тем, а каждая тема — это распределение слов.
- Когерентность (Coherence)
- Мера качества найденных тем. Высокая когерентность означает, что слова в каждой теме логически связаны и вместе образуют понятную тему.
- Предобработка текста (Text Preprocessing)
- Процесс подготовки текстов перед анализом: удаление пунктуации, перевод в нижний регистр, удаление стоп-слов, стемминг или лемматизация.
- Стоп-слова (Stop Words)
- Часто встречаемые слова, которые не несут информации: "и", "в", "что", "это", "является". Удаляются перед анализом.
- Лемматизация (Lemmatization)
- Приведение слова к его начальной форме (лемме). Например: "обучение", "обучаю", "обучал" → "обучать". Помогает объединить разные формы одного слова.
- Оценка модели (Model Evaluation)
- Измерение того, насколько хорошо модель работает. Для классификации используются метрики: точность (Accuracy), полнота (Recall), F-мера (F-score).
