Машинное обучение/Глоссарий

Материал из Поле цифровой дидактики
Версия от 19:12, 13 ноября 2025; Patarakin (обсуждение | вклад) (Новая страница: «Машинное обучение == Основные понятия == ; '''Машинное обучение (Machine Learning)''' : Раздел искусственного интеллекта, в котором компьютер обучается находить закономерности в данных без явного программирования правил. Модель учится на примерах и может делат...»)
(разн.) ← Предыдущая версия | Текущая версия (разн.) | Следующая версия → (разн.)

Машинное обучение

Основные понятия

Машинное обучение (Machine Learning)
Раздел искусственного интеллекта, в котором компьютер обучается находить закономерности в данных без явного программирования правил. Модель учится на примерах и может делать предсказания на новых данных.
Обучающая выборка (Training Set)
Набор примеров с известными ответами, на котором модель обучается. Например, 500 текстов с заранее определённой тематикой.
Тестовая выборка (Test Set)
Набор примеров, который используется для проверки качества обученной модели. Модель не видела эти примеры во время обучения.
Признак (Feature)
Отдельная характеристика объекта, которую использует модель. В анализе текстов признаки — это слова или их комбинации.
Пример: для статей Wikipedia признаками могут быть [math]\displaystyle{ f_1 = }[/math] "количество упоминаний 'алгоритм'", [math]\displaystyle{ f_2 = }[/math] "количество упоминаний 'нейронная сеть'".
Матрица "документ-термин" (Document-Term Matrix, DTM)
Таблица, где строки — документы (тексты, статьи), столбцы — слова (термины), значения — сколько раз каждое слово встречается в каждом документе.
Пример:
Документ/Слово "алгоритм" "граф" "сеть" "язык"
Статья 1 5 2 0 3
Статья 2 1 8 4 2
Статья 3 0 0 7 1
Тема (Topic)
Скрытая категория в наборе текстов, которая объединяет связанные слова. Например, в статьях по информатике тема "машинное обучение" объединяет слова: "нейронная сеть", "алгоритм", "данные", "модель".
Вероятностное распределение тем (Topic Distribution)
Для каждого документа вероятность его принадлежности к каждой теме. Сумма вероятностей равна 1.
Формула: [math]\displaystyle{ P(\text{тема}_i | \text{документ}) = \frac{\text{количество слов темы}_i}{\text{общее количество слов в документе}} }[/math]
Latent Dirichlet Allocation (LDA)
Статистический алгоритм, который автоматически находит скрытые темы в наборе документов. Предполагает, что каждый документ — это смесь тем, а каждая тема — это распределение слов.
Когерентность (Coherence)
Мера качества найденных тем. Высокая когерентность означает, что слова в каждой теме логически связаны и вместе образуют понятную тему.
Предобработка текста (Text Preprocessing)
Процесс подготовки текстов перед анализом: удаление пунктуации, перевод в нижний регистр, удаление стоп-слов, стемминг или лемматизация.
Стоп-слова (Stop Words)
Часто встречаемые слова, которые не несут информации: "и", "в", "что", "это", "является". Удаляются перед анализом.
Лемматизация (Lemmatization)
Приведение слова к его начальной форме (лемме). Например: "обучение", "обучаю", "обучал" → "обучать". Помогает объединить разные формы одного слова.
Оценка модели (Model Evaluation)
Измерение того, насколько хорошо модель работает. Для классификации используются метрики: точность (Accuracy), полнота (Recall), F-мера (F-score).