Коллекция песен из индийского кинематографа DataSet: различия между версиями

Материал из Поле цифровой дидактики
м Pocrovskii Alexander переименовал страницу Набор данных песен в Коллекция песен из индийского кинематографа DataSet: Название с ошибкой
Нет описания правки
Строка 2: Строка 2:
|Description=Коллекция песен из индийского кинематографа
|Description=Коллекция песен из индийского кинематографа
|Field_of_knowledge=Информатика, Образование, Искусственный интеллект, Большие данные, Музыка, Медиа
|Field_of_knowledge=Информатика, Образование, Искусственный интеллект, Большие данные, Музыка, Медиа
|Website=https://www.kaggle.com/datasets/moonknightmarvel/dataset-of-songs-with-genreartistmovielanguage/data
|Inventor=Pocrovskii Alexander
|Inventor=Pocrovskii Alexander
|Environment=R, Большие данные
|Environment=R, Большие данные
|Student-created=Да
|Student-created=Да
}}
}}
== Общая информация ==
== Общая информация ==
* '''Авторы:''' Студент группы [[Категория:ИНДОР-211]] -  [[Участник:Pokrovskii Alexander|Pokrovskii Alexander]]
* '''Авторы:''' Студент группы [[Категория:ИНДОР-211]] -  [[Участник:Pokrovskii Alexander|Pokrovskii Alexander]]

Версия от 12:37, 14 апреля 2026


Описание модели Коллекция песен из индийского кинематографа
Область знаний Информатика, Образование, Искусственный интеллект, Большие данные, Музыка, Медиа
Веб-страница - ссылка на модель https://www.kaggle.com/datasets/moonknightmarvel/dataset-of-songs-with-genreartistmovielanguage/data
Видео запись
Разработчики Pocrovskii Alexander
Среды и средства, в которых реализована модель R, Большие данные
Диаграмма модели
Описание полей данных, которые модель порождает
Модель создана студентами? Да

Общая информация

  • Авторы: Студент группы - Pokrovskii Alexander
  • Дата исследования: 14 апреля 2026
  • Источник: Kaggle Datasets
  • Платформа: Kaggle
  • Дата публикации: 23 апреля 2026 г.

Исходные данные

Описание исследования

Исследование посвящено анализу структурированных музыкальных метаданных на примере датасета песен из индийских фильмов.

Цель

Выявить статистически значимые связи между метаданными песен (язык, исполнитель, фильм) и их эмоциональной категорией, а также построить и валидировать модель машинного обучения для прогнозирования эмоции песни на основе доступных признаков с точностью не ниже 75% (F1-macro).

Задачи

  1. Выполнить предобработку: кодирование категориальных признаков (Artist, Movie, Language), балансировку данных (при необходимости), разделение на обучающую/тестовую выборки.
  2. Выполнить предобработку: кодирование категориальных признаков (Artist, Movie, Language), балансировку данных (при необходимости), разделение на обучающую/тестовую выборки.
  3. Построить и сравнить несколько моделей классификации (логистическая регрессия, Random Forest, XGBoost) с кросс-валидацией, оценить метрики качества (accuracy, precision, recall, F1-score).
  4. Визуализировать результаты: матрицу ошибок, важность признаков, распределение предсказаний, а также сформировать интерпретируемые выводы о доминирующих факторах, влияющих на эмоциональную окраску песни.

Гипотеза

Эмоциональная категория песни (Emotion) статистически значимо зависит от комбинации языка исполнения и исполнителя: песни на телугу в исполнении артистов «первого эшелона» (например, Sid Sriram, Armaan Malik) с большей вероятностью относятся к категориям Love или Joy, тогда как треки второстепенных исполнителей или из менее популярных фильмов чаще маркируются как Sadness или Anticipation. При этом модель, обученная на признаках Language + Artist + Movie, покажет качество прогнозирования эмоции выше базового уровня (majority class baseline) не менее чем на 20 п.п. по метрике F1-macro.