Коллекция песен из индийского кинематографа DataSet: различия между версиями

Версия от 12:37, 14 апреля 2026

Описание модели	Коллекция песен из индийского кинематографа
Область знаний	Информатика, Образование, Искусственный интеллект, Большие данные, Музыка, Медиа
Веб-страница - ссылка на модель	https://www.kaggle.com/datasets/moonknightmarvel/dataset-of-songs-with-genreartistmovielanguage/data
Видео запись
Разработчики	Pocrovskii Alexander
Среды и средства, в которых реализована модель	R, Большие данные
Диаграмма модели
Описание полей данных, которые модель порождает
Модель создана студентами?	Да

Общая информация

Авторы: Студент группы - Pokrovskii Alexander
Дата исследования: 14 апреля 2026
Источник: Kaggle Datasets
Платформа: Kaggle
Дата публикации: 23 апреля 2026 г.

Исходные данные

Файл: songs_db.csv (6 КB)
Структура: 101 строк (избирательных участков), 5 столбцов
Ссылка: https://www.kaggle.com/datasets/moonknightmarvel/dataset-of-songs-with-genreartistmovielanguage/data

Описание исследования

Исследование посвящено анализу структурированных музыкальных метаданных на примере датасета песен из индийских фильмов.

Цель

Выявить статистически значимые связи между метаданными песен (язык, исполнитель, фильм) и их эмоциональной категорией, а также построить и валидировать модель машинного обучения для прогнозирования эмоции песни на основе доступных признаков с точностью не ниже 75% (F1-macro).

Задачи

Выполнить предобработку: кодирование категориальных признаков (Artist, Movie, Language), балансировку данных (при необходимости), разделение на обучающую/тестовую выборки.
Выполнить предобработку: кодирование категориальных признаков (Artist, Movie, Language), балансировку данных (при необходимости), разделение на обучающую/тестовую выборки.
Построить и сравнить несколько моделей классификации (логистическая регрессия, Random Forest, XGBoost) с кросс-валидацией, оценить метрики качества (accuracy, precision, recall, F1-score).
Визуализировать результаты: матрицу ошибок, важность признаков, распределение предсказаний, а также сформировать интерпретируемые выводы о доминирующих факторах, влияющих на эмоциональную окраску песни.

Гипотеза

Эмоциональная категория песни (Emotion) статистически значимо зависит от комбинации языка исполнения и исполнителя: песни на телугу в исполнении артистов «первого эшелона» (например, Sid Sriram, Armaan Malik) с большей вероятностью относятся к категориям Love или Joy, тогда как треки второстепенных исполнителей или из менее популярных фильмов чаще маркируются как Sadness или Anticipation. При этом модель, обученная на признаках Language + Artist + Movie, покажет качество прогнозирования эмоции выше базового уровня (majority class baseline) не менее чем на 20 п.п. по метрике F1-macro.

@@ Строка 2: / Строка 2: @@
 |Description=Коллекция песен из индийского кинематографа
 |Field_of_knowledge=Информатика, Образование, Искусственный интеллект, Большие данные, Музыка, Медиа
+|Website=https://www.kaggle.com/datasets/moonknightmarvel/dataset-of-songs-with-genreartistmovielanguage/data
 |Inventor=Pocrovskii Alexander
 |Environment=R, Большие данные
 |Student-created=Да
 }}
 == Общая информация ==
 * '''Авторы:''' Студент группы [[Категория:ИНДОР-211]] -   [[Участник:Pokrovskii Alexander|Pokrovskii Alexander]]

Аноним

Поиск

Коллекция песен из индийского кинематографа DataSet: различия между версиями

Пространства имён

Ещё

Действия на странице

Версия от 12:37, 14 апреля 2026

Содержание

Общая информация

Исходные данные

Описание исследования

Цель

Задачи

Гипотеза

Навигация

Навигация

Вики-инструменты

Вики-инструменты

Аноним

Поиск

Коллекция песен из индийского кинематографа DataSet: различия между версиями

Версия от 12:37, 14 апреля 2026

Общая информация

Исходные данные

Описание исследования

Цель

Задачи

Гипотеза

Навигация

Вики-инструменты

Инструменты для страниц

Категории