Коллекция песен из индийского кинематографа DataSet: различия между версиями

Версия от 12:19, 14 апреля 2026

Описание модели	Коллекция песен из индийского кинематографа
Область знаний	Информатика, Образование, Искусственный интеллект, Большие данные, Музыка, Медиа
Веб-страница - ссылка на модель
Видео запись
Разработчики	Pocrovskii Alexander
Среды и средства, в которых реализована модель	R, Большие данные
Диаграмма модели
Описание полей данных, которые модель порождает
Модель создана студентами?	Да

Общая информация

Авторы: Студент группы - Pokrovskii Alexander
Дата исследования: 14 апреля 2026
Источник: Kaggle Datasets
Платформа: Kaggle
Дата публикации: 23 апреля 2026 г.

Исходные данные

Файл: songs_db.csv (6 КB)
Структура: 101 строк (избирательных участков), 5 столбцов
Ссылка: https://www.kaggle.com/datasets/moonknightmarvel/dataset-of-songs-with-genreartistmovielanguage/data

Описание исследования

Исследование посвящено анализу структурированных музыкальных метаданных на примере датасета песен из индийских фильмов.

Цель

Выявить статистически значимые связи между метаданными песен (язык, исполнитель, фильм) и их эмоциональной категорией, а также построить и валидировать модель машинного обучения для прогнозирования эмоции песни на основе доступных признаков с точностью не ниже 75% (F1-macro).

Задачи

Выполнить предобработку: кодирование категориальных признаков (Artist, Movie, Language), балансировку данных (при необходимости), разделение на обучающую/тестовую выборки.
Выполнить предобработку: кодирование категориальных признаков (Artist, Movie, Language), балансировку данных (при необходимости), разделение на обучающую/тестовую выборки.
Построить и сравнить несколько моделей классификации (логистическая регрессия, Random Forest, XGBoost) с кросс-валидацией, оценить метрики качества (accuracy, precision, recall, F1-score).
Визуализировать результаты: матрицу ошибок, важность признаков, распределение предсказаний, а также сформировать интерпретируемые выводы о доминирующих факторах, влияющих на эмоциональную окраску песни.

Гипотеза

Эмоциональная категория песни (Emotion) статистически значимо зависит от комбинации языка исполнения и исполнителя: песни на телугу в исполнении артистов «первого эшелона» (например, Sid Sriram, Armaan Malik) с большей вероятностью относятся к категориям Love или Joy, тогда как треки второстепенных исполнителей или из менее популярных фильмов чаще маркируются как Sadness или Anticipation. При этом модель, обученная на признаках Language + Artist + Movie, покажет качество прогнозирования эмоции выше базового уровня (majority class baseline) не менее чем на 20 п.п. по метрике F1-macro.

@@ Строка 1: / Строка 1: @@
 {{Model
-|Description=Набор данных песен
+|Description=Коллекция песен из индийского кинематографа
 |Field_of_knowledge=Информатика, Образование, Искусственный интеллект, Большие данные, Музыка, Медиа
 |Inventor=Pocrovskii Alexander
@@ Строка 18: / Строка 18: @@
 * '''Структура:''' 101 строк (избирательных участков), 5 столбцов
 * '''Ссылка:''' https://www.kaggle.com/datasets/moonknightmarvel/dataset-of-songs-with-genreartistmovielanguage/data
+== Описание исследования ==
+Исследование посвящено анализу структурированных музыкальных метаданных на примере датасета песен из индийских фильмов.
+=== Цель ===
+Выявить статистически значимые связи между метаданными песен (язык, исполнитель, фильм) и их эмоциональной категорией, а также построить и валидировать модель машинного обучения для прогнозирования эмоции песни на основе доступных признаков с точностью не ниже 75% (F1-macro).
+=== Задачи ===
+# Выполнить предобработку: кодирование категориальных признаков (Artist, Movie, Language), балансировку данных (при необходимости), разделение на обучающую/тестовую выборки.
+# Выполнить предобработку: кодирование категориальных признаков (Artist, Movie, Language), балансировку данных (при необходимости), разделение на обучающую/тестовую выборки.
+# Построить и сравнить несколько моделей классификации (логистическая регрессия, Random Forest, XGBoost) с кросс-валидацией, оценить метрики качества (accuracy, precision, recall, F1-score).
+# Визуализировать результаты: матрицу ошибок, важность признаков, распределение предсказаний, а также сформировать интерпретируемые выводы о доминирующих факторах, влияющих на эмоциональную окраску песни.
+=== Гипотеза ===
+Эмоциональная категория песни (Emotion) статистически значимо зависит от комбинации языка исполнения и исполнителя: песни на телугу в исполнении артистов «первого эшелона» (например, Sid Sriram, Armaan Malik) с большей вероятностью относятся к категориям Love или Joy, тогда как треки второстепенных исполнителей или из менее популярных фильмов чаще маркируются как Sadness или Anticipation. При этом модель, обученная на признаках Language + Artist + Movie, покажет качество прогнозирования эмоции выше базового уровня (majority class baseline) не менее чем на 20 п.п. по метрике F1-macro.
 [[Категория:Работы ИНДОР-211]]
 [[Категория:BigDataWorks]]

Аноним

Поиск

Коллекция песен из индийского кинематографа DataSet: различия между версиями

Пространства имён

Ещё

Действия на странице

Версия от 12:19, 14 апреля 2026

Содержание

Общая информация

Исходные данные

Описание исследования

Цель

Задачи

Гипотеза

Навигация

Навигация

Вики-инструменты

Вики-инструменты

Аноним

Поиск

Коллекция песен из индийского кинематографа DataSet: различия между версиями

Версия от 12:19, 14 апреля 2026

Общая информация

Исходные данные

Описание исследования

Цель

Задачи

Гипотеза

Навигация

Вики-инструменты

Инструменты для страниц

Категории