GitLab example

Материал из Поле цифровой дидактики
Описание датасета df_rich_team — это анонимизированный лог коммитов в командных проектах: каждая строка описывает одно действие участника в конкретном проекте, с временем, содержанием и размером изменений. Такой датасет хорошо подходит для изучения структуры команды, динамики участия и паттернов совместной работы.
Описание полей
  • author_anon
  • project_id
  • commit_time
  • commit_message
  • additions
  • deletions
  • total_changes
Форматы данных CSV
Область знаний
Веб-сайт - ссылка на датасет https://raw.githubusercontent.com/patarakin/stat-data/1118a56e7544839d7df91a60df2a25ba577c4dd4/datasets/csv/df rich team.csv
Примеры использования датасета
Год создания датасета


Типичная структура
  • author_anon — анонимный идентификатор автора коммита (например, A0001, A0002). Это псевдонимы, полученные из author_name
  • project_id — идентификатор проекта (GitLab ObjectId, например "6457b3...")
  • commit_time — время коммита в формате POSIXct (dttm), т.е. точная временная метка действия участника.
  • ​commit_message — текстовое сообщение коммита; может включать как технические описания («fix bug», «add tests»), так и более «социальные» паттерны (упоминание задач, имён, комментарии).
  • additions — количество добавленных строк кода (грубая оценка объёма вклада в этом коммите).
  • deletions — количество удалённых строк.
  • total_changes — сумма additions + deletions (полный объём изменённых строк).