GitLab example: различия между версиями

Материал из Поле цифровой дидактики
Новая страница: «{{Dataset |Description=df_rich_team — это анонимизированный лог коммитов в командных проектах: каждая строка описывает одно действие участника в конкретном проекте, с временем, содержанием и размером изменений. Такой датасет хорошо подходит для изучения структуры к...»
 
Нет описания правки
Строка 11: Строка 11:
|Website=https://raw.githubusercontent.com/patarakin/stat-data/1118a56e7544839d7df91a60df2a25ba577c4dd4/datasets/csv/df_rich_team.csv
|Website=https://raw.githubusercontent.com/patarakin/stat-data/1118a56e7544839d7df91a60df2a25ba577c4dd4/datasets/csv/df_rich_team.csv
}}
}}
Типичная структура  
 
* author_anon — анонимный идентификатор автора коммита (например, A0001, A0002). Это псевдонимы, полученные из author_name через устойчивое отображение, без возможности восстановить реальные имена.
; Типичная структура  
* project_id — идентификатор проекта (GitLab ObjectId, например "6457b3..."), по сути метка «командного пространства», где взаимодействуют авторы.
* author_anon — анонимный идентификатор автора коммита (например, A0001, A0002). Это псевдонимы, полученные из author_name  
* project_id — идентификатор проекта (GitLab ObjectId, например "6457b3...")
* commit_time — время коммита в формате POSIXct (dttm), т.е. точная временная метка действия участника.
* commit_time — время коммита в формате POSIXct (dttm), т.е. точная временная метка действия участника.
*​commit_message — текстовое сообщение коммита; может включать как технические описания («fix bug», «add tests»), так и более «социальные» паттерны (упоминание задач, имён, комментарии).
* ​commit_message — текстовое сообщение коммита; может включать как технические описания («fix bug», «add tests»), так и более «социальные» паттерны (упоминание задач, имён, комментарии).
​* additions — количество добавленных строк кода (грубая оценка объёма вклада в этом коммите).
​* additions — количество добавленных строк кода (грубая оценка объёма вклада в этом коммите).
* deletions — количество удалённых строк.
* deletions — количество удалённых строк.
* total_changes — сумма additions + deletions (полный объём изменённых строк).
* total_changes — сумма additions + deletions (полный объём изменённых строк).

Версия от 19:02, 14 марта 2026

Описание датасета df_rich_team — это анонимизированный лог коммитов в командных проектах: каждая строка описывает одно действие участника в конкретном проекте, с временем, содержанием и размером изменений. Такой датасет хорошо подходит для изучения структуры команды, динамики участия и паттернов совместной работы.
Описание полей
  • author_anon
  • project_id
  • commit_time
  • commit_message
  • additions
  • deletions
  • total_changes
Форматы данных CSV
Область знаний
Веб-сайт - ссылка на датасет https://raw.githubusercontent.com/patarakin/stat-data/1118a56e7544839d7df91a60df2a25ba577c4dd4/datasets/csv/df rich team.csv
Примеры использования датасета
Год создания датасета


Типичная структура
  • author_anon — анонимный идентификатор автора коммита (например, A0001, A0002). Это псевдонимы, полученные из author_name
  • project_id — идентификатор проекта (GitLab ObjectId, например "6457b3...")
  • commit_time — время коммита в формате POSIXct (dttm), т.е. точная временная метка действия участника.
  • ​commit_message — текстовое сообщение коммита; может включать как технические описания («fix bug», «add tests»), так и более «социальные» паттерны (упоминание задач, имён, комментарии).

​* additions — количество добавленных строк кода (грубая оценка объёма вклада в этом коммите).

  • deletions — количество удалённых строк.
  • total_changes — сумма additions + deletions (полный объём изменённых строк).