Психологические школы России (датасет)

Материал из Поле цифровой дидактики
Описание датасета Публикации российских психологов в Lens
Описание полей
  1. Lens ID
  2. Title
  3. Date Published
  4. Publication Year
  5. Publication Type
  6. Source Title
  7. ISSNs
  8. Publisher
  9. Source Country
  10. Author/s
  11. Abstract
  12. Volume
  13. Issue Number
  14. Start Page
  15. End Page
  16. Fields of Study
  17. Keywords
  18. MeSH Terms
  19. Chemicals
  20. Funding
  21. Source URLs
  22. External URL
  23. PMID
  24. DOI
  25. Microsoft Academic ID
  26. PMCID
  27. Citing Patents Count
  28. References
  29. Citing Works Count
  30. Is Open Access
  31. Open Access License
  32. Open Access Colour
Форматы данных CSV
Область знаний Информатика, Психология
Веб-сайт - ссылка на датасет
Примеры использования датасета
Год создания датасета 2006

Социосемантическая структура публикаций российских психологов (Lens)

Исследовательский вопрос

Как связаны социальные параметры научного производства (организации: МГУ, МГПУ, РАН) и семантические характеристики публикаций (тип статьи, открытый доступ, тематика) с уровнем цитируемости?

Гипотеза

Публикации в формате journal article и с открытым доступом (Open Access) имеют более высокую цитируемость, формируя устойчивые социосемантические паттерны.

Теоретическая рамка

Социосемантическая система науки включает:

  • социальный уровень — авторы и организации
  • семантический уровень — темы, типы публикаций
  • механизм связи — цитирование

Цитирование выступает как ключевой механизм, связывающий производство знаний и их распространение.

---

Данные

Академия наук (цитируемость = 5)

Название Год Цитирования

Features of the Development of a Teenager's Subjectivity in Interaction with the Natural Environment in a Children's Educational and Health Camp 2021 5
Ретроспективный анализ посттравматического стресса в годы Великой Отечественной войны 2021 5
Воздействие алкоголя на сердечный ритм и оценку действий при решении моральных дилемм 2017 5
Study of Neurocognitive Processes in a Paradigm of Information Concealment 2021 5
Emotional Regulation in Individuals, Standing in Codependent Relationship 2021 5
Метод реляционно-ситуационного анализа текста в психологических исследованиях 2020 5

МГУ (публикации = 2018 год, Цитирования = 5)

Название Год Тип публикации Цитирования

К вопросу о нормативно-правовом регулировании организации деятельности психолого-медико-педагогических комиссий в контексте профилактики правонарушений несовершеннолетних 2018 journal article 5
Патохарактерологические особенности психически здоровых лиц, склонных к импульсивной агрессии 2018 journal article 5

МГПУ (5 фильтров одновременно)

Название Год Тип публикации Open Access Область Цитирования

Трансформация метафорических репрезентаций жизненного пути личности в период самоизоляции у взрослых 2020 journal article true Psychology 3
Prerequisites for Accepting the Digital Educational Environment in New Cultural and Historical Conditions 2021 journal article true Psychology 4
Психологические детерминанты возникновения внутриличностных противоречий студентов 2020 journal article true Psychology 1

Возможности анализа

Используя параметр |filters= можно:

  • отбирать публикации по годам
  • сравнивать школы по цитируемости
  • выделять только статьи (Publication Type=journal article)
  • анализировать публикации в открытом доступе
  • строить выборки для последующего анализа в R

Семантические запросы (SMW)

1. Датасеты по психологии

 FileFormatLaunch year
ABM Constructor2024
Adila
Airtable2015
Alexandra Valyaeva
Alina Ermakova
Alina Stenshina
AliyaSa
Anastasia Lugovaya
Anna Volynchikova
AnotnovVA207
Antisummit МГПУ 2024
AskerovaMary
BeregovaMS
Blown to Bits2008
BoboevaSN
Books (dataset)JSON
CSV
BudilovskiiAV
CherenkovIR
Communities of Practice1998
Cyberleninka
DavydovAE
Die Toten Engel
Dreytsers
E.v.menzul
EVSmolin777
EgorovSN
Egorovsn051
EkaterinaRodionovaIoe2025
FedyshinaSP
FreeMind
Gaines1938
GawainGabhann
Gee1949
Glazunova
InasovAA
Julia Sibirtseva
Kamyshnikovaej
Kate
Kiss Love
KornevaNS
Learning mechanic
Lens Psych Collab
LiAV
Literacy and Education2014
Maria Ledneva
MarkovNA
Marya Aks
Memex
Mindstorms1980
Mouse
… следующие результаты

Результат: список психологических датасетов


2. Все BigDataWorks

 Field of knowledge
Анализ активности персонажей вселенной Disney
Анализ активности пользователей Digida
Анализ наиболее посещаемых страниц портала
Анализ погоды за последнюю неделю
Анализ президентских выборов в России (2018)
Демографические данные России за 5 лет
Изучение изменения стоимости валют по данным ЦБ
Интерактивный дашборд динамики цен на недвижимость на основе Parquet и DuckDB
Коллекция песен из индийского кинематографа DataSetБольшие данные
Искусственный интеллект
Информатика
Образование
Музыка
Медиа
Лаборатории изучения командного творчества подростков в цифровых средах
Мировая сейсмическая активность за последние 30 дней
Погода за последние 7 дней
Психологические школы России (датасет)Информатика
Психология
Цифровые следы командности: сравнительный анализ Scratch-вики и студий

Результат: все проекты с данными


3. После 2010 года

 Field of knowledge
ABM ConstructorБольшие данные
Наука о сетях
Педагогика
Психология
Образование
Интернет вещей
Моделирование
ACRLИнформатика
Литература
APIs for social scientists: A collaborative reviewБольшие данные
Наука о сетях
Информатика
Образование
Adobe SparkИнформатика
Agent-Based and Individual-Based Modeling: A Practical IntroductionБиология
История
Медицина
Моделирование
AgentScript
Ai dungeon
AirtableБольшие данные
Искусственный интеллект
Информатика
Психология
Социология
Экономика
Образование
Статистика
Интернет вещей
Моделирование
Управление
Мобильное обучение
Game design
Спорт
An Introduction to Agent-Based Modeling: Modeling Natural, Social, and Engineered Complex Systems with NetLogoНаука о сетях
Информатика
Биология
Экономика
Археология
Математика
Образование
Моделирование
Обществознание
Android Studio
App InventorИнформатика
Робототехника
Математика
Интернет вещей
География
App Inventor 2 (book)Информатика
Artbreeder
Audionotes
AutoThinking
Awash in DataБольшие данные
Социология
Статистика
Моделирование
Beetle Blocks
Bert
Brainscape
CODAPБольшие данные
Информатика
Статистика
Картография
CORGISНаука о сетях
Информатика
Педагогика
COVID (dataset 1)Медицина
Causal Inference in RИнформатика
Социология
Экономика
Статистика
Causal Inference: The MixtapeЭкономика
Статистика
Управление
Cellverse
Character.ai
ChatGPT
ChatbotACM (dataset)Искусственный интеллект
Children Learning to CodeИнформатика
Управление
Chronoviz
Clicbot
ClubHouse
CodeMonkey
Codey RockyРобототехника
Образование
Мехатроника
CodyColor
Collaborative knowledge ACM (dataset)Информатика
Образование
Управление
Computational thinking (ACM)Искусственный интеллект
Информатика
Робототехника
Computer Science with Snap! by ExamplesИнформатика
Математика
Образование
Craiyon
CreatiCode
DBSnap
DOLYИскусственный интеллект
Робототехника
Интернет вещей
Инженерия
DartИнформатика
Мобильное обучение
DatawrapperБольшие данные
Социология
Статистика
DeepseekБольшие данные
Искусственный интеллект
Статистика
Delitex
Demonstrate an understanding of the role an online identity plays in the digital world
Demonstrate an understanding of what personal data is
DetectiveStudio (dataset)Наука о сетях
Информатика
Digida2026Педагогика
Статистика
… следующие результаты

Результат: современные датасеты


4. Только CSV

 Field of knowledge
Astronauts (dataset)Астрономия
Billionaires (dataset)Наука о сетях
Bills of Mortality (dataset)История
География
Урбанистика
Books (dataset)Психология
Социология
COVID (dataset 1)Медицина
ChatbotACM (dataset)Искусственный интеллект
Cities (dataset)Экономика
География
Урбанистика
Collaborative knowledge ACM (dataset)Информатика
Образование
Управление
Computational thinking (ACM)Искусственный интеллект
Информатика
Робототехника
DetectiveStudio (dataset)Наука о сетях
Информатика
Digida2026Педагогика
Статистика
DigidaCollab 02 2026
Food (dataset)Биология
Медицина
Образование
Forum (dataset)Образование
Games (biblio dataset)Информатика
Мобильное обучение
GitLab example
GoogleSchool 01(dataset)Информатика
Педагогика
Образование
GoogleSchool 02(dataset)Педагогика
Graduate (dataset)Педагогика
Образование
Урбанистика
ICD 10Медицина
Invisible College Scopus (dataset)Социология
Letopisi 2006 (dataset)Информатика
Педагогика
Социология
Образование
Lobster (fish-dataset)Наука о сетях
Биология
NetLogo Wealth Distribution 07122025Экономика
Статистика
Моделирование
On-line masters
PokemonDatasetОбразование
Preschool Digital ScopusНаука о сетях
Педагогика
Робототехника
Образование
Мобильное обучение
Scopus Games (dataset)Информатика
Педагогика
Мобильное обучение
ScratchWikis2026
Screen-Writing 2026Медиа
Video games (dataset)Робототехника
Образование
Мобильное обучение
Взаимное копирование МЭШ (датасет)Педагогика
Психология
Математика
Управление
Вовлеченность студентов Л2Психология
Образование
Вовлеченность студентов при использовании LearningAppsПсихология
Образование
Данные из модели о привлечении учеников в школы КитаяПедагогика
Образование
Статистика
Моделирование
Машинное обучение платформыБольшие данные
Искусственный интеллект
Информатика
Робототехника
Статистика
Мотивация – как фактор управления профессиональным развитием педагогических работников общеобразовательной организацииОбразование
Периодическая системаХимия
Психологические школы России (датасет)Информатика
Психология
Сайты российских школОбразование
Студия Collab Challenge (dataset)Наука о сетях
Информатика
Образование
Цифровые инструменты учителейИнформатика
Образование
Что делают в МЭШ учителя английского языка
Что делают в МЭШ учителя литературыЛингвистика
Что делают в МЭШ учителя математикиМатематика

Результат: данные для R


5. Междисциплинарные

 Launch year
Adila
Airtable2015
Alina Stenshina
AliyaSa
Blown to Bits2008
BoboevaSN
BudilovskiiAV
CherenkovIR
Cyberleninka
DavydovAE
Die Toten Engel
EVSmolin777
FedyshinaSP
Gee1949
InasovAA
Kamyshnikovaej
Kate
Kiss Love
KornevaNS
LiAV
Maria Ledneva
Marya Aks
Memex
Mindstorms1980
Mouse
Natalia Verezubova
Nikita Pechko
OksanaOS036
PadalkoYV
Papert1928
Pospelov
Removing an Item from a List (by value)
Rybakinaea
ShvedovaSS
Smolkina Anastasia
Tatiana Nigay
The Design of Everyday Things1988
The Wiki Way: Quick Collaboration on the Web2001
Vanyarina Julia
VetoshkinaAS
Viktoriia
VolkovAJ
Yarmakhov
Zaharova am
À la carte
Анализ абстрактов статей
Аналитика
Анастасия
Аниканова Мария Сергеевна
Антюхова Эльза
… следующие результаты

Результат: пересечение областей

Загрузка данных и первичный просмотр

Задача: загрузить CSV-датасеты Lens и проверить структуру данных.

# загрузка данных
mgpu <- read.csv("https://raw.githubusercontent.com/patarakin/stat-data/b9bea4cf7b9e7a78cc462346e073b18fb0745b59/datasets/csv/lens_mgpu.csv")

# первые 11 строк
head(mgpu, 11)

# структура данных
str(mgpu)

Комментарий: Этот шаг позволяет проверить корректность загрузки данных и структуру датасета (переменные, типы данных, пропуски).

Визуализация данных (ggplot2)

Задача: визуализировать распределение цитируемости публикаций.

library(ggplot2)
mgpu <- read.csv("https://raw.githubusercontent.com/patarakin/stat-data/b9bea4cf7b9e7a78cc462346e073b18fb0745b59/datasets/csv/lens_mgpu.csv")

ggplot(mgpu, aes(x = Citing.Works.Count)) +
  geom_histogram(binwidth = 1, fill = "steelblue", color = "black") +
  labs(
    title = "Распределение цитируемости публикаций",
    x = "Количество цитирований",
    y = "Частота"
  ) +
  theme_minimal()

Комментарий: Гистограмма показывает распределение цитируемости и позволяет выявить ядро высокоцитируемых публикаций.

Получение данных через MediaWiki API

Задача: извлечь историю редактирования страницы Digida.

library(httr)
library(jsonlite)

url <- "https://digida.mgpu.ru/api.php"

response <- GET(url, query = list(
  action = "query",
  prop = "revisions",
  titles = "Психологические_школы_России_(датасет)",
  rvprop = "user|timestamp",
  rvlimit = 100,
  format = "json"
))

data <- content(response, as = "text", encoding = "UTF-8")
json_data <- fromJSON(data, flatten = TRUE)

pages <- json_data$query$pages
page <- pages[[1]]

revisions <- page$revisions
users <- revisions$user

head(users, 10)

Комментарий: Данный код извлекает пользователей, редактировавших страницу, что позволяет анализировать социальную структуру взаимодействий.

Анализ активности участников

Эмпирические данные показывают:

  • всего правок: 35
  • уникальных авторов: 2

Распределение активности:

  • Fedorovaai — 21 правка (60%)
  • Patarakin — 14 правок (40%)

Таким образом, наблюдается крайне концентрированная структура участия, где вся активность распределена между двумя участниками.

Интерпретация

Такая структура соответствует модели малой кооперации, где отсутствует широкая распределённая командность, но присутствует тесное взаимодействие ядра участников.

С точки зрения социосемантического анализа:

  • страница является объектом совместного редактирования
  • но координация осуществляется через ограниченное число акторов
  • наблюдается "ядро взаимодействия без периферии"

Это важный частный случай стигмергической системы с минимальным числом агентов.

Анализ совместного редактирования моей страницы

Для анализа использован MediaWiki API.

Запрос:

https://digida.mgpu.ru/api.php?action=query&prop=revisions&titles=Психологические_школы_России_(датасет)&rvprop=user%7Ctimestamp&rvlimit=50&format=json

Этот запрос возвращает список всех пользователей, редактировавших страницу, и время их правок.

Извлечение данных

# Установка (если нужно)
install.packages(c("httr", "jsonlite", "igraph"))

library(httr)
library(jsonlite)
library(igraph)

# --- 1. Запрос ---
url <- "https://digida.mgpu.ru/api.php"

response <- GET(url, query = list(
  action = "query",
  prop = "revisions",
  titles = "Психологические_школы_России_(датасет)",
  rvprop = "user",
  rvlimit = 100,
  format = "json"
))

# --- 2. Преобразование ---
json_text <- content(response, as = "text", encoding = "UTF-8")
json_data <- fromJSON(json_text, flatten = TRUE)

# --- 3. Извлечение пользователей ---
pages <- json_data$query$pages

page <- pages[[1]]

# ПРОВЕРКА
print(names(page))

# если есть revisions — извлекаем
if ("revisions" %in% names(page)) {
  revisions <- page$revisions
  
  users <- revisions$user
  
  print(users)
  
} else {
  stop("Нет revisions — проверь название страницы или API")
}

# --- 4. Уникальные пользователи ---
unique_users <- unique(users)

# --- 5. Создание графа ---
edges <- data.frame(
  from = rep("Page", length(unique_users)),
  to = unique_users
)

g <- graph_from_data_frame(edges, directed = FALSE)

# --- 6. Визуализация ---
plot(g,
     vertex.size = ifelse(V(g)$name == "Page", 40, 25),
     vertex.color = ifelse(V(g)$name == "Page", "red", "lightblue"),
     layout = layout_with_fr(g),
     main = "Граф совместного редактирования страницы Digida"
)

Граф совместного редактирования

Интерпретация данных

Анализ показал:

  • страница редактируется несколькими участниками
  • можно выделить активных авторов
  • структура редактирования носит коллективный характер

Таким образом:

  • страница выступает как социальный объект
  • редактирование — как форма взаимодействия участников
  • изменения страницы формируют стигмергическую координацию

Это подтверждает, что Digida функционирует как социосемантическая система.

Граф совместного редактирования страницы

Описание: Граф показывает пользователей, редактирующих страницу, как сеть взаимодействий.

Метрика командности

[math]\displaystyle{ T = \frac{N_{authors}}{N_{edits}} }[/math]

где:

  • [math]\displaystyle{ N_{authors} }[/math] — число уникальных авторов
  • [math]\displaystyle{ N_{edits} }[/math] — число правок

Чем выше значение, тем более распределённая командная работа.

R-анализ данных Lens

Задача: сравнить научные публикации МГУ, МГПУ и РАН по цитируемости и структуре взаимодействий.

library(ggplot2)
library(dplyr)
library(igraph)

# --- загрузка данных ---
mgu  <- read.csv("https://raw.githubusercontent.com/patarakin/stat-data/refs/heads/main/datasets/csv/lens-mgu-psychol.csv")
mgpu <- read.csv("https://raw.githubusercontent.com/patarakin/stat-data/refs/heads/main/datasets/csv/lens-mgpu-psychol.csv")
ras  <- read.csv("https://raw.githubusercontent.com/patarakin/stat-data/refs/heads/main/datasets/csv/lens-acad-sci-psych.csv")

# --- добавляем метки организаций ---
mgu$org  <- "MGU"
mgpu$org <- "MGPU"
ras$org  <- "RAS"

data <- rbind(mgu, mgpu, ras)

1. Сводная таблица

summary_table <- data %>%
  group_by(org) %>%
  summarise(
    papers = n(),
    avg_citations = mean(Citing.Works.Count, na.rm = TRUE),
    max_citations = max(Citing.Works.Count, na.rm = TRUE),
    zero_citations = sum(Citing.Works.Count == 0, na.rm = TRUE)
  )

print(summary_table)

---

2. Распределение цитируемости

ggplot(data, aes(x = Citing.Works.Count, fill = org)) +
  geom_histogram(binwidth = 1, alpha = 0.5, position = "identity") +
  labs(
    title = "Распределение цитируемости",
    x = "Цитирования",
    y = "Количество статей"
  ) +
  theme_minimal()

3. Разброс цитируемости (точечная модель)

ggplot(data, aes(x = org, y = Citing.Works.Count, color = org)) +
  geom_jitter(width = 0.2, alpha = 0.5) +
  labs(
    title = "Распределение цитируемости по организациям",
    x = "Организация",
    y = "Цитирования"
  ) +
  theme_minimal()

4. Boxplot сравнения организаций

ggplot(data, aes(x = org, y = Citing.Works.Count, fill = org)) +
  geom_boxplot() +
  labs(
    title = "Сравнение распределений цитируемости",
    x = "Организация",
    y = "Цитирования"
  ) +
  theme_minimal()

5. Динамика цитируемости (год × цитирования)

ggplot(data, aes(x = Publication.Year, y = Citing.Works.Count, color = org)) +
  geom_point(alpha = 0.5) +
  geom_smooth(method = "lm", se = FALSE) +
  labs(
    title = "Динамика цитируемости по годам",
    x = "Год",
    y = "Цитирования"
  ) +
  theme_bw()

6. Лог-распределение цитируемости

ggplot(data, aes(x = Citing.Works.Count)) +
  geom_histogram(binwidth = 1, fill = "darkblue") +
  scale_y_log10() +
  labs(
    title = "Лог-распределение цитируемости",
    x = "Цитирования",
    y = "log(частота)"
  ) +
  theme_minimal()

7. Сетевой граф соавторства между организациями

Идея: Граф интерпретируется как weighted similarity network, где узлы — организации, а ребра — обратная дистанция между средними значениями цитируемости.

nodes <- data.frame(
    name = c("MGU", "MGPU", "RAS"),
    avg_cit = c(3.46, 2.34, 1.55)
  )
  
  # связи строим по разнице (чем ближе — тем сильнее связь)
  edges <- data.frame(
    from = c("MGU", "MGU", "MGPU"),
    to   = c("MGPU", "RAS", "RAS"),
    weight = c(
      abs(3.46 - 2.34),
      abs(3.46 - 1.55),
      abs(2.34 - 1.55)
    )
  )
  
  # превращаем в силу связи (обратно)
  edges$weight <- 1 / edges$weight
  
  g <- graph_from_data_frame(edges, vertices = nodes, directed = FALSE)
  
  plot(g,
       edge.label = round(E(g)$weight, 2),
       edge.width = E(g)$weight * 5,
       main = "Сеть близости организаций (по цитируемости)")
  V(g)$size <- c(3.46, 2.34, 1.55) * 10

---

Сетевой анализ близости организаций

Построенный граф отражает структурное сходство организаций по распределению цитируемости публикаций.

В отличие от классического соавторства, связи интерпретируются как "семантическая близость" научных профилей.

Результаты

  • MGPU и RAS образуют наиболее тесную пару по структуре цитируемости
  • MGU занимает промежуточную позицию и связывает остальные узлы
  • RAS демонстрирует наибольшую удалённость от MGU

Интерпретация

Граф отражает не социальные связи авторов, а социосемантическое сходство научных организаций.

Таким образом, организации могут быть интерпретированы как когнитивные агенты, взаимодействующие через структуру знаний, а не через прямое соавторство.

Pipeline анализа данных


Метрики

Основной показатель:

[math]\displaystyle{ \bar{C} = \frac{1}{N} \sum_{i=1}^{N} C_i }[/math]

Дополнительно:

[math]\displaystyle{ OA = \frac{N_{open}}{N_{total}} }[/math]

Анализ в R

mgu  <- read.csv("https://raw.githubusercontent.com/patarakin/stat-data/refs/heads/main/datasets/csv/lens-mgu-psychol.csv")
mgpu <- read.csv("https://raw.githubusercontent.com/patarakin/stat-data/refs/heads/main/datasets/csv/lens-mgpu-psychol.csv")
ras  <- read.csv("https://raw.githubusercontent.com/patarakin/stat-data/refs/heads/main/datasets/csv/lens-acad-sci-psych.csv")


mgpu_filtered <- subset(mgpu,
                        Publication.Year > 2018 &
                          Citing.Works.Count < 6 &
                          Publication.Type == "journal article"
)

mean(mgpu_filtered$Citing.Works.Count)

agg <- aggregate(Citing.Works.Count ~ Publication.Year,
                 data = mgpu_filtered,
                 mean)

names(agg) <- c("Год публикации", "Среднее число цитирований")

print(agg)

hist(mgpu$Citing.Works.Count,
     breaks = 50,
     main = "Распределение числа цитирований (МГПУ)",
     xlab = "Число цитирований",
     ylab = "Частота",
     col = "lightblue",
     border = "white")

agg_mean <- aggregate(Citing.Works.Count ~ Publication.Year,
                      data = mgpu_filtered, mean)

agg_n <- aggregate(Citing.Works.Count ~ Publication.Year,
                   data = mgpu_filtered, length)

plot(agg_mean$Publication.Year, agg_mean$Citing.Works.Count,
     type = "b",
     main = "Средние цитирования по годам",
     xlab = "Год",
     ylab = "Среднее число цитирований",
     pch = 19)

points(agg_mean$Publication.Year,
       agg_mean$Citing.Works.Count,
       cex = agg_n$Citing.Works.Count / max(agg_n$Citing.Works.Count) * 3,
       col = "red")

Социосемантическая модель


Агентная модель

Ошибка: не указано имя модели

---

Интерактивная модель

---

Урок с данными

Модель на этих данных

Lens Psych Collab


Те же данные, но после очистки в OpenRefine

  1. Author/s,
  2. Title,
  3. Publication Year,
  4. Lens ID,
  5. DOI,
  6. Citing Works Count


МГПУ

Академия наук

МГУ

---

Вывод

Анализ показал:

  • цитируемость зависит от типа публикации
  • journal articles формируют ядро научного поля
  • Open Access увеличивает видимость исследований

Социальные параметры (организации) и семантические параметры (структура публикаций) совместно формируют социосемантическую систему науки.

Цитирование выступает ключевым механизмом связи между ними.