Психологические школы России (датасет)
| Описание датасета | Публикации российских психологов в Lens |
|---|---|
| Описание полей |
|
| Форматы данных | CSV |
| Область знаний | Информатика, Психология |
| Веб-сайт - ссылка на датасет | |
| Примеры использования датасета | |
| Год создания датасета | 2006 |
- Академия Наук - https://raw.githubusercontent.com/patarakin/stat-data/refs/heads/main/datasets/csv/lens-acad-sci-psych.csv
- МГПУ https://raw.githubusercontent.com/patarakin/stat-data/refs/heads/main/datasets/csv/lens-mgpu-psychol.csv
- МГУ https://raw.githubusercontent.com/patarakin/stat-data/refs/heads/main/datasets/csv/lens-mgu-psychol.csv
Социосемантическая структура публикаций российских психологов (Lens)
Исследовательский вопрос
Как связаны социальные параметры научного производства (организации: МГУ, МГПУ, РАН) и семантические характеристики публикаций (тип статьи, открытый доступ, тематика) с уровнем цитируемости?
Гипотеза
Публикации в формате journal article и с открытым доступом (Open Access) имеют более высокую цитируемость, формируя устойчивые социосемантические паттерны.
Теоретическая рамка
Социосемантическая система науки включает:
- социальный уровень — авторы и организации
- семантический уровень — темы, типы публикаций
- механизм связи — цитирование
Цитирование выступает как ключевой механизм, связывающий производство знаний и их распространение.
---
Данные
Академия наук (цитируемость = 5)
| Название | Год | Цитирования
|
|---|---|---|
| Features of the Development of a Teenager's Subjectivity in Interaction with the Natural Environment in a Children's Educational and Health Camp | 2021 | 5 |
| Ретроспективный анализ посттравматического стресса в годы Великой Отечественной войны | 2021 | 5 |
| Воздействие алкоголя на сердечный ритм и оценку действий при решении моральных дилемм | 2017 | 5 |
| Study of Neurocognitive Processes in a Paradigm of Information Concealment | 2021 | 5 |
| Emotional Regulation in Individuals, Standing in Codependent Relationship | 2021 | 5 |
| Метод реляционно-ситуационного анализа текста в психологических исследованиях | 2020 | 5 |
МГУ (публикации = 2018 год, Цитирования = 5)
| Название | Год | Тип публикации | Цитирования
|
|---|---|---|---|
| К вопросу о нормативно-правовом регулировании организации деятельности психолого-медико-педагогических комиссий в контексте профилактики правонарушений несовершеннолетних | 2018 | journal article | 5 |
| Патохарактерологические особенности психически здоровых лиц, склонных к импульсивной агрессии | 2018 | journal article | 5 |
МГПУ (5 фильтров одновременно)
| Название | Год | Тип публикации | Open Access | Область | Цитирования
|
|---|---|---|---|---|---|
| Трансформация метафорических репрезентаций жизненного пути личности в период самоизоляции у взрослых | 2020 | journal article | true | Psychology | 3 |
| Prerequisites for Accepting the Digital Educational Environment in New Cultural and Historical Conditions | 2021 | journal article | true | Psychology | 4 |
| Психологические детерминанты возникновения внутриличностных противоречий студентов | 2020 | journal article | true | Psychology | 1 |
Возможности анализа
Используя параметр |filters= можно:
- отбирать публикации по годам
- сравнивать школы по цитируемости
- выделять только статьи (Publication Type=journal article)
- анализировать публикации в открытом доступе
- строить выборки для последующего анализа в R
Семантические запросы (SMW)
1. Датасеты по психологии
Результат: список психологических датасетов
2. Все BigDataWorks
Результат: все проекты с данными
3. После 2010 года
Результат: современные датасеты
4. Только CSV
Результат: данные для R
5. Междисциплинарные
Результат: пересечение областей
Загрузка данных и первичный просмотр
Задача: загрузить CSV-датасеты Lens и проверить структуру данных.
# загрузка данных
mgpu <- read.csv("https://raw.githubusercontent.com/patarakin/stat-data/b9bea4cf7b9e7a78cc462346e073b18fb0745b59/datasets/csv/lens_mgpu.csv")
# первые 11 строк
head(mgpu, 11)
# структура данных
str(mgpu)
Комментарий: Этот шаг позволяет проверить корректность загрузки данных и структуру датасета (переменные, типы данных, пропуски).
Визуализация данных (ggplot2)
Задача: визуализировать распределение цитируемости публикаций.
library(ggplot2)
mgpu <- read.csv("https://raw.githubusercontent.com/patarakin/stat-data/b9bea4cf7b9e7a78cc462346e073b18fb0745b59/datasets/csv/lens_mgpu.csv")
ggplot(mgpu, aes(x = Citing.Works.Count)) +
geom_histogram(binwidth = 1, fill = "steelblue", color = "black") +
labs(
title = "Распределение цитируемости публикаций",
x = "Количество цитирований",
y = "Частота"
) +
theme_minimal()
Комментарий:
Гистограмма показывает распределение цитируемости и позволяет выявить ядро высокоцитируемых публикаций.
Получение данных через MediaWiki API
Задача: извлечь историю редактирования страницы Digida.
library(httr)
library(jsonlite)
url <- "https://digida.mgpu.ru/api.php"
response <- GET(url, query = list(
action = "query",
prop = "revisions",
titles = "Психологические_школы_России_(датасет)",
rvprop = "user|timestamp",
rvlimit = 100,
format = "json"
))
data <- content(response, as = "text", encoding = "UTF-8")
json_data <- fromJSON(data, flatten = TRUE)
pages <- json_data$query$pages
page <- pages[[1]]
revisions <- page$revisions
users <- revisions$user
head(users, 10)
Комментарий:
Данный код извлекает пользователей, редактировавших страницу, что позволяет анализировать социальную структуру взаимодействий.
Анализ активности участников
Эмпирические данные показывают:
- всего правок: 35
- уникальных авторов: 2
Распределение активности:
- Fedorovaai — 21 правка (60%)
- Patarakin — 14 правок (40%)
Таким образом, наблюдается крайне концентрированная структура участия, где вся активность распределена между двумя участниками.
Интерпретация
Такая структура соответствует модели малой кооперации, где отсутствует широкая распределённая командность, но присутствует тесное взаимодействие ядра участников.
С точки зрения социосемантического анализа:
- страница является объектом совместного редактирования
- но координация осуществляется через ограниченное число акторов
- наблюдается "ядро взаимодействия без периферии"
Это важный частный случай стигмергической системы с минимальным числом агентов.
Анализ совместного редактирования моей страницы
Для анализа использован MediaWiki API.
Запрос:
Этот запрос возвращает список всех пользователей, редактировавших страницу, и время их правок.
Извлечение данных
# Установка (если нужно)
install.packages(c("httr", "jsonlite", "igraph"))
library(httr)
library(jsonlite)
library(igraph)
# --- 1. Запрос ---
url <- "https://digida.mgpu.ru/api.php"
response <- GET(url, query = list(
action = "query",
prop = "revisions",
titles = "Психологические_школы_России_(датасет)",
rvprop = "user",
rvlimit = 100,
format = "json"
))
# --- 2. Преобразование ---
json_text <- content(response, as = "text", encoding = "UTF-8")
json_data <- fromJSON(json_text, flatten = TRUE)
# --- 3. Извлечение пользователей ---
pages <- json_data$query$pages
page <- pages[[1]]
# ПРОВЕРКА
print(names(page))
# если есть revisions — извлекаем
if ("revisions" %in% names(page)) {
revisions <- page$revisions
users <- revisions$user
print(users)
} else {
stop("Нет revisions — проверь название страницы или API")
}
# --- 4. Уникальные пользователи ---
unique_users <- unique(users)
# --- 5. Создание графа ---
edges <- data.frame(
from = rep("Page", length(unique_users)),
to = unique_users
)
g <- graph_from_data_frame(edges, directed = FALSE)
# --- 6. Визуализация ---
plot(g,
vertex.size = ifelse(V(g)$name == "Page", 40, 25),
vertex.color = ifelse(V(g)$name == "Page", "red", "lightblue"),
layout = layout_with_fr(g),
main = "Граф совместного редактирования страницы Digida"
)
Граф совместного редактирования
Интерпретация данных
Анализ показал:
- страница редактируется несколькими участниками
- можно выделить активных авторов
- структура редактирования носит коллективный характер
Таким образом:
- страница выступает как социальный объект
- редактирование — как форма взаимодействия участников
- изменения страницы формируют стигмергическую координацию
Это подтверждает, что Digida функционирует как социосемантическая система.
Граф совместного редактирования страницы

Описание: Граф показывает пользователей, редактирующих страницу, как сеть взаимодействий.
Метрика командности
[math]\displaystyle{ T = \frac{N_{authors}}{N_{edits}} }[/math]
где:
- [math]\displaystyle{ N_{authors} }[/math] — число уникальных авторов
- [math]\displaystyle{ N_{edits} }[/math] — число правок
Чем выше значение, тем более распределённая командная работа.
R-анализ данных Lens
Задача: сравнить научные публикации МГУ, МГПУ и РАН по цитируемости и структуре взаимодействий.
library(ggplot2)
library(dplyr)
library(igraph)
# --- загрузка данных ---
mgu <- read.csv("https://raw.githubusercontent.com/patarakin/stat-data/refs/heads/main/datasets/csv/lens-mgu-psychol.csv")
mgpu <- read.csv("https://raw.githubusercontent.com/patarakin/stat-data/refs/heads/main/datasets/csv/lens-mgpu-psychol.csv")
ras <- read.csv("https://raw.githubusercontent.com/patarakin/stat-data/refs/heads/main/datasets/csv/lens-acad-sci-psych.csv")
# --- добавляем метки организаций ---
mgu$org <- "MGU"
mgpu$org <- "MGPU"
ras$org <- "RAS"
data <- rbind(mgu, mgpu, ras)
1. Сводная таблица
summary_table <- data %>%
group_by(org) %>%
summarise(
papers = n(),
avg_citations = mean(Citing.Works.Count, na.rm = TRUE),
max_citations = max(Citing.Works.Count, na.rm = TRUE),
zero_citations = sum(Citing.Works.Count == 0, na.rm = TRUE)
)
print(summary_table)
---
2. Распределение цитируемости
ggplot(data, aes(x = Citing.Works.Count, fill = org)) +
geom_histogram(binwidth = 1, alpha = 0.5, position = "identity") +
labs(
title = "Распределение цитируемости",
x = "Цитирования",
y = "Количество статей"
) +
theme_minimal()
3. Разброс цитируемости (точечная модель)
ggplot(data, aes(x = org, y = Citing.Works.Count, color = org)) +
geom_jitter(width = 0.2, alpha = 0.5) +
labs(
title = "Распределение цитируемости по организациям",
x = "Организация",
y = "Цитирования"
) +
theme_minimal()
4. Boxplot сравнения организаций
ggplot(data, aes(x = org, y = Citing.Works.Count, fill = org)) +
geom_boxplot() +
labs(
title = "Сравнение распределений цитируемости",
x = "Организация",
y = "Цитирования"
) +
theme_minimal()
5. Динамика цитируемости (год × цитирования)
ggplot(data, aes(x = Publication.Year, y = Citing.Works.Count, color = org)) +
geom_point(alpha = 0.5) +
geom_smooth(method = "lm", se = FALSE) +
labs(
title = "Динамика цитируемости по годам",
x = "Год",
y = "Цитирования"
) +
theme_bw()
6. Лог-распределение цитируемости
ggplot(data, aes(x = Citing.Works.Count)) +
geom_histogram(binwidth = 1, fill = "darkblue") +
scale_y_log10() +
labs(
title = "Лог-распределение цитируемости",
x = "Цитирования",
y = "log(частота)"
) +
theme_minimal()
7. Сетевой граф соавторства между организациями
Идея: Граф интерпретируется как weighted similarity network, где узлы — организации, а ребра — обратная дистанция между средними значениями цитируемости.
nodes <- data.frame(
name = c("MGU", "MGPU", "RAS"),
avg_cit = c(3.46, 2.34, 1.55)
)
# связи строим по разнице (чем ближе — тем сильнее связь)
edges <- data.frame(
from = c("MGU", "MGU", "MGPU"),
to = c("MGPU", "RAS", "RAS"),
weight = c(
abs(3.46 - 2.34),
abs(3.46 - 1.55),
abs(2.34 - 1.55)
)
)
# превращаем в силу связи (обратно)
edges$weight <- 1 / edges$weight
g <- graph_from_data_frame(edges, vertices = nodes, directed = FALSE)
plot(g,
edge.label = round(E(g)$weight, 2),
edge.width = E(g)$weight * 5,
main = "Сеть близости организаций (по цитируемости)")
V(g)$size <- c(3.46, 2.34, 1.55) * 10
Сетевой анализ близости организаций
Построенный граф отражает структурное сходство организаций по распределению цитируемости публикаций.
В отличие от классического соавторства, связи интерпретируются как "семантическая близость" научных профилей.
Результаты
- MGPU и RAS образуют наиболее тесную пару по структуре цитируемости
- MGU занимает промежуточную позицию и связывает остальные узлы
- RAS демонстрирует наибольшую удалённость от MGU
Интерпретация
Граф отражает не социальные связи авторов, а социосемантическое сходство научных организаций.
Таким образом, организации могут быть интерпретированы как когнитивные агенты, взаимодействующие через структуру знаний, а не через прямое соавторство.
Pipeline анализа данных

Метрики
Основной показатель:
[math]\displaystyle{ \bar{C} = \frac{1}{N} \sum_{i=1}^{N} C_i }[/math]
Дополнительно:
[math]\displaystyle{ OA = \frac{N_{open}}{N_{total}} }[/math]
Анализ в R
mgu <- read.csv("https://raw.githubusercontent.com/patarakin/stat-data/refs/heads/main/datasets/csv/lens-mgu-psychol.csv")
mgpu <- read.csv("https://raw.githubusercontent.com/patarakin/stat-data/refs/heads/main/datasets/csv/lens-mgpu-psychol.csv")
ras <- read.csv("https://raw.githubusercontent.com/patarakin/stat-data/refs/heads/main/datasets/csv/lens-acad-sci-psych.csv")
mgpu_filtered <- subset(mgpu,
Publication.Year > 2018 &
Citing.Works.Count < 6 &
Publication.Type == "journal article"
)
mean(mgpu_filtered$Citing.Works.Count)
agg <- aggregate(Citing.Works.Count ~ Publication.Year,
data = mgpu_filtered,
mean)
names(agg) <- c("Год публикации", "Среднее число цитирований")
print(agg)
hist(mgpu$Citing.Works.Count,
breaks = 50,
main = "Распределение числа цитирований (МГПУ)",
xlab = "Число цитирований",
ylab = "Частота",
col = "lightblue",
border = "white")
agg_mean <- aggregate(Citing.Works.Count ~ Publication.Year,
data = mgpu_filtered, mean)
agg_n <- aggregate(Citing.Works.Count ~ Publication.Year,
data = mgpu_filtered, length)
plot(agg_mean$Publication.Year, agg_mean$Citing.Works.Count,
type = "b",
main = "Средние цитирования по годам",
xlab = "Год",
ylab = "Среднее число цитирований",
pch = 19)
points(agg_mean$Publication.Year,
agg_mean$Citing.Works.Count,
cex = agg_n$Citing.Works.Count / max(agg_n$Citing.Works.Count) * 3,
col = "red")
Социосемантическая модель

Агентная модель
---
Интерактивная модель
---
Урок с данными
Модель на этих данных
Те же данные, но после очистки в OpenRefine
- Author/s,
- Title,
- Publication Year,
- Lens ID,
- DOI,
- Citing Works Count
МГПУ
Академия наук
МГУ
---
Вывод
Анализ показал:
- цитируемость зависит от типа публикации
- journal articles формируют ядро научного поля
- Open Access увеличивает видимость исследований
Социальные параметры (организации) и семантические параметры (структура публикаций) совместно формируют социосемантическую систему науки.
Цитирование выступает ключевым механизмом связи между ними.









