Психологические школы России (датасет): различия между версиями
Нет описания правки |
Нет описания правки |
||
| Строка 236: | Строка 236: | ||
'''Комментарий:''' | '''Комментарий:''' | ||
Этот шаг позволяет проверить корректность загрузки данных и структуру датасета (переменные, типы данных, пропуски). | Этот шаг позволяет проверить корректность загрузки данных и структуру датасета (переменные, типы данных, пропуски). | ||
== Визуализация данных (ggplot2) == | |||
Задача: визуализировать распределение цитируемости публикаций. | |||
<syntaxhighlight lang="r" line> | |||
library(ggplot2) | |||
mgpu <- read.csv("https://raw.githubusercontent.com/patarakin/stat-data/b9bea4cf7b9e7a78cc462346e073b18fb0745b59/datasets/csv/lens_mgpu.csv") | |||
ggplot(mgpu, aes(x = Citing.Works.Count)) + | |||
geom_histogram(binwidth = 1, fill = "steelblue", color = "black") + | |||
labs( | |||
title = "Распределение цитируемости публикаций", | |||
x = "Количество цитирований", | |||
y = "Частота" | |||
) + | |||
theme_minimal() | |||
</syntaxhighlight> | |||
'''Комментарий:''' | |||
Гистограмма показывает распределение цитируемости и позволяет выявить ядро высокоцитируемых публикаций. | |||
[[Файл:Распределение цитируемости публикаций.png]] | |||
== Анализ совместного редактирования моей страницы == | == Анализ совместного редактирования моей страницы == | ||
Версия от 22:56, 13 апреля 2026
| Описание датасета | Публикации российских психологов в Lens |
|---|---|
| Описание полей |
|
| Форматы данных | CSV |
| Область знаний | Информатика, Психология |
| Веб-сайт - ссылка на датасет | |
| Примеры использования датасета | |
| Год создания датасета | 2006 |
- Академия Наук - https://raw.githubusercontent.com/patarakin/stat-data/refs/heads/main/datasets/csv/lens-acad-sci-psych.csv
- МГПУ https://raw.githubusercontent.com/patarakin/stat-data/refs/heads/main/datasets/csv/lens-mgpu-psychol.csv
- МГУ https://raw.githubusercontent.com/patarakin/stat-data/refs/heads/main/datasets/csv/lens-mgu-psychol.csv
Социосемантическая структура публикаций российских психологов (Lens)
Исследовательский вопрос
Как связаны социальные параметры научного производства (организации: МГУ, МГПУ, РАН) и семантические характеристики публикаций (тип статьи, открытый доступ, тематика) с уровнем цитируемости?
Гипотеза
Публикации в формате journal article и с открытым доступом (Open Access) имеют более высокую цитируемость, формируя устойчивые социосемантические паттерны.
Теоретическая рамка
Социосемантическая система науки включает:
- социальный уровень — авторы и организации
- семантический уровень — темы, типы публикаций
- механизм связи — цитирование
Цитирование выступает как ключевой механизм, связывающий производство знаний и их распространение.
---
Данные
Академия наук (цитируемость = 5)
| Название | Год | Цитирования
|
|---|---|---|
| Features of the Development of a Teenager's Subjectivity in Interaction with the Natural Environment in a Children's Educational and Health Camp | 2021 | 5 |
| Ретроспективный анализ посттравматического стресса в годы Великой Отечественной войны | 2021 | 5 |
| Воздействие алкоголя на сердечный ритм и оценку действий при решении моральных дилемм | 2017 | 5 |
| Study of Neurocognitive Processes in a Paradigm of Information Concealment | 2021 | 5 |
| Emotional Regulation in Individuals, Standing in Codependent Relationship | 2021 | 5 |
| Метод реляционно-ситуационного анализа текста в психологических исследованиях | 2020 | 5 |
МГУ (публикации = 2018 год, Цитирования = 5)
| Название | Год | Тип публикации | Цитирования
|
|---|---|---|---|
| К вопросу о нормативно-правовом регулировании организации деятельности психолого-медико-педагогических комиссий в контексте профилактики правонарушений несовершеннолетних | 2018 | journal article | 5 |
| Патохарактерологические особенности психически здоровых лиц, склонных к импульсивной агрессии | 2018 | journal article | 5 |
МГПУ (5 фильтров одновременно)
| Название | Год | Тип публикации | Open Access | Область | Цитирования
|
|---|---|---|---|---|---|
| Трансформация метафорических репрезентаций жизненного пути личности в период самоизоляции у взрослых | 2020 | journal article | true | Psychology | 3 |
| Prerequisites for Accepting the Digital Educational Environment in New Cultural and Historical Conditions | 2021 | journal article | true | Psychology | 4 |
| Психологические детерминанты возникновения внутриличностных противоречий студентов | 2020 | journal article | true | Psychology | 1 |
Возможности анализа
Используя параметр |filters= можно:
- отбирать публикации по годам
- сравнивать школы по цитируемости
- выделять только статьи (Publication Type=journal article)
- анализировать публикации в открытом доступе
- строить выборки для последующего анализа в R
Семантические запросы (SMW)
1. Датасеты по психологии
Результат: список психологических датасетов
2. Все BigDataWorks
Результат: все проекты с данными
3. После 2010 года
Результат: современные датасеты
4. Только CSV
Результат: данные для R
5. Междисциплинарные
Результат: пересечение областей
Загрузка данных и первичный просмотр
Задача: загрузить CSV-датасеты Lens и проверить структуру данных.
# загрузка данных
mgpu <- read.csv("https://raw.githubusercontent.com/patarakin/stat-data/b9bea4cf7b9e7a78cc462346e073b18fb0745b59/datasets/csv/lens_mgpu.csv")
# первые 11 строк
head(mgpu, 11)
# структура данных
str(mgpu)
Комментарий: Этот шаг позволяет проверить корректность загрузки данных и структуру датасета (переменные, типы данных, пропуски).
Визуализация данных (ggplot2)
Задача: визуализировать распределение цитируемости публикаций.
library(ggplot2)
mgpu <- read.csv("https://raw.githubusercontent.com/patarakin/stat-data/b9bea4cf7b9e7a78cc462346e073b18fb0745b59/datasets/csv/lens_mgpu.csv")
ggplot(mgpu, aes(x = Citing.Works.Count)) +
geom_histogram(binwidth = 1, fill = "steelblue", color = "black") +
labs(
title = "Распределение цитируемости публикаций",
x = "Количество цитирований",
y = "Частота"
) +
theme_minimal()
Комментарий:
Гистограмма показывает распределение цитируемости и позволяет выявить ядро высокоцитируемых публикаций.
Анализ совместного редактирования моей страницы
Для анализа использован MediaWiki API.
Запрос:
Этот запрос возвращает список всех пользователей, редактировавших страницу, и время их правок.
Извлечение данных
# Установка (если нужно)
install.packages(c("httr", "jsonlite", "igraph"))
library(httr)
library(jsonlite)
library(igraph)
# --- 1. Запрос ---
url <- "https://digida.mgpu.ru/api.php"
response <- GET(url, query = list(
action = "query",
prop = "revisions",
titles = "Психологические_школы_России_(датасет)",
rvprop = "user",
rvlimit = 100,
format = "json"
))
# --- 2. Преобразование ---
json_text <- content(response, as = "text", encoding = "UTF-8")
json_data <- fromJSON(json_text, flatten = TRUE)
# --- 3. Извлечение пользователей ---
pages <- json_data$query$pages
page <- pages[[1]]
# ПРОВЕРКА
print(names(page))
# если есть revisions — извлекаем
if ("revisions" %in% names(page)) {
revisions <- page$revisions
users <- revisions$user
print(users)
} else {
stop("Нет revisions — проверь название страницы или API")
}
# --- 4. Уникальные пользователи ---
unique_users <- unique(users)
# --- 5. Создание графа ---
edges <- data.frame(
from = rep("Page", length(unique_users)),
to = unique_users
)
g <- graph_from_data_frame(edges, directed = FALSE)
# --- 6. Визуализация ---
plot(g,
vertex.size = ifelse(V(g)$name == "Page", 40, 25),
vertex.color = ifelse(V(g)$name == "Page", "red", "lightblue"),
layout = layout_with_fr(g),
main = "Граф совместного редактирования страницы Digida"
)
Граф совместного редактирования
Интерпретация данных
Анализ показал:
- страница редактируется несколькими участниками
- можно выделить активных авторов
- структура редактирования носит коллективный характер
Таким образом:
- страница выступает как социальный объект
- редактирование — как форма взаимодействия участников
- изменения страницы формируют стигмергическую координацию
Это подтверждает, что Digida функционирует как социосемантическая система.
Граф совместного редактирования страницы

Описание: Граф показывает пользователей, редактирующих страницу, как сеть взаимодействий.
Метрика командности
[math]\displaystyle{ T = \frac{N_{authors}}{N_{edits}} }[/math]
где:
- [math]\displaystyle{ N_{authors} }[/math] — число уникальных авторов
- [math]\displaystyle{ N_{edits} }[/math] — число правок
Чем выше значение, тем более распределённая командная работа.
Pipeline анализа данных

---
Метрики
Основной показатель:
[math]\displaystyle{ \bar{C} = \frac{1}{N} \sum_{i=1}^{N} C_i }[/math]
Дополнительно:
[math]\displaystyle{ OA = \frac{N_{open}}{N_{total}} }[/math]
---
Анализ в R
mgpu <- read.csv("lens_mgpu.csv")
mgu <- read.csv("lens_mgu.csv")
ras <- read.csv("lens_ras.csv")
mgpu_filtered <- subset(mgpu,
Publication.Year > 2018 &
Citing.Works.Count < 6 &
Publication.Type == "journal article"
)
mean(mgpu_filtered$Citing.Works.Count)
aggregate(Citing.Works.Count ~ Publication.Year, data=mgpu, mean)
hist(mgpu$Citing.Works.Count)
---
Социосемантическая модель

---
Агентная модель
---
Интерактивная модель
---
Урок с данными
Модель на этих данных
Те же данные, но после очистки в OpenRefine
- Author/s,
- Title,
- Publication Year,
- Lens ID,
- DOI,
- Citing Works Count
МГПУ
Академия наук
МГУ
---
Вывод
Анализ показал:
- цитируемость зависит от типа публикации
- journal articles формируют ядро научного поля
- Open Access увеличивает видимость исследований
Социальные параметры (организации) и семантические параметры (структура публикаций) совместно формируют социосемантическую систему науки.
Цитирование выступает ключевым механизмом связи между ними.

