Очистка и разметка OpenRefine Хадижа

Материал из Поле цифровой дидактики
Версия от 19:47, 13 июня 2026; Асадова Хадижа (обсуждение | вклад) (Новая страница: «== Описание задания == Для выполнения задания был выбран датасет '''Books (dataset)''' с платформы digida.mgpu.ru — 1000 самых популярных книг проекта Гутенберг с метриками читаемости, тональности и статистикой текста. Датасет получен с: https://corgis-edu.github.io/corgis/datasets/csv/classic...»)
(разн.) ← Предыдущая версия | Текущая версия (разн.) | Следующая версия → (разн.)

Описание задания

Для выполнения задания был выбран датасет Books (dataset) с платформы digida.mgpu.ru — 1000 самых популярных книг проекта Гутенберг с метриками читаемости, тональности и статистикой текста.

Датасет получен с: https://corgis-edu.github.io/corgis/datasets/csv/classics/classics.csv

Инструмент

Для очистки и разметки использовался OpenRefine 3.10.

Шаги очистки в OpenRefine

  1. Загрузка CSV-файла (848 записей, 38 столбцов)
  2. Text facet по столбцу bibliography.languages — выявлены проблемы со значениями
  3. Text facet по столбцу bibliography.author.name — 555 уникальных авторов
  4. Cluster по именам авторов — дублей не обнаружено (No clusters found)
  5. Trim leading and trailing whitespace — лишних пробелов не обнаружено

Проблемы в данных

Проблема Описание Пример
Смешанные языки Несколько языков в одной ячейке en,enm / en,es
Нестандартные имена авторов Дата в имени автора "Aguado, Pedro de, active 16th century"
Организация вместо автора Компания указана как автор "Babcock & Wilcox Company"
Пустой столбец bibliography.author.death часто пустой
Anonymous 11 книг без автора Anonymous

Статистика датасета

Показатель Значение
Всего записей 848
Столбцов 38
Уникальных авторов 555
Основной язык en — 965 записей
Других языков de (18), fr (7), es (3) и др. — всего 13 значений
Книг без автора 11 (Anonymous)
Самая популярная книга Pride and Prejudice (Austen, Jane)

Выводы

Датасет Books (Classics) оказался достаточно чистым — дублей и лишних пробелов не обнаружено. Основные проблемы: смешанные значения языков в одной ячейке, нестандартные форматы имён авторов (даты жизни в имени, организации вместо людей), пустые значения в столбце дат смерти. Датасет готов к дальнейшему анализу в R.