Очистка и разметка OpenRefine Хадижа

Описание задания

Для выполнения задания был выбран датасет Books (dataset) с платформы digida.mgpu.ru — 1000 самых популярных книг проекта Гутенберг с метриками читаемости, тональности и статистикой текста.

Датасет получен с: https://corgis-edu.github.io/corgis/datasets/csv/classics/classics.csv

Инструмент

Для очистки и разметки использовался OpenRefine 3.10.

Шаги очистки в OpenRefine

Загрузка CSV-файла (848 записей, 38 столбцов)
Text facet по столбцу bibliography.languages — выявлены проблемы со значениями
Text facet по столбцу bibliography.author.name — 555 уникальных авторов
Cluster по именам авторов — дублей не обнаружено (No clusters found)
Trim leading and trailing whitespace — лишних пробелов не обнаружено

Проблемы в данных

Проблема	Описание	Пример
Смешанные языки	Несколько языков в одной ячейке	en,enm / en,es
Нестандартные имена авторов	Дата в имени автора	"Aguado, Pedro de, active 16th century"
Организация вместо автора	Компания указана как автор	"Babcock & Wilcox Company"
Пустой столбец	bibliography.author.death часто пустой	—
Anonymous	11 книг без автора	Anonymous

Статистика датасета

Показатель	Значение
Всего записей	848
Столбцов	38
Уникальных авторов	555
Основной язык	en — 965 записей
Других языков	de (18), fr (7), es (3) и др. — всего 13 значений
Книг без автора	11 (Anonymous)
Самая популярная книга	Pride and Prejudice (Austen, Jane)

Выводы

Датасет Books (Classics) оказался достаточно чистым — дублей и лишних пробелов не обнаружено. Основные проблемы: смешанные значения языков в одной ячейке, нестандартные форматы имён авторов (даты жизни в имени, организации вместо людей), пустые значения в столбце дат смерти. Датасет готов к дальнейшему анализу в R.

Аноним

Поиск

Очистка и разметка OpenRefine Хадижа

Пространства имён

Ещё

Действия на странице

Содержание

Описание задания

Инструмент

Шаги очистки в OpenRefine

Проблемы в данных

Статистика датасета

Выводы

Навигация

Навигация

Вики-инструменты

Вики-инструменты

Аноним

Поиск

Очистка и разметка OpenRefine Хадижа

Описание задания

Инструмент

Шаги очистки в OpenRefine

Проблемы в данных

Статистика датасета

Выводы

Навигация

Вики-инструменты

Инструменты для страниц

Категории