Очистка и разметка OpenRefine Хадижа
Материал из Поле цифровой дидактики
Описание задания
Для выполнения задания был выбран датасет Books (dataset) с платформы digida.mgpu.ru — 1000 самых популярных книг проекта Гутенберг с метриками читаемости, тональности и статистикой текста.
Датасет получен с: https://corgis-edu.github.io/corgis/datasets/csv/classics/classics.csv
Инструмент
Для очистки и разметки использовался OpenRefine 3.10.
Шаги очистки в OpenRefine
- Загрузка CSV-файла (848 записей, 38 столбцов)
- Text facet по столбцу bibliography.languages — выявлены проблемы со значениями
- Text facet по столбцу bibliography.author.name — 555 уникальных авторов
- Cluster по именам авторов — дублей не обнаружено (No clusters found)
- Trim leading and trailing whitespace — лишних пробелов не обнаружено
Проблемы в данных
| Проблема | Описание | Пример |
|---|---|---|
| Смешанные языки | Несколько языков в одной ячейке | en,enm / en,es |
| Нестандартные имена авторов | Дата в имени автора | "Aguado, Pedro de, active 16th century" |
| Организация вместо автора | Компания указана как автор | "Babcock & Wilcox Company" |
| Пустой столбец | bibliography.author.death часто пустой | — |
| Anonymous | 11 книг без автора | Anonymous |
Статистика датасета
| Показатель | Значение |
|---|---|
| Всего записей | 848 |
| Столбцов | 38 |
| Уникальных авторов | 555 |
| Основной язык | en — 965 записей |
| Других языков | de (18), fr (7), es (3) и др. — всего 13 значений |
| Книг без автора | 11 (Anonymous) |
| Самая популярная книга | Pride and Prejudice (Austen, Jane) |
Выводы
Датасет Books (Classics) оказался достаточно чистым — дублей и лишних пробелов не обнаружено. Основные проблемы: смешанные значения языков в одной ячейке, нестандартные форматы имён авторов (даты жизни в имени, организации вместо людей), пустые значения в столбце дат смерти. Датасет готов к дальнейшему анализу в R.
