OpenRefine

Материал из Поле цифровой дидактики
Краткое описание инструмента OpenRefine - свободный инструмент для извлечения и очистки табличных данных, которые можно связать с базами знаний, включая Викиданные. Он был разработан Google (под названием Google Refine) и сейчас превратился в проект, поддерживаемый сообществом.
Возможности
  • Бесплатен
  • С открытым исходным кодом
  • Запускается локально, не требует доступа в интернет, в этом смысле безопасен, имеет многоязычный интерфейс, включает русский
  • Обладает обширным гибким (программируемым) функционалом, поддерживается и активно развивается сообществом

Это инструмент для очистки наборов данных и для выполнения сложных операций с данными. У него есть свой язык GREL похожий на формумы Exel и OpenOffice.

Трудности использования высокий порог входа
Область знаний
Область применения образование
Поясняющее видео
Веб-сайт https://openrefine.org/
Пользователи Преподаватели, Исследователи
Используется для создания (проведения)
Разработчик
Сообщество вокруг средства
Лицензия Открытая
Год первого релиза
Совместное сетевое использование Нет
Какой язык основной English
Есть ли поддержка Искусственным Интеллектом Нет


Основные возможности

Фасетирование (Faceting)

Фасетирование позволяет разбить большой датасет на управляемые подмножества по определённым критериям. С помощью фасетов можно:

  • Просмотреть распределение значений в столбце (например, сколько авторов, сколько пустых ячеек)
  • Отфильтровать данные по выбранным значениям
  • Применить операции только к отфильтрованным строкам
  • Выявить аномалии и пропуски в данных
Пример
Если в столбце "Авторы" 500 уникальных значений, фасетирование позволит увидеть структуру данных и выявить, что "Иванов И.И." и "иванов и и" — это один человек.

Кластеризация (Clustering)

Кластеризация автоматически группирует похожие значения на основе различных алгоритмов:

  • Fingerprinting — консервативный метод (удаляет пунктуацию, регистр, сортирует слова)
  • N-Gram Fingerprinting — для выявления опечаток
  • Levenshtein — расстояние редактирования между строками

Трансформация данных с GREL

GREL (General Refine Expression Language) — встроенный язык программирования для сложных преобразований:

История операций (Undo/Redo)

OpenRefine ведёт полную историю всех операций, позволяя:

  • Отменить любую операцию (Undo)
  • Вернуться к любому состоянию проекта
  • Повторить последовательность операций на новом датасете


OpenRefine — это незаменимый инструмент для исследователей, работающих с данными. Он особенно полезен в библиометрических исследованиях, где качество данных критично для получения надёжных результатов. Простота использования в сочетании с мощностью GREL делает его идеальным выбором как для начинающих, так и для опытных аналитиков данных.


Методы

Key Collision методы (быстрые):

Fingerprint (по умолчанию, консервативный)
Удаляет пунктуацию, переводит в lowercase, сортирует слова
N-Gram Fingerprint
Использует n-граммы (последовательности символов)


Phonetic Fingerprint

С алгоритмами: Metaphone 3, Soundex, Cologne Phonetic, Beider-Morse


Nearest Neighbor методы (медленные, но точные):

Levenshtein Distance (Edit Distance)
Считает операции редактирования для преобразования одной строки в другую
PPM (Prediction by Partial Matching)
Очень агрессивный, много false positives