OpenRefine: различия между версиями
Patarakin (обсуждение | вклад) Нет описания правки |
Patarakin (обсуждение | вклад) |
||
| (не показана 1 промежуточная версия этого же участника) | |||
| Строка 35: | Строка 35: | ||
* N-Gram Fingerprinting — для выявления опечаток | * N-Gram Fingerprinting — для выявления опечаток | ||
* Levenshtein — расстояние редактирования между строками | * Levenshtein — расстояние редактирования между строками | ||
[[Файл:Openrefine cluster Fingerprint.png]] | |||
=== Трансформация данных с GREL === | === Трансформация данных с GREL === | ||
| Строка 53: | Строка 55: | ||
[[OpenRefine]] — это незаменимый инструмент для исследователей, работающих с данными. Он особенно полезен в библиометрических исследованиях, где качество данных критично для получения надёжных результатов. Простота использования в сочетании с мощностью [[GREL]] делает его идеальным выбором как для начинающих, так и для опытных аналитиков данных. | [[OpenRefine]] — это незаменимый инструмент для исследователей, работающих с данными. Он особенно полезен в библиометрических исследованиях, где качество данных критично для получения надёжных результатов. Простота использования в сочетании с мощностью [[GREL]] делает его идеальным выбором как для начинающих, так и для опытных аналитиков данных. | ||
== Методы == | |||
=== Key Collision методы (быстрые): === | |||
; Fingerprint (по умолчанию, консервативный) | |||
: Удаляет пунктуацию, переводит в lowercase, сортирует слова | |||
; N-Gram Fingerprint | |||
: Использует n-граммы (последовательности символов) | |||
=== Phonetic Fingerprint === | |||
С алгоритмами: Metaphone 3, Soundex, Cologne Phonetic, Beider-Morse | |||
==== Nearest Neighbor методы (медленные, но точные): ==== | |||
; Levenshtein Distance (Edit Distance) | |||
: Считает операции редактирования для преобразования одной строки в другую | |||
; PPM (Prediction by Partial Matching) | |||
: Очень агрессивный, много false positives | |||
Текущая версия от 14:23, 22 января 2026
| Краткое описание инструмента | OpenRefine - свободный инструмент для извлечения и очистки табличных данных, которые можно связать с базами знаний, включая Викиданные. Он был разработан Google (под названием Google Refine) и сейчас превратился в проект, поддерживаемый сообществом. |
|---|---|
| Возможности |
Это инструмент для очистки наборов данных и для выполнения сложных операций с данными. У него есть свой язык GREL похожий на формумы Exel и OpenOffice. |
| Трудности использования | высокий порог входа |
| Область знаний | |
| Область применения | образование |
| Поясняющее видео | |
| Веб-сайт | https://openrefine.org/ |
| Пользователи | Преподаватели, Исследователи |
| Используется для создания (проведения) | |
| Разработчик | |
| Сообщество вокруг средства | |
| Лицензия | Открытая |
| Год первого релиза | |
| Совместное сетевое использование | Нет |
| Какой язык основной | English |
| Есть ли поддержка Искусственным Интеллектом | Нет |
Основные возможности
Фасетирование (Faceting)
Фасетирование позволяет разбить большой датасет на управляемые подмножества по определённым критериям. С помощью фасетов можно:
- Просмотреть распределение значений в столбце (например, сколько авторов, сколько пустых ячеек)
- Отфильтровать данные по выбранным значениям
- Применить операции только к отфильтрованным строкам
- Выявить аномалии и пропуски в данных
- Пример
- Если в столбце "Авторы" 500 уникальных значений, фасетирование позволит увидеть структуру данных и выявить, что "Иванов И.И." и "иванов и и" — это один человек.
Кластеризация (Clustering)
Кластеризация автоматически группирует похожие значения на основе различных алгоритмов:
- Fingerprinting — консервативный метод (удаляет пунктуацию, регистр, сортирует слова)
- N-Gram Fingerprinting — для выявления опечаток
- Levenshtein — расстояние редактирования между строками
Трансформация данных с GREL
GREL (General Refine Expression Language) — встроенный язык программирования для сложных преобразований:
- Нормализация текста (приведение к lowercase, удаление пунктуации)
- Условные операции (if-then-else)
- Работа с массивами и строками
- Регулярные выражения
История операций (Undo/Redo)
OpenRefine ведёт полную историю всех операций, позволяя:
- Отменить любую операцию (Undo)
- Вернуться к любому состоянию проекта
- Повторить последовательность операций на новом датасете
OpenRefine — это незаменимый инструмент для исследователей, работающих с данными. Он особенно полезен в библиометрических исследованиях, где качество данных критично для получения надёжных результатов. Простота использования в сочетании с мощностью GREL делает его идеальным выбором как для начинающих, так и для опытных аналитиков данных.
Методы
Key Collision методы (быстрые):
- Fingerprint (по умолчанию, консервативный)
- Удаляет пунктуацию, переводит в lowercase, сортирует слова
- N-Gram Fingerprint
- Использует n-граммы (последовательности символов)
Phonetic Fingerprint
С алгоритмами: Metaphone 3, Soundex, Cologne Phonetic, Beider-Morse
Nearest Neighbor методы (медленные, но точные):
- Levenshtein Distance (Edit Distance)
- Считает операции редактирования для преобразования одной строки в другую
- PPM (Prediction by Partial Matching)
- Очень агрессивный, много false positives

