<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="ru">
	<id>http://digida.mgpu.ru/index.php?action=history&amp;feed=atom&amp;title=%D0%9E%D1%87%D0%B8%D1%81%D1%82%D0%BA%D0%B0_%D0%B8_%D1%80%D0%B0%D0%B7%D0%BC%D0%B5%D1%82%D0%BA%D0%B0_OpenRefine_%D0%A5%D0%B0%D0%B4%D0%B8%D0%B6%D0%B0</id>
	<title>Очистка и разметка OpenRefine Хадижа - История изменений</title>
	<link rel="self" type="application/atom+xml" href="http://digida.mgpu.ru/index.php?action=history&amp;feed=atom&amp;title=%D0%9E%D1%87%D0%B8%D1%81%D1%82%D0%BA%D0%B0_%D0%B8_%D1%80%D0%B0%D0%B7%D0%BC%D0%B5%D1%82%D0%BA%D0%B0_OpenRefine_%D0%A5%D0%B0%D0%B4%D0%B8%D0%B6%D0%B0"/>
	<link rel="alternate" type="text/html" href="http://digida.mgpu.ru/index.php?title=%D0%9E%D1%87%D0%B8%D1%81%D1%82%D0%BA%D0%B0_%D0%B8_%D1%80%D0%B0%D0%B7%D0%BC%D0%B5%D1%82%D0%BA%D0%B0_OpenRefine_%D0%A5%D0%B0%D0%B4%D0%B8%D0%B6%D0%B0&amp;action=history"/>
	<updated>2026-06-24T11:38:54Z</updated>
	<subtitle>История изменений этой страницы в вики</subtitle>
	<generator>MediaWiki 1.44.0</generator>
	<entry>
		<id>http://digida.mgpu.ru/index.php?title=%D0%9E%D1%87%D0%B8%D1%81%D1%82%D0%BA%D0%B0_%D0%B8_%D1%80%D0%B0%D0%B7%D0%BC%D0%B5%D1%82%D0%BA%D0%B0_OpenRefine_%D0%A5%D0%B0%D0%B4%D0%B8%D0%B6%D0%B0&amp;diff=47790&amp;oldid=prev</id>
		<title>Асадова Хадижа: Новая страница: «== Описание задания ==  Для выполнения задания был выбран датасет &#039;&#039;&#039;Books (dataset)&#039;&#039;&#039; с платформы digida.mgpu.ru — 1000 самых популярных книг проекта Гутенберг с метриками читаемости, тональности и статистикой текста.  Датасет получен с: https://corgis-edu.github.io/corgis/datasets/csv/classic...»</title>
		<link rel="alternate" type="text/html" href="http://digida.mgpu.ru/index.php?title=%D0%9E%D1%87%D0%B8%D1%81%D1%82%D0%BA%D0%B0_%D0%B8_%D1%80%D0%B0%D0%B7%D0%BC%D0%B5%D1%82%D0%BA%D0%B0_OpenRefine_%D0%A5%D0%B0%D0%B4%D0%B8%D0%B6%D0%B0&amp;diff=47790&amp;oldid=prev"/>
		<updated>2026-06-13T16:47:17Z</updated>

		<summary type="html">&lt;p&gt;Новая страница: «== Описание задания ==  Для выполнения задания был выбран датасет &amp;#039;&amp;#039;&amp;#039;&lt;a href=&quot;/index.php/Books_(dataset)&quot; title=&quot;Books (dataset)&quot;&gt;Books (dataset)&lt;/a&gt;&amp;#039;&amp;#039;&amp;#039; с платформы digida.mgpu.ru — 1000 самых популярных книг проекта Гутенберг с метриками читаемости, тональности и статистикой текста.  Датасет получен с: https://corgis-edu.github.io/corgis/datasets/csv/classic...»&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Новая страница&lt;/b&gt;&lt;/p&gt;&lt;div&gt;== Описание задания ==&lt;br /&gt;
&lt;br /&gt;
Для выполнения задания был выбран датасет &amp;#039;&amp;#039;&amp;#039;[[Books (dataset)]]&amp;#039;&amp;#039;&amp;#039; с платформы digida.mgpu.ru — 1000 самых популярных книг проекта Гутенберг с метриками читаемости, тональности и статистикой текста.&lt;br /&gt;
&lt;br /&gt;
Датасет получен с: https://corgis-edu.github.io/corgis/datasets/csv/classics/classics.csv&lt;br /&gt;
&lt;br /&gt;
== Инструмент ==&lt;br /&gt;
&lt;br /&gt;
Для очистки и разметки использовался &amp;#039;&amp;#039;&amp;#039;OpenRefine 3.10&amp;#039;&amp;#039;&amp;#039;.&lt;br /&gt;
&lt;br /&gt;
== Шаги очистки в OpenRefine ==&lt;br /&gt;
&lt;br /&gt;
# Загрузка CSV-файла (848 записей, 38 столбцов)&lt;br /&gt;
# &amp;#039;&amp;#039;&amp;#039;Text facet&amp;#039;&amp;#039;&amp;#039; по столбцу &amp;#039;&amp;#039;&amp;#039;bibliography.languages&amp;#039;&amp;#039;&amp;#039; — выявлены проблемы со значениями&lt;br /&gt;
# &amp;#039;&amp;#039;&amp;#039;Text facet&amp;#039;&amp;#039;&amp;#039; по столбцу &amp;#039;&amp;#039;&amp;#039;bibliography.author.name&amp;#039;&amp;#039;&amp;#039; — 555 уникальных авторов&lt;br /&gt;
# &amp;#039;&amp;#039;&amp;#039;Cluster&amp;#039;&amp;#039;&amp;#039; по именам авторов — дублей не обнаружено (No clusters found)&lt;br /&gt;
# &amp;#039;&amp;#039;&amp;#039;Trim leading and trailing whitespace&amp;#039;&amp;#039;&amp;#039; — лишних пробелов не обнаружено&lt;br /&gt;
&lt;br /&gt;
== Проблемы в данных ==&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
! Проблема !! Описание !! Пример&lt;br /&gt;
|-&lt;br /&gt;
| Смешанные языки || Несколько языков в одной ячейке || en,enm / en,es&lt;br /&gt;
|-&lt;br /&gt;
| Нестандартные имена авторов || Дата в имени автора || &amp;quot;Aguado, Pedro de, active 16th century&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
| Организация вместо автора || Компания указана как автор || &amp;quot;Babcock &amp;amp; Wilcox Company&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
| Пустой столбец || bibliography.author.death часто пустой || —&lt;br /&gt;
|-&lt;br /&gt;
| Anonymous || 11 книг без автора || Anonymous&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
== Статистика датасета ==&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
! Показатель !! Значение&lt;br /&gt;
|-&lt;br /&gt;
| Всего записей || 848&lt;br /&gt;
|-&lt;br /&gt;
| Столбцов || 38&lt;br /&gt;
|-&lt;br /&gt;
| Уникальных авторов || 555&lt;br /&gt;
|-&lt;br /&gt;
| Основной язык || en — 965 записей&lt;br /&gt;
|-&lt;br /&gt;
| Других языков || de (18), fr (7), es (3) и др. — всего 13 значений&lt;br /&gt;
|-&lt;br /&gt;
| Книг без автора || 11 (Anonymous)&lt;br /&gt;
|-&lt;br /&gt;
| Самая популярная книга || Pride and Prejudice (Austen, Jane)&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
== Выводы ==&lt;br /&gt;
&lt;br /&gt;
Датасет Books (Classics) оказался достаточно чистым — дублей и лишних пробелов не обнаружено. Основные проблемы: смешанные значения языков в одной ячейке, нестандартные форматы имён авторов (даты жизни в имени, организации вместо людей), пустые значения в столбце дат смерти. Датасет готов к дальнейшему анализу в R.&lt;br /&gt;
&lt;br /&gt;
[[Категория:CompLing Works]]&lt;/div&gt;</summary>
		<author><name>Асадова Хадижа</name></author>
	</entry>
</feed>