Books (dataset)

Материал из Поле цифровой дидактики
Описание датасета 1000 самых популярных книг проекта Гутенберг - имя автора, дата публикации, дата рождения, смерти средняя длина предложений, сложность чтения и т.д.
Описание полей
  1. "bibliography.congress classifications",
  2. "bibliography.languages",
  3. "bibliography.subjects",
  4. "bibliography.title",
  5. "bibliography.type",
  6. "metadata.downloads",
  7. "metadata.id",
  8. "metadata.rank",
  9. "metadata.url",
  10. "bibliography.author.birth",
  11. "bibliography.author.death",
  12. "bibliography.author.name",
  13. "bibliography.publication.day",
  14. "bibliography.publication.full",
  15. "bibliography.publication.month",
  16. "bibliography.publication.month name",
  17. "bibliography.publication.year",
  18. "metadata.formats.total",
  19. "metadata.formats.types",
  20. "metrics.difficulty.automated readability index",
  21. "metrics.difficulty.coleman liau index",
  22. "metrics.difficulty.dale chall readability score",
  23. "metrics.difficulty.difficult words",
  24. "metrics.difficulty.flesch kincaid grade",
  25. "metrics.difficulty.flesch reading ease",
  26. "metrics.difficulty.gunning fog",
  27. "metrics.difficulty.linsear write formula",
  28. "metrics.difficulty.smog index",
  29. "metrics.sentiments.polarity",
  30. "metrics.sentiments.subjectivity",
  31. "metrics.statistics.average letter per word",
  32. "metrics.statistics.average sentence length",
  33. "metrics.statistics.average sentence per word",
  34. "metrics.statistics.characters",
  35. "metrics.statistics.polysyllables",
  36. "metrics.statistics.sentences",
  37. "metrics.statistics.syllables",
  38. "metrics.statistics.words"
Форматы данных CSV, JSON
Область знаний Психология, Социология
Веб-сайт - ссылка на датасет https://corgis-edu.github.io/corgis/datasets/csv/classics/classics.csv
Примеры использования датасета
Год создания датасета

This dataset is a collection of the top 1000 most popular books on Project Gutenberg, as determined by downloads. Each book has information about its authorship, publication date, congressional classication, and a few other fields. It also has some simple, computed statistics based on common metrics such as sentiment analysis, Flesch Kincaid Reading level, and average sentence length.

Исходный файл

https://corgis-edu.github.io/corgis
https://corgis-edu.github.io/corgis/datasets/csv/classics/

Описание столбцов в таблице:

  • bibliography.title
  • bibliography.author.name

Фильтр в Snap!

Data Exteranal Book.png

Получаем данные

  • get_web_data


Таблица книг отсортированных по параметрам Rank, Readability, Readability, Comprehension_Difficulty, Polarity, Subjectivity

Таблица
Имя Ссылка Год рождения