Кластеризация

Материал из Поле цифровой дидактики


Описание Кластеризация (англ. cluster analysis) — задача группировки множества объектов на подмножества (кластеры) таким образом, чтобы объекты из одного кластера были более похожи друг на друга, чем на объекты из других кластеров по какому-либо критерию.

Задача кластеризации относится к классу задач обучения без учителя.

  • Сетевая метрика / Кластеризация. Коэффициент кластеризации данного узла есть вероятность того, что два ближайших соседа этого узла сами есть ближайшие соседи.
Область знаний
Авторы
Поясняющее видео
Близкие понятия кластер
Среды и средства для освоения понятия R, NetLogo, Python, OpenRepGrid, WenGrid

Постановка задачи кластеризации

Пусть <tex>X</tex> Шаблон:--- множество объектов, <tex>Y</tex> Шаблон:--- множество идентификаторов (меток) кластеров. На множестве <tex>X</tex> задана функция расстояния между объектами <tex>\rho(x,x')</tex>. Дана конечная обучающая выборка объектов <tex>X^m = \{ x_1, \dots, x_m \} \subset X</tex>. Необходимо разбить выборку на подмножества (кластеры), то есть каждому объекту <tex>x_i \in X^m</tex> сопоставить метку <tex>y_i \in Y</tex>, таким образом чтобы объекты внутри каждого кластера были близки относительно метрики <tex>\rho</tex>, а объекты из разных кластеров значительно различались.

Глобальный коэффициент кластеризации показывает уровень сплоченности и взаимодействия группы как коллективного субъекта деятельности. В МЭШ групповой показатель кластеризации может использоваться при сравнении групп учителей, преподающих в одних школах или при сравнении группировок, преподающих различные учебные дисциплины.