Кластеризация: различия между версиями

Материал из Поле цифровой дидактики
Строка 16: Строка 16:


Глобальный коэффициент кластеризации показывает уровень сплоченности и взаимодействия группы как коллективного субъекта деятельности. В [[МЭШ]] групповой показатель кластеризации может использоваться при сравнении групп учителей, преподающих в одних школах или при сравнении группировок, преподающих различные учебные дисциплины.
Глобальный коэффициент кластеризации показывает уровень сплоченности и взаимодействия группы как коллективного субъекта деятельности. В [[МЭШ]] групповой показатель кластеризации может использоваться при сравнении групп учителей, преподающих в одних школах или при сравнении группировок, преподающих различные учебные дисциплины.
== Формальная постановка задачи кластеризации ==
Пусть <math>X</math> — множество объектов, <math>Y</math> — множество номеров (имён, меток) кластеров. Задана функция расстояния между объектами <math>\rho(x,x')</math>. Имеется конечная обучающая выборка объектов <math>X^m = \{ x_1, \dots, x_m \} \subset X</math>. Требуется разбить выборку на непересекающиеся подмножества, называемые ''кластерами'', так, чтобы каждый кластер состоял из объектов, близких по метрике <math>\rho</math>, а объекты разных кластеров существенно отличались. При этом каждому объекту <math>x_i\in X^m</math>
приписывается номер кластера <math>y_i</math>.
''Алгоритм кластеризации'' — это функция <math>a\colon X\to Y</math>, которая любому объекту <math>x\in X</math> ставит в соответствие номер кластера <math>y\in Y</math>. Множество <math>Y</math> в некоторых случаях известно заранее, однако чаще ставится задача определить оптимальное число кластеров, с точки зрения того или иного ''критерия качества'' кластеризации.

Версия 16:57, 22 марта 2024


Описание Кластеризация (англ. cluster analysis) — задача группировки множества объектов на подмножества (кластеры) таким образом, чтобы объекты из одного кластера были более похожи друг на друга, чем на объекты из других кластеров по какому-либо критерию.

Задача кластеризации относится к классу задач обучения без учителя.

  • Сетевая метрика / Кластеризация. Коэффициент кластеризации данного узла есть вероятность того, что два ближайших соседа этого узла сами есть ближайшие соседи.
Область знаний
Авторы
Поясняющее видео
Близкие понятия кластер
Среды и средства для освоения понятия R, NetLogo, Python, OpenRepGrid, WenGrid
ru_wikipedia:Кластерный анализ - interwiki

Кластерный анализ (англ. cluster analysis) — многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы. Задача кластеризации относится к статистической обработке, а также к широкому классу задач обучения без учителя.

330px-Cluster-2.svg.png

Глобальный коэффициент кластеризации показывает уровень сплоченности и взаимодействия группы как коллективного субъекта деятельности. В МЭШ групповой показатель кластеризации может использоваться при сравнении групп учителей, преподающих в одних школах или при сравнении группировок, преподающих различные учебные дисциплины.

Формальная постановка задачи кластеризации

Пусть [math]\displaystyle{ X }[/math] — множество объектов, [math]\displaystyle{ Y }[/math] — множество номеров (имён, меток) кластеров. Задана функция расстояния между объектами [math]\displaystyle{ \rho(x,x') }[/math]. Имеется конечная обучающая выборка объектов [math]\displaystyle{ X^m = \{ x_1, \dots, x_m \} \subset X }[/math]. Требуется разбить выборку на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый кластер состоял из объектов, близких по метрике [math]\displaystyle{ \rho }[/math], а объекты разных кластеров существенно отличались. При этом каждому объекту [math]\displaystyle{ x_i\in X^m }[/math] приписывается номер кластера [math]\displaystyle{ y_i }[/math].

Алгоритм кластеризации — это функция [math]\displaystyle{ a\colon X\to Y }[/math], которая любому объекту [math]\displaystyle{ x\in X }[/math] ставит в соответствие номер кластера [math]\displaystyle{ y\in Y }[/math]. Множество [math]\displaystyle{ Y }[/math] в некоторых случаях известно заранее, однако чаще ставится задача определить оптимальное число кластеров, с точки зрения того или иного критерия качества кластеризации.