Кластеризация: различия между версиями

Материал из Поле цифровой дидактики
Нет описания правки
Нет описания правки
Строка 4: Строка 4:
Задача кластеризации относится к классу задач обучения без учителя.
Задача кластеризации относится к классу задач обучения без учителя.
* Сетевая метрика / Кластеризация. Коэффициент кластеризации данного узла есть вероятность того, что два ближайших соседа этого узла сами есть ближайшие соседи.
* Сетевая метрика / Кластеризация. Коэффициент кластеризации данного узла есть вероятность того, что два ближайших соседа этого узла сами есть ближайшие соседи.
|similar_concepts=кластер, коэффициент кластеризации
|similar_concepts=Кластер (кластер), Коэффициент кластеризации (коэффициент кластеризации)
|Environment=R, NetLogo, Python, OpenRepGrid, WenGrid
|Environment=R, NetLogo, Python, OpenRepGrid, WenGrid, DBSCAN
|FieldActivity=Дизайнер Сообществ
|FieldActivity=Дизайнер Сообществ
|Возрастная категория=16
|Возрастная категория=16

Версия от 07:56, 23 марта 2026


Описание Кластеризация (англ. cluster analysis) — задача группировки множества объектов на подмножества (кластеры) таким образом, чтобы объекты из одного кластера были более похожи друг на друга, чем на объекты из других кластеров по какому-либо критерию.

Задача кластеризации относится к классу задач обучения без учителя.

  • Сетевая метрика / Кластеризация. Коэффициент кластеризации данного узла есть вероятность того, что два ближайших соседа этого узла сами есть ближайшие соседи.
Область знаний
Авторы
Поясняющее видео
Близкие понятия Кластер (кластер), Коэффициент кластеризации (коэффициент кластеризации)
Среды и средства для освоения понятия R, NetLogo, Python, OpenRepGrid, WenGrid, DBSCAN
ru_wikipedia:Кластерный анализ - interwiki

Кластерный анализ (англ. cluster analysis) — многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы. Задача кластеризации относится к статистической обработке, а также к широкому классу задач обучения без учителя.

330px-Cluster-2.svg.png


Формальная постановка задачи кластеризации

Пусть [math]\displaystyle{ X }[/math] — множество объектов, [math]\displaystyle{ Y }[/math] — множество номеров (имён, меток) кластеров. Задана функция расстояния между объектами [math]\displaystyle{ \rho(x,x') }[/math]. Имеется конечная обучающая выборка объектов [math]\displaystyle{ X^m = \{ x_1, \dots, x_m \} \subset X }[/math]. Требуется разбить выборку на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый кластер состоял из объектов, близких по метрике [math]\displaystyle{ \rho }[/math], а объекты разных кластеров существенно отличались. При этом каждому объекту [math]\displaystyle{ x_i\in X^m }[/math] приписывается номер кластера [math]\displaystyle{ y_i }[/math].

Алгоритм кластеризации — это функция [math]\displaystyle{ a\colon X\to Y }[/math], которая любому объекту [math]\displaystyle{ x\in X }[/math] ставит в соответствие номер кластера [math]\displaystyle{ y\in Y }[/math]. Множество [math]\displaystyle{ Y }[/math] в некоторых случаях известно заранее, однако чаще ставится задача определить оптимальное число кластеров, с точки зрения того или иного критерия качества кластеризации.