Кластеризация в Python с помощью библиотеки sklearn.

В качестве примера будем использовать Agglomerative Clustering - тип алгоритма иерархической кластеризации, который объединяет наиболее похожие пары точек данных или кластеров, выстраивая иерархию кластеров до тех пор, пока все точки данных не будут принадлежать одному кластеру.

Сначала импортируем всё нужное:

from sklearn.cluster import AgglomerativeClustering import numpy as np import pandas as pd

Далее пропишем основные параметры для кластеризации

clusters = None distance = 0.35 model = AgglomerativeClustering(n_clusters = clusters, distance_threshold = distance)

В зависимости от ваших целей, задаём:

✅параметр distance - расстояние между кластерами (если планируете осуществлять кластеризацию на основе "похожести" данных, тогда количество кластеров будет определяться автоматически)

✅ИЛИ параметр clusters - количество кластеров (тогда на основе заданного количества кластеров автоматически определится оптимальное расстояние между ними)

Затем выводим результаты кластеризации

df = pd.DataFrame(corr) X = model.fit_predict(df) print(X)

где параметр corr - матрица из ваших данных (например, полученная в результате произведения векторов)

Больше полезной информации вы можете найти в моем Телеграм канале Бизнес, IT и статистика

Начать дискуссию