import numpy as np
import pandas as pd
from sklearn.cluster import DBSCAN
import hdbscan
import matplotlib.pyplot as plt

df = pd.read_csv('/Users/namgyulee/s1.csv')

eps_values = np.arange(20400, 20551, 10)
cluster_nums = {}
cluster_plots = {}
best_epsilon = None
best_num_clusters = float('inf')
minPts = 4

for eps in eps_values:
    dbscan_results = DBSCAN(eps=eps, min_samples=minPts).fit(df)
    unique_clusters = np.unique(dbscan_results.labels_[dbscan_results.labels_ != -1])
    num_clusters = len(unique_clusters)
    
    cluster_nums[eps] = num_clusters
    plt.figure()
    plt.scatter(df.values[:, 0], df.values[:, 1], c=dbscan_results.labels_, cmap='viridis')
    plt.title(f'DBSCAN Clustering (eps = {eps}, {num_clusters} clusters)')
    cluster_plots[eps] = plt
    
    if num_clusters == 16 and num_clusters < best_num_clusters:
        best_epsilon = eps
        best_num_clusters = num_clusters

print(f"At minPts = {minPts}, eps = {best_epsilon}, there are {best_num_clusters} clusters")

At minPts = 4, eps = 20510, there are 16 clusters

cluster_plots = {}
min_cluster_size = 16 # Optional, default = 5

clusterer = hdbscan.HDBSCAN(min_cluster_size=min_cluster_size)
clusterer.fit(df.values) 

num_clusters = len(np.unique(clusterer.labels_)) - 1
cluster_plots[min_cluster_size] = plt.scatter(df.values[:, 0], df.values[:, 1], c=clusterer.labels_, cmap='viridis')
plt.title(f'HDBSCAN Clustering (min_cluster_size = {min_cluster_size}, {num_clusters} clusters)')

print(f"At min_cluster_size = {min_cluster_size}, there are {num_clusters} clusters")

At min_cluster_size = 16, there are 15 clusters

DBSCAN¶

What is DBSCAN¶

HDBSCAN¶