FIX & TST at least min_samples to be considered a core sample

ogrisel · ogrisel · commit 2e99294a54cd · 2015-03-17T16:21:10.000+01:00
diff --git a/sklearn/cluster/dbscan_.py b/sklearn/cluster/dbscan_.py
@@ -135,7 +135,7 @@ def dbscan(X, eps=0.5, min_samples=5, metric='minkowski',
     labels = -np.ones(X.shape[0], dtype=np.intp)
 
     # A list of all core samples found.
-    core_samples = np.asarray(n_neighbors > min_samples, dtype=np.uint8)
+    core_samples = np.asarray(n_neighbors >= min_samples, dtype=np.uint8)
     dbscan_inner(core_samples, neighborhoods, labels)
     return np.where(core_samples)[0], labels
 
diff --git a/sklearn/cluster/tests/test_dbscan.py b/sklearn/cluster/tests/test_dbscan.py
@@ -259,3 +259,37 @@ def test_weighted_dbscan():
     assert_array_equal(core1, core5)
     assert_array_equal(label1, label5)
     assert_array_equal(label1, est.labels_)
+
+
+def test_dbscan_core_samples_toy():
+    X = [[0], [2], [3], [4], [6], [8], [10]]
+    n_samples = len(X)
+
+    for algorithm in ['brute', 'kd_tree', 'ball_tree']:
+        # Degenerate case: every sample is a core sample, either with its own
+        # cluster or including other close core samples.
+        core_samples, labels = dbscan(X, algorithm=algorithm, eps=1,
+                                      min_samples=1)
+        assert_array_equal(core_samples, np.arange(n_samples))
+        assert_array_equal(labels, [0, 1, 1, 1, 2, 3, 4])
+
+        # With eps=1 and min_samples=2 only the 3 samples from the denser area
+        # are core samples. All other points are isolated and considered noise.
+        core_samples, labels = dbscan(X, algorithm=algorithm, eps=1,
+                                      min_samples=2)
+        assert_array_equal(core_samples, [1, 2, 3])
+        assert_array_equal(labels, [-1, 0, 0, 0, -1, -1, -1])
+
+        # Only the sample in the middle of the dense area is core. Its two
+        # neighbors are edge samples. Remaining samples are noise.
+        core_samples, labels = dbscan(X, algorithm=algorithm, eps=1,
+                                      min_samples=3)
+        assert_array_equal(core_samples, [2])
+        assert_array_equal(labels, [-1, 0, 0, 0, -1, -1, -1])
+
+        # It's no longer possible to extract core samples with eps=1:
+        # everything is noise.
+        core_samples, labels = dbscan(X, algorithm=algorithm, eps=1,
+                                      min_samples=4)
+        assert_array_equal(core_samples, [])
+        assert_array_equal(labels, -np.ones(n_samples))