scikit-learn
diff --git a/‎examples/plot_learning_curve.py
Lines changed: 1 addition & 1 deletion b/‎examples/plot_learning_curve.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎sklearn/grid_search.py
Lines changed: 2 additions & 1 deletion b/‎sklearn/grid_search.py
Lines changed: 2 additions & 1 deletion
diff --git a/‎sklearn/learning_curve.py
Lines changed: 47 additions & 32 deletions b/‎sklearn/learning_curve.py
Lines changed: 47 additions & 32 deletions
diff --git a/‎sklearn/tests/test_learning_curve.py
Lines changed: 84 additions & 0 deletions b/‎sklearn/tests/test_learning_curve.py
Lines changed: 84 additions & 0 deletions
 import matplotlib.pyplot as plt
 from sklearn.naive_bayes import GaussianNB
 from sklearn.datasets import load_digits
-from sklearn.learning_curve import learning_curve # TODO should be: from sklearn import learning_curve
+from sklearn.learning_curve import learning_curve
 
 if __name__ == "__main__":
     estimator = GaussianNB()
 
@@ -254,7 +254,8 @@ def _split_and_score(base_estimator, X, y, parameters, train, test, scorer,
                      return_train_score=False, **fit_params):
     # update parameters of the classifier after a copy of its base structure
     estimator = clone(base_estimator)
-    estimator.set_params(**parameters)
+    if len(parameters) > 0:
+        estimator.set_params(**parameters)
 
     if hasattr(base_estimator, 'kernel') and callable(base_estimator.kernel):
         # cannot compute the kernel values with custom function
 
@@ -1,4 +1,5 @@
 import numpy as np
+import warnings
 from .base import is_classifier, clone
 from .cross_validation import _check_cv
 from .utils import check_arrays
@@ -9,7 +10,10 @@
 def learning_curve(estimator, X, y, n_samples_range=np.linspace(0.1, 1.0, 10),
                    cv=None, scoring=None, exploit_incremental_learning=False,
                    n_jobs=1, verbose=0):
-    """ TODO document me
+    """Learning curve
+
+    Determines cross-validated training and test scores for different training
+    set sizes.
 
     Parameters
     ----------
@@ -63,49 +67,26 @@ def learning_curve(estimator, X, y, n_samples_range=np.linspace(0.1, 1.0, 10),
     test_scores : array, shape = [n_ticks,]
         Scores on test set.
     """
-    # TODO tests, doc
     # TODO use verbose argument
 
-    X, y = check_arrays(X, y, sparse_format='csr', allow_lists=True)
-    # Make a list since we will be iterating multiple times over the folds
-    cv = list(_check_cv(cv, X, y, classifier=is_classifier(estimator)))
-
     if exploit_incremental_learning and not hasattr(estimator, 'partial_fit'):
         raise ValueError('An estimator must support the partial_fit interface '
                          'to exploit incremental learning')
 
-    # Determine range of number of training samples
+    X, y = check_arrays(X, y, sparse_format='csr', allow_lists=True)
+    # Make a list since we will be iterating multiple times over the folds
+    cv = list(_check_cv(cv, X, y, classifier=is_classifier(estimator)))
+
     n_max_training_samples = cv[0][0].shape[0]
-    n_samples_range = np.asarray(n_samples_range)
-    n_min_required_samples = np.min(n_samples_range)
-    n_max_required_samples = np.max(n_samples_range)
-    if np.issubdtype(n_samples_range.dtype, np.float):
-        if n_min_required_samples <= 0.0 or n_max_required_samples > 1.0:
-            raise ValueError("n_samples_range must be within (0, 1], "
-                             "but is within [%f, %f]."
-                             % (n_min_required_samples,
-                                n_max_required_samples))
-        n_samples_range = np.unique((n_samples_range *
-                                     n_max_training_samples).astype(np.int))
-        # TODO we could
-        # - print a warning
-        # - *, inverse = np.unique(*, return_inverse=True); return np.take(., inverse)
-        # if there are duplicate elements
-    else:
-        if (n_min_required_samples <= 0 or
-            n_max_required_samples > n_max_training_samples):
-            raise ValueError("n_samples_range must be within (0, %d], "
-                             "but is within [%d, %d]."
-                             % (n_max_training_samples,
-                                n_min_required_samples,
-                                n_max_required_samples))
+    n_samples_range, n_unique_ticks = _translate_n_samples_range(
+            n_samples_range, n_max_training_samples)
 
     _check_scorable(estimator, scoring=scoring)
     scorer = _deprecate_loss_and_score_funcs(scoring=scoring)
 
     if exploit_incremental_learning:
+        raise NotImplemented("Incremental learning is not supported yet")
         # TODO exploit incremental learning 
-        pass
     else:
         out = Parallel(
             # TODO use pre_dispatch parameter? what is it good for?
@@ -116,13 +97,47 @@ def learning_curve(estimator, X, y, n_samples_range=np.linspace(0.1, 1.0, 10),
                 for n_train_samples in n_samples_range for train, test in cv)
 
         out = np.array(out)
-        n_unique_ticks = n_samples_range.shape[0]
         n_cv_folds = out.shape[0]/n_unique_ticks
         out = out.reshape(n_unique_ticks, n_cv_folds, 2)
         avg_over_cv = out.mean(axis=1).reshape(n_unique_ticks, 2)
 
         return n_samples_range, avg_over_cv[:, 0], avg_over_cv[:, 1]
 
+
+def _translate_n_samples_range(n_samples_range, n_max_training_samples):
+    """Determine range of number of training samples"""
+    n_samples_range = np.asarray(n_samples_range)
+    n_ticks = n_samples_range.shape[0]
+    n_min_required_samples = np.min(n_samples_range)
+    n_max_required_samples = np.max(n_samples_range)
+    if np.issubdtype(n_samples_range.dtype, np.float):
+        if n_min_required_samples <= 0.0 or n_max_required_samples > 1.0:
+            raise ValueError("n_samples_range must be within (0, 1], "
+                             "but is within [%f, %f]."
+                             % (n_min_required_samples,
+                                n_max_required_samples))
+        n_samples_range = (n_samples_range * n_max_training_samples
+                ).astype(np.int)
+        n_samples_range = np.clip(n_samples_range, 1, n_max_training_samples)
+    else:
+        if (n_min_required_samples <= 0 or
+            n_max_required_samples > n_max_training_samples):
+            raise ValueError("n_samples_range must be within (0, %d], "
+                             "but is within [%d, %d]."
+                             % (n_max_training_samples,
+                                n_min_required_samples,
+                                n_max_required_samples))
+
+    n_samples_range = np.unique(n_samples_range)
+    n_unique_ticks = n_samples_range.shape[0]
+    if n_ticks > n_unique_ticks:
+        warnings.warn("Number of ticks will be less than than the size of "
+                      "'n_samples_range' (%d instead of %d)."
+                      % (n_unique_ticks, n_ticks), RuntimeWarning)
+
+    return n_samples_range, n_unique_ticks
+
+
 def _fit_estimator(base_estimator, X, y, train, test, n_train_samples,
                    scorer, verbose):
     # HACK as long as boolean indices are allowed in cv generators
 
@@ -0,0 +1,84 @@
+import numpy as np
+from sklearn.learning_curve import learning_curve
+from sklearn.utils.testing import assert_raises
+from sklearn.utils.testing import assert_warns
+from sklearn.utils.testing import assert_array_equal
+from sklearn.utils.testing import assert_array_almost_equal
+from sklearn.datasets import make_classification
+from sklearn.svm import SVC
+
+class MockImprovingClassifier(object):
+    """Dummy classifier to test the learning curve"""
+    def __init__(self, n_max_train_samples):
+        self.n_max_train_samples = n_max_train_samples
+        self.n_train_samples = 0
+
+    def fit(self, X_subset, y_subset):
+        self.X_subset = X_subset
+        self.y_subset = y_subset
+        self.n_train_samples = X_subset.shape[0]
+        return self
+
+    def predict(self, X):
+        raise NotImplemented
+
+    def score(self, X=None, Y=None):
+        # training score becomes worse (2 -> 1), test error better (0 -> 1)
+        if X is self.X_subset:
+            return 2. - float(self.n_train_samples) / self.n_max_train_samples
+        else:
+            return float(self.n_train_samples) / self.n_max_train_samples
+
+    def get_params(self, deep=False):
+        return {"n_max_train_samples" : self.n_max_train_samples}
+
+    def set_params(self, **params):
+        self.n_max_train_samples = params["n_max_train_samples"]
+        return self
+
+
+def test_learning_curve():
+    X, y = make_classification(n_samples=30, n_features=1, n_informative=1,
+                               n_redundant=0, n_classes=2,
+                               n_clusters_per_class=1, random_state=0)
+    estimator = MockImprovingClassifier(20)
+    n_samples_range, train_scores, test_scores = learning_curve(estimator,
+                                                                X, y, cv=3)
+    assert_array_equal(n_samples_range, np.linspace(2, 20, 10))
+    assert_array_almost_equal(train_scores, np.linspace(1.9, 1.0, 10))
+    assert_array_almost_equal(test_scores, np.linspace(0.1, 1.0, 10))
+
+
+def test_incremental_learning_not_possible():
+    X, y = make_classification(n_samples=2, n_features=1, n_informative=1,
+                               n_redundant=0, n_classes=2,
+                               n_clusters_per_class=1, random_state=0)
+    # The mockup does not have partial_fit()
+    estimator = MockImprovingClassifier(1)
+    assert_raises(ValueError, learning_curve, estimator, X, y,
+                  exploit_incremental_learning=True)
+
+
+def test_n_sample_range_out_of_bounds():
+    X, y = make_classification(n_samples=30, n_features=1, n_informative=1,
+                               n_redundant=0, n_classes=2,
+                               n_clusters_per_class=1, random_state=0)
+    estimator = MockImprovingClassifier(20)
+    assert_raises(ValueError, learning_curve, estimator, X, y, cv=3,
+                  n_samples_range=[0.0, 1.0])
+    assert_raises(ValueError, learning_curve, estimator, X, y, cv=3,
+                  n_samples_range=[0.1, 1.1])
+    assert_raises(ValueError, learning_curve, estimator, X, y, cv=3,
+                  n_samples_range=[0, 20])
+    assert_raises(ValueError, learning_curve, estimator, X, y, cv=3,
+                  n_samples_range=[1, 21])
+
+def test_remove_multiple_sample_sizes():
+    X, y = make_classification(n_samples=3, n_features=1, n_informative=1,
+                               n_redundant=0, n_classes=2,
+                               n_clusters_per_class=1, random_state=0)
+    estimator = MockImprovingClassifier(2)
+    n_samples_range, _, _ = assert_warns(RuntimeWarning,
+            learning_curve, estimator, X, y, cv=3,
+            n_samples_range=np.linspace(0.33, 1.0, 3))
+    assert_array_equal(n_samples_range, [1, 2])