scikit-learn
diff --git a/‎sklearn/mixture/base.py
Lines changed: 10 additions & 0 deletions b/‎sklearn/mixture/base.py
Lines changed: 10 additions & 0 deletions
diff --git a/‎sklearn/mixture/gaussian_mixture.py
Lines changed: 2 additions & 2 deletions b/‎sklearn/mixture/gaussian_mixture.py
Lines changed: 2 additions & 2 deletions
diff --git a/‎sklearn/mixture/tests/test_gaussian_mixture.py
Lines changed: 96 additions & 30 deletions b/‎sklearn/mixture/tests/test_gaussian_mixture.py
Lines changed: 96 additions & 30 deletions
@@ -90,6 +90,16 @@ def _check_initial_parameters(self, X):
         ----------
         X : array-like, shape (n_samples, n_features)
         """
+        if self.n_components < 1:
+            raise ValueError("Invalid value for 'n_components': %d "
+                             "Estimation requires at least one component"
+                             % self.n_components)
+
+        if self.tol < 0.:
+            raise ValueError("Invalid value for 'tol': %.5f "
+                             "Tolerance used by the EM must be non-negative"
+                             % self.tol)
+
         if self.n_init < 1:
             raise ValueError("Invalid value for 'n_init': %d "
                              "Estimation requires at least one run"
 
@@ -438,7 +438,7 @@ class GaussianMixture(BaseMixture):
         'diag' (each component has its own diagonal covariance matrix),
         'spherical' (each component has its own single variance),
 
-    tol : float, defaults to 1e-6.
+    tol : float, defaults to 1e-3.
         The convergence threshold. EM iterations will stop when the
         log_likelihood average gain is below this threshold.
 
@@ -518,7 +518,7 @@ class GaussianMixture(BaseMixture):
         `n_iter_`  will not exist before a call to fit.
     """
 
-    def __init__(self, n_components=1, covariance_type='full', tol=1e-6,
+    def __init__(self, n_components=1, covariance_type='full', tol=1e-3,
                  reg_covar=1e-6, max_iter=100, n_init=1, init_params='kmeans',
                  weights_init=None, means_init=None, covariances_init=None,
                  random_state=None, warm_start=False,
 
@@ -86,52 +86,79 @@ def __init__(self, rng, n_samples=500, n_components=2, n_features=2,
                             for k, w in enumerate(self.weights)])
 
 
-def test_gaussian_mixture_parameters():
+def test_gaussian_mixture_attributes():
     # test bad parameters
     rng = np.random.RandomState(0)
     X = rng.rand(10, 2)
 
-    n_init = 0
-    gmm = GaussianMixture(n_init=n_init)
+    n_components_bad = 0
+    gmm = GaussianMixture(n_components=n_components_bad)
     assert_raise_message(ValueError,
-                         "Invalid value for 'n_init': %d "
-                         "Estimation requires at least one run"
-                         % n_init,
-                         gmm.fit, X)
+                         "Invalid value for 'n_components': %d "
+                         "Estimation requires at least one component"
+                         % n_components_bad, gmm.fit, X)
 
-    max_iter = 0
-    gmm = GaussianMixture(max_iter=max_iter)
+    # covariance_type should be in [spherical, diag, tied, full]
+    covariance_type_bad = 'bad_covariance_type'
+    gmm = GaussianMixture(covariance_type=covariance_type_bad)
     assert_raise_message(ValueError,
-                         "Invalid value for 'max_iter': %d "
-                         "Estimation requires at least one iteration"
-                         % max_iter,
+                         "Invalid value for 'covariance_type': %s "
+                         "'covariance_type' should be in "
+                         "['spherical', 'tied', 'diag', 'full']"
+                         % covariance_type_bad,
                          gmm.fit, X)
 
-    reg_covar = -1
-    gmm = GaussianMixture(reg_covar=reg_covar)
+    tol_bad = -1
+    gmm = GaussianMixture(tol=tol_bad)
+    assert_raise_message(ValueError,
+                         "Invalid value for 'tol': %.5f "
+                         "Tolerance used by the EM must be non-negative"
+                         % tol_bad, gmm.fit, X)
+
+    reg_covar_bad = -1
+    gmm = GaussianMixture(reg_covar=reg_covar_bad)
     assert_raise_message(ValueError,
                          "Invalid value for 'reg_covar': %.5f "
                          "regularization on covariance must be "
-                         "non-negative" % reg_covar,
-                         gmm.fit, X)
+                         "non-negative" % reg_covar_bad, gmm.fit, X)
 
-    # covariance_type should be in [spherical, diag, tied, full]
-    covariance_type = 'bad_covariance_type'
-    gmm = GaussianMixture(covariance_type=covariance_type)
+    max_iter_bad = 0
+    gmm = GaussianMixture(max_iter=max_iter_bad)
     assert_raise_message(ValueError,
-                         "Invalid value for 'covariance_type': %s "
-                         "'covariance_type' should be in "
-                         "['spherical', 'tied', 'diag', 'full']"
-                         % covariance_type,
-                         gmm.fit, X)
+                         "Invalid value for 'max_iter': %d "
+                         "Estimation requires at least one iteration"
+                         % max_iter_bad, gmm.fit, X)
+
+    n_init_bad = 0
+    gmm = GaussianMixture(n_init=n_init_bad)
+    assert_raise_message(ValueError,
+                         "Invalid value for 'n_init': %d "
+                         "Estimation requires at least one run"
+                         % n_init_bad, gmm.fit, X)
 
-    init_params = 'bad_method'
-    gmm = GaussianMixture(init_params=init_params)
+    init_params_bad = 'bad_method'
+    gmm = GaussianMixture(init_params=init_params_bad)
     assert_raise_message(ValueError,
                          "Unimplemented initialization method '%s'"
-                         % init_params,
+                         % init_params_bad,
                          gmm.fit, X)
 
+    # test good parameters
+    n_components, tol, n_init, max_iter, reg_covar = 2, 1e-4, 3, 30, 1e-1
+    covariance_type, init_params = 'full', 'random'
+    gmm = GaussianMixture(n_components=n_components, tol=tol, n_init=n_init,
+                          max_iter=max_iter, reg_covar=reg_covar,
+                          covariance_type=covariance_type,
+                          init_params=init_params).fit(X)
+
+    assert_equal(gmm.n_components, n_components)
+    assert_equal(gmm.covariance_type, covariance_type)
+    assert_equal(gmm.tol, tol)
+    assert_equal(gmm.reg_covar, reg_covar)
+    assert_equal(gmm.max_iter, max_iter)
+    assert_equal(gmm.n_init, n_init)
+    assert_equal(gmm.init_params, init_params)
+
 
 def test_check_X():
     from sklearn.mixture.base import _check_X
@@ -447,6 +474,9 @@ def test_gaussian_mixture_estimate_log_prob_resp():
         g.fit(X)
         resp = g.predict_proba(X)
         assert_array_almost_equal(resp.sum(axis=1), np.ones(n_samples))
+        assert_array_equal(g.weights_init, weights)
+        assert_array_equal(g.means_init, means)
+        assert_array_equal(g.covariances_init, covariances)
 
 
 def test_gaussian_mixture_predict_predict_proba():
@@ -560,6 +590,21 @@ def test_gaussian_mixture_fit_convergence_warning():
                              % max_iter, g.fit, X)
 
 
+def test_multiple_init():
+    # Test that multiple inits does not much worse than a single one
+    rng = np.random.RandomState(0)
+    n_samples, n_features, n_components = 50, 5, 2
+    X = rng.randn(n_samples, n_features)
+    for cv_type in COVARIANCE_TYPE:
+        train1 = GaussianMixture(n_components=n_components,
+                                 covariance_type=cv_type,
+                                 random_state=rng).fit(X).score(X)
+        train2 = GaussianMixture(n_components=n_components,
+                                 covariance_type=cv_type,
+                                 random_state=rng, n_init=5).fit(X).score(X)
+        assert_greater_equal(train2, train1)
+
+
 def test_gaussian_mixture_n_parameters():
     # Test that the right number of parameters is estimated
   
F422
  rng = np.random.RandomState(0)
@@ -573,6 +618,22 @@ def test_gaussian_mixture_n_parameters():
         assert_equal(g._n_parameters(), n_params[cv_type])
 
 
+def test_bic_1d_1component():
+    # Test all of the covariance_types return the same BIC score for
+    # 1-dimensional, 1 component fits.
+    rng = np.random.RandomState(0)
+    n_samples, n_dim, n_components = 100, 1, 1
+    X = rng.randn(n_samples, n_dim)
+    bic_full = GaussianMixture(n_components=n_components,
+                               covariance_type='full',
+                               random_state=rng).fit(X).bic(X)
+    for covariance_type in ['tied', 'diag', 'spherical']:
+        bic = GaussianMixture(n_components=n_components,
+                              covariance_type=covariance_type,
+                              random_state=rng).fit(X).bic(X)
+        assert_almost_equal(bic_full, bic)
+
+
 def test_gaussian_mixture_aic_bic():
     # Test the aic and bic criteria
     rng = np.random.RandomState(0)
@@ -644,10 +705,10 @@ def test_warm_start():
     # Assert that by using warm_start we can converge to a good solution
     g = GaussianMixture(n_components=n_components, n_init=1,
                         max_iter=5, reg_covar=0, random_state=random_state,
-                        warm_start=False)
+                        warm_start=False, tol=1e-6)
     h = GaussianMixture(n_components=n_components, n_init=1,
                         max_iter=5, reg_covar=0, random_state=random_state,
-                        warm_start=True)
+                        warm_start=True, tol=1e-6)
 
     with warnings.catch_warnings():
         warnings.simplefilter("ignore", ConvergenceWarning)
@@ -720,10 +781,13 @@ def test_monotonic_likelihood():
         X = rand_data.X[cov_type]
         gmm = GaussianMixture(n_components=n_components,
                               covariance_type=cov_type, reg_covar=0,
-                              warm_start=True, max_iter=1, random_state=rng)
+                              warm_start=True, max_iter=1, random_state=rng,
+                              tol=1e-7)
         current_log_likelihood = -np.infty
         with warnings.catch_warnings():
             warnings.simplefilter("ignore", ConvergenceWarning)
+            # Do one training iteration at a time so we can make sure that the
+            # training log likelihood increases after each iteration.
             for _ in range(300):
                 prev_log_likelihood = current_log_likelihood
                 try:
@@ -738,6 +802,8 @@ def test_monotonic_likelihood():
 
 
 def test_regularisation():
+    # We train the GaussianMixture on degenerate data by defining two clusters
+    # of a 0 covariance.
     rng = np.random.RandomState(0)
     n_samples, n_features = 10, 5